网站建设的作用是什么,建一个多用户团购网站需要多少钱,阿坝住房和城乡建设厅网站,重庆市建设工程信息官方网站前言#xff1a;上期分享我们提到了指标异常检测实践要素中的三个方面#xff1a;以面对业务变动为前提#xff0c;确定业务波动是周期性还是非周期性#xff0c;进而选对算法#xff1b;通过确认业务的常规指标#xff0c;确定异常方向进行监测#xff08;上基带 / 下基…前言上期分享我们提到了指标异常检测实践要素中的三个方面以面对业务变动为前提确定业务波动是周期性还是非周期性进而选对算法通过确认业务的常规指标确定异常方向进行监测上基带 / 下基带 / both考虑不同时段的检测差异从而设定合理的运维日历并做出相应的算法模型匹配。戳→擎创夏洛克AIOps产品新说 | 指标异常怎么做能更好配合业务变化一一键回看上期精彩本期分享将继续通过一些场景小故事进行实践要素的后续分享 使用角色张三 企业应用运维人员 / 平台云运维人员 / 基础设施运维人员 实践重点考虑不同时段的检测差异、优化模型参数、优化告警阈值、长期关注数据质量产品擎创夏洛克指标解析中心一、考虑不同时段的检测差异 工作日/非工作日的不同阈值需求依旧选择超级网银这一业务该业务中有三大类型跨行实时转账、跨行账户查询、跨行资金归集这三类业务在对公和对私的交易时间安排上大有不同。把跨行实时转账单拎出来以交易量对公指标为监测目标在工作日和非工作日的不同时段条件下对于告警阈值规则的选择应该如何呢张三通过指标解析中心以将其分为以下三类。▲Part.1敏感度高正常工作日上班期间对交易量对公指标检测设定的告警策略是在2个检测窗口内满足以下规则则触发告警异常度大于90则触发告警级别为严重异常度大于60则触发告警级别为一般▲Part.2敏感度低周末双休及工作日下班时段对交易量对公指标检测设定的告警策略是在3个检测窗口内满足以下规则则触发告警异常度大于80则触发告警级别为一般指标值小于100则不监测▲Part.3静默处理在节假日期间超级网银业务通常是停滞的这期间设定告警监测为关闭状态。根据业务类型在时间上的特点设定不同的阈值及告警规则能够节省算力的同时更精确的监测指标是否存在异常。二、优化告警阈值 固定阈值 / 动态阈值 / 不监测指标在不同的阈值区间需要有不同的检测策略通过算法检测智能设定阈值应用不同规则模式保障检测结果的准确性。●以CPU的使用率为例1.固定阈值某一时段CPU的使用率会随着业务的体量增长而水涨船高由于负载过高会触碰警戒红线而引起告警这个负载的极限值根据监控需求设置固定阈值即可。2.动态阈值这一天张三在白班值班在不同时段业务交易的数量不同因此CPU使用率的指标数值在中位区间来回波动指标解析中心采用动态阈值的监测规则在监测过程中发现有2次数值突破黄线大概率要触碰警戒红线的趋势及时进行了告警张三迅速查看并及时找到故障根源进行解决使得业务运营没有出现损失。3.不监测与固定阈值相似的是很多常规时段里如工作日休息业务是处于低交易状态的因此指标数值一直在低位区间波动这并不会造成任何负面影响因此指标解析中心会对低区间的规则设定为不监测。三、 长期关注数据质量 配置规则 / 查看告警指标异常检测需要由高质量的指标数据供给来保证结果的高可用性而保证数据供给质量的前提是对指标数据质量的监测能力。张三为长期保证数据质量的可用性通过指标解析中心配置了两条规则1.监控连续数据缺失在检查周期内连续x分钟/小时内无指标示例的数据则记录告警2.监控随机数据缺失在检查周期内按照比例检查各指标实例的确实情况并记录。做好规则配置以后可以定期在告警中心里查看低质量的数据源及缺失数据的时长和比例有据可循的进行针对性优化及改善。四、优化算法模型 简化算法调参算法的调优调参一直是令张三头疼的一件事儿系统在使用动态阈值检测的时候需要有一种自动优化模型的能力。指标解析中心在学习历史数据建议训练学习周期为14-30天的基础上只要附加一些符合该类业务异常敏感度的设定即能够自动简单的生成相对最优的算法模型避免无效告警的出现。本期关于指标解析中心的一些能力介绍到此告一段落虽然是在说产品的一些功能但其实这也是擎创在指标方向探索出来的一些能力建设思路希望能为大家带来或多或少的帮助。未来擎创将继续从业务视角出发打造更具实战性、自动化的指标产品助力业务运营更加平稳高效。擎创科技Gartner连续推荐的AIOps领域标杆供应商。公司致力于协助企业客户提升对运维数据的洞见能力优化运维效率充分体现科技运维对业务运营的影响力。行业龙头客户的共同选择更多运维思路与案例持续更新中敬请期待随手点关注更新不迷路