温馨提示×

温馨提示×

您好,登录后才能下订单哦!

密码登录×
登录注册×
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》

监控报警优化体会

发布时间:2020-02-29 09:41:08 来源:网络 阅读:134 作者:运维瑞勇 栏目:系统运维

个人体会,希望能帮助大家~。
报警 + 消息通道 + 自愈处理,优化监控报警
1、报警类,可以分为灰色报警、蓝色报警(重要)、红色报警(高危);如使用zabbix;
2、每类报警单独一个报警群,黄色、15分钟必须有SRE回复,红色必须10分钟内回复;后台埋点使用自动化标记统计 报警与回复时间差,超期没有人员回复跟进,直接自动电话通知相关人员,在自动电话后5分钟未回复 处理中,那么直接后台记录超时;每日、周统计按产品线、或人员 统计总报警数、及超时数、进行考核。可以使用某钉的api接口二次开发实现用户是否恢复记录,及自动电话通知。
3、有些异常类,报警后 + 自愈自动处理。 或 巡检类 + 自愈自动处理。
所有报警类消息,及 回复记录 全部自动搜集入库,如回复信息 ,进行分类 ,如:更新,cpu 、内存、故障、系统bug等 ,在一个报警时候,通过消息中心发到相关群里,然后后面加上最近 1天、3 天、7天出现次数; 及 之前此类报警的 人员回复的信息数据展示,如 之前人员回复 更新 60%, 内存30%; 推荐 最高值操作。
4、报警类的回复统计,进行分类后查看每日、周 的排名情况 ,若是更新类报警较多,那么直接在每次更新时候,通过屏蔽消息通道接口 屏蔽此类更新相关的报警(屏蔽5分钟、10分钟自定),这样更新时候 就不报警到 相关报警群里了,但是 监控工具如zabbix还要继续展示出来。减少了更新导致的报警;
5、因为自愈、自动处理,给隐瞒了部分问题。
”如果一个机器经常出现 CPU_IDLE 报警,那么我们可以将现在的监控策略进行调整,比如说,以前 5min 内出现 5 次就报警,现在可以调整为 10min 内出现 20 次再报警,或者直接删除这个报警策略,或者将报警短信调整为报警邮件,或者各种类似的手段。但这个机器为什么出现 CPU_IDLE 报警,却并没有人去关注,更别提解决了“
每日、周统计 自愈处理的名称、次数; 按人员、 部门业务线 进行维度统计,某个自愈较多的,就要优化程序或其他问题,来减少自愈次数;某个机器突然出现同类报警数增多,有可能就有问题的预兆,报警类较多,直接有报警仪表盘展示各类报警曲线,通过曲线也发现问题。~~ 后期报警少了后,再返回来跟进为啥能引起自愈的问题,如磁盘报警一直报警就自动处理,那么某个时间自愈较多了是否代码debug日志了或者 有异常了导致日志多,导致频繁清理?

参考:
https://www.infoq.cn/article/1AofGj2SvqrjW3BKwXlN?utm_source=infoq&utm_medium=article&utm_campaign=newinfoq&utm_content=language2019&utm_term=701
摆脱无效报警?十年运维监控报警优化经验总结

向AI问一下细节

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

AI