无值报警

no data

什么是无值报警

0 不代表无值, 无值是什么也没有, 你可以理解成 NULL ,但其实也不是 NULL。 一句话, 无值就是没有值,无值监控就是监控这条时序曲线有没有值。

为什么要有无值报警呢

因为在服务器和服务的生命周期中,经常出现监控数据无法上报的问题,这时我们设定的阈值报警策略就很难生效,因为没有值上报上来,无值监控这时就起到了作用。也许有人说这和 ping 报警很类似啊,确实有一定的场景重叠,但是 ping 报警有时候并不能发现这个问题,我来举个例子, 之前我们有些高负载的服务器经常被 hang 住,服务器内部进程出现了异常,监控 agent 已经被 hang 住了,但是外部的 ping 是没有问题的,这时候不会触发任何报警,但是服务其实已经受到了影响,无值报警就是为了解决这种监控盲点应运而生的。

哪些场景会触发无值报警呢

  • 监控 Agent 没有正常启动
  • 监控 Agent 被 hang 住
  • 监控系统自身故障,比如消息队列写入数据库延时过高

针对上面的第三点,在大量无值报警被触发时,同样会触发系统的收敛策略,从而避免运维开发人员被茫茫报警所淹没。

使用企业版获得该功能。