为什么看很长时间的图(例如1天),与曾经看到过的值不一样了?
监控系统不是日志系统。随着时间的推移,离现在越久的指标,越不重要。
为节约成本及系统资源。监控系统会自动将历史的指标做采样。只有最近2个小时的值是原始值,越久的数据,精度越低,越失真。
归档策略如下
时间跨度 | 数据粒度 | 说明 |
---|---|---|
720 * 周期 | 原始点 | 原始点,只存720个周期(10s周期 存2小时) |
11520 * 周期 * 6 | 6 * 周期 | 6个原始点归档成一个,存11520个(1min周期 存8天) |
1440 * 周期 * 180 | 180 * 周期 | 180个原始点归档成一个,存1440个(30min周期 存30天) |
1440 * 周期 * 1080 | 1080 * 周期 | 1080个原始点归档成一个,存1440个(3h周期 存180天) |
为什么有的只上报整数的监控指标会有小数点?
非原始点,会做采样。采样的算法是求平均,所以就会有小数出现。
图表没有监控数据
检查机器是否存活,网络是否正常
没收到告警?
请确认自己是否在对应的告警组
报警通知方式目前支持哪些?
报警级别 | 短信 | 站内信 | 邮件 |
---|---|---|---|
P1 | √ | √ | √ |
P2 | x | √ | √ |