云监控常见问题

滴滴云技术支持发表于:2018年08月27日 12:09:11更新于:2019年07月01日 16:14:19

为什么看很长时间的图(例如1天),与曾经看到过的值不一样了?

  1. 监控系统不是日志系统。随着时间的推移,离现在越久的指标,越不重要。

  2. 为节约成本及系统资源。监控系统会自动将历史的指标做采样。只有最近2个小时的值是原始值,越久的数据,精度越低,越失真。

归档策略如下

时间跨度

数据粒度

说明

720 * 周期原始点原始点,只存720个周期(10s周期 存2小时)
11520 * 周期 * 66 * 周期6个原始点归档成一个,存11520个(1min周期 存8天)
1440 * 周期 * 180180 * 周期180个原始点归档成一个,存1440个(30min周期 存30天)
1440 * 周期 * 10801080 * 周期1080个原始点归档成一个,存1440个(3h周期 存180天)

 为什么有的只上报整数的监控指标会有小数点?

  • 非原始点,会做采样。采样的算法是求平均,所以就会有小数出现。

  图表没有监控数据

  • 检查机器是否存活,网络是否正常

 没收到告警?

  • 请确认自己是否在对应的告警组

报警通知方式目前支持哪些?

报警级别

短信

站内信

邮件

P1
P2x