云监控产品简介

滴滴云技术支持发表于:2018年08月27日 12:02:04更新于:2018年08月27日 16:27:56

滴滴云监控是一项针对滴滴云和在滴滴云上运行的服务进行监控、事前及时预警发现故障,事后提供翔实的数据用于追查定位问题的云服务,监控系统是整个运维环节,乃至整个产品生命周期中最重要的一环。使用云监控服务,可以全面了解滴滴云上的资源使用情况、性能和运行状况。借助报警服务,可以及时的感知故障并做出反应,保证应用程序顺畅运行。

产品功能

数据收集:能够按照用户指定的频率收集不同的监控数据
数据存储:对监控数据进行长久存储,用于挖掘分析和数据展示
策略配置:报警策略的方便配置
告警通知:如果监控数据达到策略中配置的阈值,会及时发出告警信息
展示数据:对收集到的监控数据,提供图表展示功能
事件监控:所有滴滴云所有服务变动进行记录并展示

产品优势

强大灵活的数据采集:自动发现,支持用户主动push。
丰富的图表展现形式:支持多种聚合展示方式,满足各种场景下的监控数据可视化需求。
人性化的告警设置:最大告警次数、告警级别、告警恢复通知、告警屏蔽、不同时段不同阈值、支持维护周期。
高效率的告警策略管理:支持策略模板、多种告警方式、callback调用。
高可用:整个系统无核心单点,确保在出现物理硬件损坏时仍保持业务可用

应用场景

日常巡检:通过定期查看监控大盘,能够在故障发现前及时的感知。
基础指标监控:通过监控DC2的cpu、内存、io、网络等基础指标,确保实例在高高负载的情况下能及时被用户感知,避免导致业务无法正常运转。
服务异常通知:根据用户配置的告警策略,在监控数据符合告警条件后,用户会及时收到异常通知。
异常定位:在异常发生后,根据历史监控数据及事件监控,快速确定故障原因。