饿了么监控系统 EMonitor 与美团点评 CAT 的对比(en)

2019-11-01 00:00:00 mimukeji

背景介绍

饿了么监控系统EMonitor：是一款服务于饿了么所有技术部门的一站式监控系统，覆盖了系统监控、容器监控、网络监控、中间件监控、业务监控、接入层监控以及前端监控的数据存储与查询。每日处理总数据量近PB，每日写入指标数据量百T，每日指标查询量几千万，配置图表个数上万，看板个数上千。

CAT：是基于Java 开发的实时应用监控平台，为美团点评提供了全面的实时监控告警服务

本文通过对比分析下2者所做的事情为契机讨论监控系统或许该有的面貌，以及浅谈下监控系统发展的各个阶段

首先要强调的是这里我们只能拿到github上开源版CAT的最新版3.0.0，所以是基于此进行对比

接下来说说CAT做了哪些事情？

抽象出Transaction、Event、Heartbeat、Metric 4种监控模型。

针对Transaction和Event都固定了2个维度，type和name，并且针对type和name进行分钟级聚合成报表并展示曲线。

针对上述Transaction、Event的type和name分别有对应的分钟级的采样链路

目前支持Counter和Timer类型的打点，支持tag，单机内单个Metric的tag组合数限制1000。
并且有简单的监控看板，如下图所示：

比如和Mybatis集成，在客户端开启相关的sql执行统计，并将该统计划分到Transaction统计看板中的type=SQL的一栏下

可以针对上述的Transaction、Event等做一些简单的阈值告警

饿了么EMonitor借鉴了CAT的相关思想，同时又进行了改进。

针对Transaction和Event都固定了2个维度，type和name，不同地方在于聚合用户发过来的数据

CAT的架构图如下所示：

CAT的消费机需要做如下2件事情：

EMonitor的架构图如下所示：

EMonitor分2路对数据进行隔离处理：

Real-Time Streaming Compute：对用户发过来的链路中的Transaction、Event等监控模型转变成指标数据并进行10s的预聚合，同时也对用户发过来的Metric数据进行10s预聚合。最后将10s预聚合的数据写入到LinDB时序数据库（已开源，有兴趣的可以关注star下）中，以及kafka中，让告警模块watchdog去消费kafka做实时告警
Real-Time Data Writer：对用户发过来的链路数据构建链路索引、向HDFS和HBase写入索引和链路数据，同时会构建应用之间的依赖关系，将依赖关系写入到Neo4j中

所以EMonitor和CAT的一个很大不同点就在于对指标的处理上，EMonitor交给专业的时序数据库来做，而CAT自己做聚合就显得功能非常受限，如下所示：

CAT只能整小时的查看type和name数据，不能跨小时，即不能查看任意2个时间之间的报表数据，EMonitor没有此限制
CAT没法查看所有type汇总后的响应时间和QPS，EMonitor可以灵活的自由组合type和name进行聚合
CAT的type和name报表是分钟级的，EMonitor是10s级别的
CAT的type和name没能和历史报表曲线直接对比，EMonitor可以对比历史报表曲线，更容易发现问题
CAT的type和name列表首页展示了一堆数字，无法立即获取一些直观信息，比如给出了响应时间TP99 100ms这个到底是好还是坏，EMonitor有当前曲线和历史曲线，相对来说可以直接判断到底ok不ok
CAT的TP99、TP999基于单机内某个小时内的报表是准确的，除此之外多机或者多个小时的聚合TP99、TP999是用加权平均来计算的，准确性有待提高

但是CAT也有自己的优势：