Kafka监控落地方案
一 监控体系与分层
二 快速落地步骤
三 关键指标与告警规则示例
四 日志与系统资源监控
五 工具选型与适用场景
| 工具 | 类型 | 主要用途 | 适用场景 |
|---|---|---|---|
| JMX | 指标接口 | 暴露 Broker/Producer/Consumer 指标 | 对接 Prometheus/可视化/告警 |
| Kafka Exporter | 指标采集 | 将 JMX 转为 Prometheus 指标 | 自建开源监控栈 |
| Prometheus + Grafana | 时序存储与可视化 | 存储、查询、面板展示 | 统一监控与告警底座 |
| Burrow | 消费延迟 | Group Lag 与健康状态 | 消费积压与 SLA 观测 |
| Kafdrop | 在线观测 | Topic/分区/消费者组浏览 | 临时排查与演示 |
| Kafka Manager(CMAK) | 管理与监控 | 多集群管理、基础监控 | 运维便捷性优先 |
| Confluent Control Center | 商业监控 | 集中监控、治理与告警 | 企业级一体化 |
| ELK/Splunk | 日志平台 | 日志收集、检索、可视化 | 问题定位与审计 |
| Netdata | 系统监控 | 主机资源实时监控 | 基础设施健康度 |