Linux下Kafka监控要点
一 监控层次与核心目标
二 关键指标与阈值建议
| 维度 | 关键指标 | 说明与建议 |
|---|---|---|
| 主机 | CPU使用率、Load | 持续接近或超过**80%**需排查热点与分区布局 |
| 主机 | 可用内存、Page Cache | 避免频繁换页,关注系统可用内存与缓存命中 |
| 主机 | 磁盘IOPS/吞吐/await | 写放大或await升高常见于刷盘/压缩/副本同步压力 |
| 主机 | 网络吞吐/丢包/重传 | 吞吐受限或重传上升影响复制与消费 |
| Broker | 入/出字节速率、请求速率 | 与业务峰值匹配,突降可能预示阻塞 |
| Broker | 请求耗时分解(Queue/Remote/Local/Response) | 定位瓶颈在网络、I/O、处理哪个环节 |
| Broker | 网络/请求队列长度 | 队列持续增长提示后端处理跟不上 |
| Broker | 活跃Broker数/Controller存活 | 异常掉线或Controller频繁切换需告警 |
| 主题/分区 | 分区数/Leader分布 | 均衡分布避免热点,扩容时关注分区再均衡 |
| 主题/分区 | ISR数量与收缩频率 | ISR收缩频繁或UnderReplicated需关注副本同步 |
| 主题/分区 | 日志目录容量 | 接近磁盘阈值会触发限流/写入失败 |
| 消费者组 | 消费速率、提交偏移量 | 消费速率持续低于生产需排查Lag与再均衡 |
| 消费者组 | Lag(总量与分区最大Lag) | 以业务可容忍延迟设定阈值,分区最大Lag优先 |
| JVM | GC次数/停顿时间 | Full GC或长停顿会放大请求延迟与超时 |
| JVM | 堆使用 | 堆过大/过小均可能引发GC或OOM风险 |
| 上述指标可通过JMX与Kafka自带工具获取,配合kafka_exporter暴露给Prometheus/Grafana进行可视化与告警。 |
三 常用工具与采集方式
四 告警规则与排障路径
五 配置与容量优化建议