Kafka监控需重点关注以下关键指标,覆盖集群、生产者、消费者及ZooKeeper等组件,确保系统稳定运行:
UnderReplicatedPartitions(未同步分区数,>0表示副本异常)、ISRShrinksPerSec/ISRExpandsPerSec(ISR收缩/扩展频率)。ActiveControllerCount(活跃Controller数量,正常应为1)、OfflinePartitionsCount(离线分区数,>0需排查)。MessagesInPerSec(消息吞吐量)、BytesIn/BytesOutPerSec(流量监控)、RequestHandlerAvgIdlePercent(Handler空闲率,过低表示压力大)。record-send-rate(消息发送速率)、request-latency-avg(请求平均延迟)、batch-size-avg(批量大小)。record-error-rate(错误率)、retries(重试次数),需关注acks配置是否为all以保证数据不丢失。records-lag(消费滞后量,>0表示积压,需告警)、fetch-rate(拉取速率)、commit-rate(Offset提交频率)。poll-latency-avg(拉取延迟,>100ms需关注)、heartbeat-rate(心跳频率,异常可能触发重平衡)。LogEndOffset(最新位点)、LogStartOffset(起始位点)、Size(分区占用磁盘大小)。IsrShrinksPerSec(ISR缩减频率,频繁收缩需排查Follower异常)。ZookeeperRequestLatency(请求延迟)、ZookeeperOutstandingRequests(未处理请求数)。工具推荐:通过Prometheus+Grafana采集JMX指标,结合Kafka自带命令行工具(如kafka-consumer-groups.sh)辅助验证。
以上指标覆盖Kafka核心运行状态,可根据业务场景调整告警阈值,例如对records-lag和UnderReplicatedPartitions设置严格告警规则。