Kafka监控的关键指标涵盖Broker、Topic/Partition、Producer、Consumer、ZooKeeper等维度,以下是核心指标及说明:
UnderReplicatedPartitions(未同步分区数,>0需排查)、ISRShrinksPerSec/ISRExpandsPerSec(ISR增减频率)。RequestHandlerAvgIdlePercent(请求处理空闲率,过低表示压力大)、TotalTimeMs(请求处理总时间,波动大需优化)。ActiveControllerCount(活跃Controller数,应为1)、OfflinePartitionsCount(离线分区数,>0说明服务降级)。MessagesInPerSec(每秒消息数)、BytesInPerSec/BytesOutPerSec(字节吞吐量)。LogEndOffset(最新消息位移)、LogSize(分区占用磁盘大小)。Isr(同步副本集合,需与副本总数一致)、LeaderEpoch(Leader版本,异常时需检查)。record-send-rate(每秒发送消息数)、batch-size-avg(批量大小,影响吞吐)。record-error-rate(错误率)、acks(确认机制,all最可靠但吞吐低)。request-latency-avg(请求平均延迟)、bufferpool-wait-time(等待缓冲区时间,>0说明生产受阻)。records-lag(消费滞后数,>0说明未及时消费)、records-lead(消费位点与分区最小位点差距,接近0需警惕丢消息)。fetch-rate(每秒拉取消息数)、poll-latency-avg(拉取延迟,>100ms说明压力大)。rebalance-rate(重平衡频率,过高说明消费者组不稳定)。ZookeeperDisconnects(断开次数)、ZookeeperSessions(活跃会话数)。ZookeeperRequestLatency(请求延迟,突增需排查网络或ZK负载)。KAFKA_JMX_OPTS)+ Prometheus + Grafana(可视化)。核心逻辑:优先监控副本同步(避免数据丢失)、消费滞后(避免积压)、请求延迟(影响吞吐),结合业务场景设置阈值告警。