HDFS实时全面监控落地方案
一 总体架构与数据流
二 关键监控指标与阈值建议
| 维度 | 核心指标 | 说明与阈值建议 |
|---|---|---|
| 容量 | 总容量/已用/剩余/使用率 | 使用率持续超过 80% 触发告警,结合业务增长趋势提前扩容 |
| 可用性 | MissingBlocks、UnderReplicatedBlocks | 出现 MissingBlocks > 0 即严重告警;UnderReplicatedBlocks 突增预示复制压力或节点异常 |
| 节点健康 | NumFailedVolumes、Dead/Decommissioning DataNodes | 任一 DataNode 出现 Failed Volumes > 0 告警;Dead/Decommissioning 数量异常需核查 |
| 性能 | RpcQueueTimeAvgTime、SyncsAvgTime、Block 读写次数 | 队列与同步耗时上升常伴随 NameNode/JournalNode 压力或慢盘 |
| 流量 | **Block 读写流量、node_network_{receive | transmit}_bytes_total** |
| 可靠性 | 读写成功率、FGC 次数/耗时 | 成功率下降或 FGC 频繁需联动 JVM/GC 调优 |
| 日志异常 | IOException、NoRouteToHostException、SafeModeException、UnknownHostException | 关键字触发事件告警,辅助定位网络/权限/安全模式问题 |
| 黑盒 | 文件生命周期校验(写后读校验) | 校验失败或时延超阈值即告警,覆盖监控盲区 |
| 以上指标与阈值覆盖 容量、可用性、性能、可靠性 四大类,兼顾 白盒(指标)+黑盒(拨测) 与 日志,可作为告警规则的主干。 |
三 告警分级与规则示例
四 实时性与落地步骤
五 常见坑与优化建议