Linux上Hadoop监控的落地方案
一 监控路径总览
二 快速检查与内置工具
三 指标采集与可视化
四 第三方平台与可视化
五 关键指标与告警示例
| 维度 | 关键指标 | 建议阈值示例 | 说明 |
|---|---|---|---|
| HDFS | Capacity/Used/Remaining、MissingBlocks、UnderReplicatedBlocks | MissingBlocks=0、UnderReplicatedBlocks=0、剩余空间低于阈值 | 容量与副本健康度 |
| YARN | Apps Pending/Running、NodeManagers Available、Memory/Vcores Used% | Pending 持续>0、可用 NodeManager 过少、资源使用率过高 | 队列与资源瓶颈 |
| 节点 | CPU、内存、磁盘 IO、网络 | CPU>80% 持续 5 分钟、磁盘使用率>85% | 节点层资源压力 |
| JVM | Heap Memory Used%、GC 次数/时间 | Old Gen 使用率高、Full GC 频繁 | 服务稳定性与延迟 |