Linux下监控Hadoop性能的可落地方案
一 快速巡检与内置界面
二 系统层监控与瓶颈定位
三 指标采集与可视化
四 关键指标与告警建议
| 维度 | 关键指标 | 常用命令/来源 | 告警建议 |
|---|---|---|---|
| HDFS容量 | Capacity/Used/Remaining、MissingBlocks、CorruptBlocks | hdfs dfsadmin -report、hdfs fsck | Remaining < 10% 或 Missing/Corrupt > 0 |
| HDFS性能 | Block report 延迟、NameNode RPC 队列 | NameNode UI(9870/50070) | RPC队列持续**> 100或GC停顿 > 1s** |
| YARN资源 | Memory Used/Reserved、VCores Used、Pending Containers、NodeManagers Live | ResourceManager UI(8088)、yarn node -list | Pending Containers长时间**> 0或Memory Reserved**异常高 |
| 系统资源 | CPU 使用率、Load、I/O util、网络丢包/重传 | top、iostat、nmon、netstat/sar | I/O util > 80%持续> 5 分钟、丢包/重传增长 |
| 作业性能 | Map/Reduce 进度、Shuffle 耗时、失败/重试次数 | yarn application -list -appStates ALL | 失败/重试增多、Shuffle时间异常拉长 |
五 五分钟落地清单