Linux下监控HDFS性能的可落地方案
一 监控入口与快速检查
二 关键指标与告警阈值
| 维度 | 关键指标 | 建议阈值或动作 |
|---|---|---|
| 容量 | DFS 使用率 | 超过**80%**触发告警,清理或扩容 |
| 可用性 | 丢失块数 MissingBlocks | 不为0即告警,排查副本与磁盘 |
| 健康 | 安全模式 | 处于安全模式时写入受阻,需评估退出条件 |
| 负载 | DataNode 数量/容量分布 | 不均衡时运行 hdfs balancer |
| 性能 | 吞吐量/延迟/IOPS | 持续下滑时联动排查网络/磁盘/CPU |
| 主机 | 磁盘 I/O、CPU、内存 | 使用 iostat/vmstat/top 识别瓶颈 |
| JVM | NameNode/DataNode 堆与 GC | 堆紧张或 Full GC 频繁需调优或扩容 |
| 以上阈值与动作可结合业务容忍度微调,并通过可视化与告警系统固化策略。 |
三 持续监控与可视化方案
四 Linux与JVM层排障命令
五 性能瓶颈定位与优化路径