Ubuntu 上 HDFS 的监控与调试指南
一 监控总览与关键指标
| 维度 | 工具或界面 | 关键指标或信息 | 典型用途 |
|---|---|---|---|
| 命令行 | hdfs dfsadmin -report | Live/Decommissioning/Stale DataNodes、Capacity/Used/Remaining、Block 总数/缺失副本 | 快速体检与容量评估 |
| 命令行 | hdfs fsck / | Missing/Under-replicated/Corrupt blocks、文件与块分布 | 文件系统完整性与副本一致性 |
| 命令行 | jps | NameNode/DataNode/JournalNode 进程存活 | 进程级存活检查 |
| Web UI | NameNode UI | HDFS Overview、Datanodes、Snapshot、Startup Progress | 可视化健康检查与节点状态 |
| Web UI | Hue | 文件浏览、作业提交、权限管理 | 日常运维与自助操作 |
| 第三方 | Prometheus + Grafana | 通过 Hadoop/JMX Exporter 采集 JVM/FS/网络/磁盘 指标并可视化 | 时序监控与告警 |
| 第三方 | Ganglia / Zabbix / Ambari / Cloudera Manager | 大规模集群指标聚合、阈值告警、统一管控 | 企业级监控与运维平台 |
二 命令行与 Web 的即时检查
三 日志与系统层面的定位
四 常见故障与修复步骤
五 长期监控与告警落地