Ubuntu HDFS如何监控与调试

Ubuntu 上 HDFS 的监控与调试指南

一监控总览与关键指标

维度	工具或界面	关键指标或信息	典型用途
命令行	hdfs dfsadmin -report	Live/Decommissioning/Stale DataNodes、Capacity/Used/Remaining、Block 总数/缺失副本	快速体检与容量评估
命令行	hdfs fsck /	Missing/Under-replicated/Corrupt blocks、文件与块分布	文件系统完整性与副本一致性
命令行	jps	NameNode/DataNode/JournalNode 进程存活	进程级存活检查
Web UI	NameNode UI	HDFS Overview、Datanodes、Snapshot、Startup Progress	可视化健康检查与节点状态
Web UI	Hue	文件浏览、作业提交、权限管理	日常运维与自助操作
第三方	Prometheus + Grafana	通过 Hadoop/JMX Exporter 采集 JVM/FS/网络/磁盘指标并可视化	时序监控与告警
第三方	Ganglia / Zabbix / Ambari / Cloudera Manager	大规模集群指标聚合、阈值告警、统一管控	企业级监控与运维平台

版本差异提示：NameNode Web UI 默认端口在 Hadoop 2.x 为 50070，Hadoop 3.x 为 9870，访问时请确认版本与端口一致。

二命令行与 Web 的即时检查

进程与连通性
- 检查进程：jps（应见到 NameNode/DataNode，HA 环境还会有 JournalNode）。
- 查看集群报告：hdfs dfsadmin -report（关注 Live/Decommissioning/Stale 节点数与容量）。
- 安全模式：若处于维护状态，使用 hdfs dfsadmin -safemode leave 退出后再做业务操作。
健康检查
- 全集群体检：hdfs fsck /（必要时加 -files -blocks -locations 查看文件/块/位置分布）。
Web 可视化
- NameNode UI：查看 Overview、Datanodes、Snapshot、Startup Progress 等页面，定位节点异常与启动进度问题。
- Hue：进行文件浏览、权限与作业操作，适合非命令行场景的运维与开发。

三日志与系统层面的定位

日志路径与实时查看
- 常见路径：/var/log/hadoop-hdfs/（如 namenode-.log、datanode-.log）。
- 实时跟踪：tail -f /var/log/hadoop-hdfs/*.log，优先关注 ERROR/WARN 与异常堆栈。
服务状态与重启
- 使用 systemctl status hadoop-hdfs-namenode/datanode 检查服务；必要时 start/restart 恢复。
网络与端口
- 连通性：ping <DataNode_IP>、traceroute <DataNode_IP> 排查跨节点网络。
- 端口可达：确认 NameNode RPC 8020、Web UI 50070/9870 未被防火墙阻断（如 ufw/iptables）。
系统与权限
- 磁盘空间：df -h 检查 DataNode 数据目录 是否满。
- 目录权限：核对 HDFS 目录权限 与 Linux 目录权限 是否匹配业务需求。

四常见故障与修复步骤

DataNode 未启动或反复掉线
- 查看 DataNode 日志 报错；核对 dfs.datanode.data.dir 目录权限与磁盘空间。
- 多次格式化 NameNode 会导致 clusterID 不一致：清理 DataNode 数据目录 或统一 VERSION 后再启动（谨慎操作，务必先备份）。
客户端连接被拒绝
- 确认 HDFS 服务已启动（如 start-dfs.sh），并用 jps 校验进程。
- 检查 /etc/hosts 的 IP-主机名映射 是否正确，避免 localhost/127.0.0.1 误配导致路由异常。
安全模式导致写入失败
- 集群启动或恢复阶段可能进入 安全模式；业务写入前执行 hdfs dfsadmin -safemode leave 退出。
块缺失或副本不足
- 执行 hdfs fsck / 定位 Under-replicated/Missing/Corrupt blocks；必要时提高 dfs.replication 或手动修复副本分布。
配置错误
- 核对 core-site.xml（如 fs.defaultFS）、hdfs-site.xml（如 dfs.replication、dfs.namenode.rpc-address、dfs.datanode.data.dir）等关键项，确保与集群拓扑一致。

五长期监控与告警落地

指标采集与可视化
- 使用 Hadoop/JMX Exporter 暴露 JMX 指标，Prometheus 拉取并存储，Grafana 构建 Dashboard（如 Capacity、MissingBlocks、UnderReplicatedBlocks、DN 存活数、RPC 延迟）。
企业级平台
- Ambari / Cloudera Manager 提供 安装、配置、监控、告警 一体化能力，适合大规模与多组件统一管理。
日志聚合与审计
- 启用 日志聚合（Log Aggregation），将各节点日志集中到 HDFS/YARN，便于统一检索与审计分析。
告警规则建议
- 容量阈值：如 Remaining < 15% 告警。
- 健康阈值：Missing/Corrupt Blocks > 0、Stale/Decommissioning DataNodes > 0。
- 可用性阈值：NameNode/关键 DN 进程 DOWN、RPC 错误率/延迟异常、Web UI 不可达。

最新问答