Linux系统里Hadoop故障怎么排查

Linux下Hadoop故障排查实战流程

一快速定位与基础检查

确认进程是否存活：执行jps，核对关键进程是否存在（如NameNode、DataNode、SecondaryNameNode、ResourceManager、NodeManager）。若缺失，优先查看对应日志定位启动失败原因。
查看服务健康：
- HDFS：执行hdfs dfsadmin -report 检查节点存活与容量；必要时执行hdfs fsck / 检查文件系统一致性。
- YARN：执行yarn node -list 查看节点注册与健康；用yarn application -list -appStates ALL 查看应用状态。
日志与控制台输出：Hadoop组件日志通常在**$HADOOP_HOME/logs** 或 /var/log/hadoop、/var/log/yarn；任务级日志可用yarn logs -applicationId <app_id> 拉取。
资源与系统：用top/htop、free -h、df -h、iostat/vmstat 检查CPU、内存、磁盘与IO；系统级错误可查dmesg、/var/log/messages、/var/log/syslog。
Web界面：访问NameNode：http://:9870、ResourceManager：http://:8088 观察集群与作业概况。

二常见故障与修复要点

进程未启动或启动即退出：
- 用tail -f $HADOOP_HOME/logs/*.log 实时看错误；检查端口是否被占用（如netstat -tulnp | grep ），必要时调整配置端口或释放占用。
- 避免用root直接启动（Hadoop 3.x会报错），改用安装Hadoop的普通用户。
节点无法注册或通信异常：
- 基础网络：ping、traceroute 检查连通；核对**/etc/hosts** 主机名与IP映射，避免仅解析到127.0.0.1。
- 防火墙/安全组：开放必要端口（如9000、50010、8088 等），或临时关闭验证。
- SSH免密：确保主节点可免密登录所有从节点（便于启动脚本分发）。
NameNode/DataNode元数据不一致：
- 日志出现ClusterID mismatch 或 Incompatible namespaceID 时，先停集群，清理DataNode数据目录（如dfs.datanode.data.dir），再按需格式化NameNode并重启；注意格式化会清空HDFS数据，务必先备份。
HDFS处于安全模式：
- 只读状态执行hdfs dfsadmin -safemode leave 退出后再进行写操作。
磁盘空间不足：
- df -h 发现磁盘满会导致DataNode异常或写入失败；清理无用数据或扩容，必要时执行balancer 均衡块分布。
连接超时与性能瓶颈：
- 调整dfs.client.socket-timeout、dfs.datanode.socket.write.timeout、dfs.datanode.handler.count 等参数缓解读写/连接超时；结合iostat/vmstat 排查IO压力。

三高频命令清单

目标	命令示例
进程存活	jps
HDFS健康与容量	hdfs dfsadmin -report；hdfs fsck /
查看HDFS根目录	hdfs dfs -ls /（Hadoop 3.x 推荐使用 hdfs dfs 替代 hadoop dfs）
YARN节点与应用	yarn node -list；yarn application -list -appStates ALL；yarn logs -applicationId <app_id>
实时查看日志	*tail -f $HADOOP_HOME/logs/hadoop--namenode-.log；grep “ERROR” $HADOOP_HOME/logs/.log**
资源与系统	top/htop、free -h、df -h、iostat、vmstat、dmesg、/var/log/messages、/var/log/syslog
Web界面	http://:9870（NameNode）；http://:8088（ResourceManager）

四系统化排查路径

现象收集：记录报错时间、作业/操作、节点、日志片段与截图（便于复盘与求助）。
分层定位：先看进程与端口 → 再看服务日志 → 然后查HDFS/YARN命令输出 → 最后看系统资源与网络。
最小复现：在测试环境用相同数据与配置复现，逐步排除代码、数据、配置、资源、网络等因素。
变更回滚：若近期变更（升级、配置、数据迁移）后出现异常，优先回滚到上一个稳定版本/配置。
临时止血：空间不足先清理或扩容；节点异常先隔离；必要时重启单组件而非整集群。
长期治理：完善监控告警（如 Prometheus/Grafana）、日志集中（如 ELK）、备份与巡检（如定期 fsck、容量阈值告警）。

五求助与升级建议

提交问题时提供：Hadoop版本、操作系统与内核、集群规模、关键配置片段（如core-site.xml、hdfs-site.xml、yarn-site.xml）、相关日志与命令输出、已尝试的措施与结果。
优先查阅官方文档与社区（如Stack Overflow、Hadoop邮件列表），在提问中结构化呈现信息可显著提升响应效率。

最新问答