Debian Hadoop 集群故障排查与修复
一、快速定位流程
二、常见故障与修复要点
三、服务重启与最小可用验证
四、Debian 系统层面的检查与加固
五、排障清单模板
| 检查项 | 命令/位置 | 期望结果 | 异常处置 |
|---|---|---|---|
| 进程存活 | jps | 主节点含 NameNode/ResourceManager;从节点含 DataNode/NodeManager | 启动缺失进程,复核启动日志 |
| 端口监听 | netstat -tpnl | 9000/8088 等端口处于监听且对集群网段可达 | 修正配置与防火墙,重启服务 |
| 主机解析 | cat /etc/hosts、hostname | 主机名一致,无 127.0.1.1 绑定到业务主机名 | 清理 hosts,统一 /etc/hosts 与配置 |
| 配置正确 | core-site.xml、hdfs-site.xml、yarn-site.xml | RPC/HTTP 地址、副本数、资源参数合理 | 回滚备份或修正后重启 |
| 日志异常 | HADOOP_HOME/logs/*.log | 无持续 ERROR/异常堆栈 | 针对堆栈逐项修复 |
| Web UI 健康 | http:// |
节点数、容量、应用状态正常 | 结合日志与网络复核 |
| 系统资源 | top/vmstat/iostat、/var/log/syslog | CPU/内存/磁盘无瓶颈,无系统级报错 | 扩容、调优或修复硬件/文件系统 |