Linux上Hadoop故障排查实操手册
一 快速定位流程
二 环境与网络检查
三 配置与权限核查
四 常见故障与修复要点
| 症状 | 快速检查 | 修复建议 |
|---|---|---|
| NameNode 无法启动 | 查 NameNode 日志;看 dfs.namenode.name.dir 目录权限/磁盘空间 | 若确认为元数据损坏且无备份,按流程备份后执行hadoop namenode -format 并重启;优先恢复备份而非贸然格式化 |
| DataNode 未注册/容量 0 | hdfs dfsadmin -report 显示 Configured Capacity: 0;查 DataNode 日志 | 核对 dfs.datanode.data.dir 路径、权限与磁盘空间;修正 /etc/hosts 主机名解析;确保节点间网络与端口可达 |
| NameNode 处于 SafeMode | 控制台或日志提示 Safe mode is ON | 数据恢复完成后执行hdfs dfsadmin -safemode leave 退出安全模式 |
| 作业失败/容器异常 | yarn logs -applicationId |
依据日志定位失败阶段(如 AM 启动、资源申请、Container 拉取等),调整资源配置或修复应用代码/依赖 |
| 端口不通/节点间不通 | netstat/ss 查监听;ping/traceroute 测连通;防火墙策略 | 开放必要端口(如 8088、50010、50020),修正安全组与防火墙规则,确保主机名解析一致 |
| SecondaryNameNode 启动失败(锁文件) | 日志出现 in_use.lock (Permission denied) | 删除残留锁文件并以格式化时的同一用户重启;或检查目录权限与属主 |
| 磁盘满/Inode 耗尽 | df -h、df -i 检查空间与 Inode | 清理临时/无用数据,扩容磁盘或调整 HDFS 存储策略,必要时紧急释放空间以保障写入 |
五 性能与长期优化