Ubuntu Hadoop日志分析与排查指南
一 日志位置与快速定位
二 常用命令与高效检索
三 典型故障的日志特征与处置
| 症状 | 日志关键词/位置 | 快速处置 |
|---|---|---|
| DataNode 启动失败,namespaceIDs 不一致 | DataNode 日志出现 Incompatible namespaceIDs | 停止集群,清理 dfs.data.dir 数据目录,重新 hadoop namenode -format,再启动 |
| DataNode 连不上 NameNode | DataNode 日志出现 NoRouteToHostException | 关闭防火墙(如 service iptables stop),检查网络与主机名解析 |
| 上传/写入 HDFS 失败 | DFSClient 日志出现 Bad connect ack / Unable to create new block | 关闭防火墙,必要时检查 SELinux,确认 DataNode 端口连通 |
| NameNode 处于安全模式 | 操作报错 SafeModeException | 等待自动退出或执行 hadoop dfsadmin -safemode leave |
| UnknownHostException | 启动或提交任务报 UnknownHostException | 将主机名加入 /etc/hosts,避免仅用 127.0.0.1 或 localhost |
| 输出目录不为空 | 提交作业报错 output already exists | 先删除 HDFS 输出目录:hadoop fs -rm -r /path/to/output |
| 磁盘/权限导致 DataNode 目录不可用 | DataNode 日志出现 All directories in dfs.data.dir are invalid 或权限不符 | 按日志修正目录权限(如 rwxr-xr-x),确保进程用户对目录可读写执行 |
| 以上错误与处置要点可直接对照日志定位并修复,必要时结合 UI 与系统日志交叉验证。 |
四 系统化分析流程
五 生产环境最佳实践