CentOS 上 HDFS 故障排查实操指南
一 快速定位流程
二 常见故障与修复要点
| 症状 | 快速检查 | 修复建议 |
|---|---|---|
| NameNode 无法启动/反复切换 | 查 NameNode 日志;核对 RPC 端口 是否被占用或变更;查看 JournalNode 是否一致 | 释放或更换端口;恢复 JournalNode 多数派一致;必要时从 Standby 手动 checkpoint 再切换 |
| DataNode 反复退服/启动失败 | 查 DataNode 日志;核对 dfs.datanode.data.dir 权限与磁盘;看 磁盘满/坏盘 | 修复磁盘/更换目录;确保运行用户对数据目录 读写;必要时调整 dfs.datanode.failed.volumes.tolerated |
| 处于安全模式无法写入 | hdfs dfsadmin -safemode get | 数据恢复后执行 hdfs dfsadmin -safemode leave |
| 写入失败/副本不足 | hdfs dfsadmin -report 看 Configured/Actual 副本数;查 磁盘空间 | 增加 dfs.replication 或扩容;清理空间;排查 DataNode 退服 与网络分区 |
| 块丢失/坏块 | hdfs fsck / 显示 missing/corrupt | 先迁移/删除受影响文件;从备份恢复;必要时调整 replication 后重传 |
| 权限拒绝 | 本地与 HDFS 权限;运行用户 | 用 hdfs dfs -chmod/-chown 修正;或以具备权限的用户执行 |
| 客户端 UnknownHost/连接超时 | /etc/hosts、DNS、firewall | 修正主机名映射;开放端口;确保客户端可路由到 NameNode |
| 容量 100%/写入失败 | hdfs dfsadmin -report;df -h | 清理无用数据;扩容 DataNode;检查 配额 与 快照 占用 |
三 关键命令清单
四 配置与环境因素排查
五 数据安全与恢复建议