Ubuntu 上 HDFS 故障排查清单
一 快速定位流程
二 常见故障与修复
启动后没有 NameNode
格式化失败或报 “Cannot remove current directory”
典型原因是 dfs.name.dir/dfs.data.dir 目录被占用或权限不足。处理:1) 停止集群 stop-dfs.sh;2) 清理目录(如 /usr/data/hadoop/tmp/dfs/name/current 或 $HADOOP_HOME/tmp);3) 确认非只读文件系统;4) 重新 hdfs namenode -format 再启动。
DataNode 未启动或反复掉线
本机或 IDE 访问虚拟机 HDFS 报 Connection refused / Permission denied
以 root 启动报错 “Attempting to operate on hdfs namenode as root”
在 Hadoop 3.x 需显式指定运行用户(不建议生产以 root 运行):在 sbin/start-dfs.sh / stop-dfs.sh 顶部加入(或写入 /etc/profile.d/hadoop-env.sh 导出环境变量):
HDFS_DATANODE_USER=root
HDFS_DATANODE_SECURE_USER=hdfs
HDFS_NAMENODE_USER=root
HDFS_SECONDARYNAMENODE_USER=root
三 配置与网络检查要点
四 日志与数据一致性检查