Ubuntu HDFS故障排查步骤是什么

Ubuntu环境下HDFS故障排查步骤

1. 检查HDFS服务状态

使用systemctl命令查看NameNode、DataNode等核心服务的运行状态，确认服务是否已启动。若服务未运行，尝试手动启动并观察报错信息。
示例命令：

systemctl status hadoop-hdfs-namenode  # 检查NameNode状态
systemctl status hadoop-hdfs-datanode  # 检查DataNode状态
systemctl start hadoop-hdfs-namenode   # 启动NameNode（若未运行）

2. 查看日志文件定位具体错误

HDFS的日志文件记录了详细的错误信息，是排查问题的核心依据。重点查看以下日志：

NameNode日志：/var/log/hadoop-hdfs/hadoop-<username>-namenode-<hostname>.log
DataNode日志：/var/log/hadoop-hdfs/hadoop-<username>-datanode-<hostname>.log
使用tail -f命令实时跟踪日志输出，定位关键词（如“ERROR”“Exception”）。
示例命令：

tail -f /var/log/hadoop-hdfs/hadoop-hadoop-namenode-ubuntu.log

3. 验证配置文件正确性

检查HDFS核心配置文件（core-site.xml、hdfs-site.xml）的关键配置项是否符合要求，避免因配置错误导致服务异常：

core-site.xml：确认fs.defaultFS（NameNode RPC地址，如hdfs://localhost:9000）设置正确；
hdfs-site.xml：确认dfs.namenode.name.dir（NameNode元数据目录）、dfs.datanode.data.dir（DataNode数据目录）路径存在且具备读写权限；
mapred-site.xml/yarn-site.xml（可选）：若涉及MapReduce或YARN，检查相关配置（如mapreduce.framework.name）是否与HDFS兼容。

4. 测试网络与端口连通性

HDFS集群节点间需通过网络通信，需确保：

节点间网络可达：使用ping命令测试NameNode与DataNode之间的连通性；
端口未被占用：使用netstat -tuln或ss -tuln检查HDFS关键端口（如NameNode的9000、DataNode的50010）是否正常监听，且未被其他进程占用。
示例命令：

ping <datanode_ip>  # 测试DataNode连通性
netstat -tuln | grep 9000  # 检查NameNode端口

5. 检查磁盘空间与权限

磁盘空间：使用df -h命令检查DataNode磁盘空间使用情况，确保剩余空间大于HDFS配置的dfs.datanode.du.reserved（默认10%）；
目录权限：确认HDFS数据目录（如dfs.namenode.name.dir、dfs.datanode.data.dir）的所属用户为hadoop（或运行HDFS的用户），且具备读写权限（chmod -R 755）。
示例命令：

df -h  # 查看磁盘空间
ls -ld /data/hdfs/namenode  # 检查NameNode目录权限
chown -R hadoop:hadoop /data/hdfs/namenode  # 修正权限（若需要）

6. 使用HDFS命令检查集群状态

通过HDFS Shell命令获取集群整体状态，识别数据块副本、DataNode健康等问题：

查看集群报告：hdfs dfsadmin -report，确认DataNode数量、存活状态及存储容量；
检查文件系统完整性：hdfs fsck / -files -blocks -locations，检测损坏的数据块并修复（使用-delete选项删除损坏块，需谨慎操作）。
示例命令：

hdfs dfsadmin -report  # 查看集群状态
hdfs fsck / -files -blocks  # 检查文件系统完整性

7. 处理安全模式问题

若集群处于安全模式（NameNode启动时的临时状态），无法执行写操作。使用以下命令退出安全模式：

hdfs dfsadmin -safemode leave

若无法退出，需等待DataNode上报足够的数据块（可通过hdfs dfsadmin -report查看“Live datanodes”数量）。

8. 重启HDFS服务

若上述步骤均无法解决问题，尝试重启HDFS服务以重置状态：

stop-dfs.sh  # 停止HDFS
start-dfs.sh  # 启动HDFS

重启前建议备份/data/hdfs/namenode目录（NameNode元数据），避免数据丢失。

9. 恢复或重新格式化NameNode

元数据损坏：若NameNode无法启动且日志提示“Metadata corruption”，可从SecondaryNameNode或备份中恢复fsimage和edits文件（位于dfs.namenode.name.dir目录）；
首次配置或元数据完全丢失：删除NameNode数据目录（需提前备份），重新格式化NameNode：

rm -rf /data/hdfs/namenode/*  # 删除元数据目录（谨慎操作）
hdfs namenode -format  # 重新格式化
start-dfs.sh  # 重启HDFS