以下是CentOS上排查HDFS故障的常用方法:
systemctl status hadoop-hdfs-namenode和systemctl status hadoop-hdfs-datanode确认服务是否运行,未启动则用systemctl start命令启动。/var/log/hadoop-hdfs/目录,如hadoop-<username>-namenode-<hostname>.log,通过tail -f实时查看错误信息。ping测试节点间连通性,traceroute排查网络路径问题,确保防火墙开放HDFS所需端口(如50070、50010)。hdfs-site.xml和core-site.xml中fs.defaultFS、dfs.namenode.rpc-address等配置是否正确。top/htop监控CPU、内存、磁盘空间,确保无资源不足问题。hdfs dfsadmin -safemode leave退出(谨慎操作,需先修复数据问题)。hdfs fsck /检测损坏块,-delete删除不可修复块,或从备份恢复。dfs.datanode.data.dir目录权限是否正确。提示:操作前建议备份数据,复杂问题可结合监控工具(如Ambari)或联系技术支持进一步分析。