Linux中HDFS故障排查可按以下步骤进行:
查看日志
/var/log/hadoop-hdfs/namenode-*.log/var/log/hadoop-hdfs/datanode-*.loggrep过滤ERROR/WARN级别日志。检查集群状态
hdfs dfsadmin -report:查看节点健康、副本数等。hdfs fsck /:检查文件系统完整性,列出损坏块。验证配置文件
core-site.xml(如fs.defaultFS)、hdfs-site.xml(如dfs.replication)等参数正确性。网络与权限检查
ping/traceroute:确认节点间网络连通性。netstat/ss:检查端口(如50070、50010)是否监听。资源监控
top/htop:查看CPU、内存使用情况。df -h:检查DataNode磁盘空间是否充足。处理常见异常
hdfs dfsadmin -safemode leave(谨慎操作)。hdfs fsck -delete删除损坏块(需先备份数据)。dfs.replication参数。工具辅助
HDFS Canary监控客户端操作延迟。注意:操作前建议备份重要数据,复杂问题可参考官方文档或社区论坛(如Stack Overflow)。