CentOS 上 HDFS 故障排查实操手册
一 快速定位流程
二 常见故障与修复要点
三 关键命令清单
| 目标 | 命令示例 |
|---|---|
| 服务状态 | systemctl status hadoop-hdfs-namenode;systemctl status hadoop-hdfs-datanode |
| 进程检查 | jps |
| 集群健康 | hdfs dfsadmin -report;hdfs fsck / -list-corruptfileblocks |
| 安全模式 | hdfs dfsadmin -safemode get;hdfs dfsadmin -safemode leave |
| 均衡分布 | hdfs balancer -threshold 10;hdfs dfsadmin -setBalancerBandwidth 2000000 |
| 网络与端口 | ping/traceroute;ss -tulpen | grep -E '50070 |
| 资源与磁盘 | df -h;top/htop |
| 日志定位 | tail -n 200 /var/log/hadoop-hdfs/hadoop--namenode-.log |
| Web UI | http://<namenode_ip>:50070 |
| 环境变量 | echo $JAVA_HOME;echo $HADOOP_HOME |
| 配置核对 | grep -nE 'fs.defaultFS |
四 配置与网络检查要点
五 数据安全与恢复建议