在CentOS上排查Hadoop故障可按以下步骤进行:
查看系统及服务状态
journalctl -xe查看系统日志,systemctl status hadoop-*检查Hadoop服务(如NameNode、DataNode)是否正常。ps、top命令查看进程状态,确认无异常进程占用资源。检查配置文件
core-site.xml、hdfs-site.xml等配置正确,如fs.defaultFS、dfs.namenode.name.dir等参数。JAVA_HOME、HADOOP_HOME)是否配置正确。分析日志文件
/var/log/hadoop-hdfs/或$HADOOP_HOME/logs),用tail -f实时监控或grep搜索ERROR/WARN关键字。验证网络与权限
ping、traceroute检查节点间网络连通性,确保防火墙放行Hadoop所需端口(如50070、9870)。ls -l检查文件/目录权限,确保Hadoop用户对数据目录有读写权限。处理资源与磁盘问题
df -h、free -m检查磁盘空间和内存使用,清理冗余文件或扩容。hdfs fsck检查并修复数据块。借助工具监控与诊断
常见操作与故障处理
hdfs namenode -format)。netstat -tuln定位占用端口的进程,修改配置文件中的端口号。hdfs fsck /检查文件系统,修复或删除损坏块。参考来源: