Hadoop在Linux上的故障排查方法如下:
$HADOOP_HOME/logs目录,使用tail -f或grep "ERROR"实时查看或搜索错误信息。jps命令确认NameNode、DataNode、ResourceManager等关键进程是否正常运行。ping测试节点间连通性,检查防火墙是否开放Hadoop所需端口(如50070、8088等)。core-site.xml、hdfs-site.xml等配置正确,如fs.defaultFS、dfs.namenode.name.dir等参数。top、iostat、vmstat监控CPU、内存、磁盘I/O,排查资源不足问题。stop-all.sh),再启动(start-all.sh),确保配置生效。http://namenode:50070)和ResourceManager(http://resourcemanager:8088)查看集群状态。df -h检查磁盘空间,free -m查看内存,确保硬件资源充足。注:部分场景需结合具体错误日志(如DataNode启动异常需检查数据目录权限),优先从日志和配置入手定位问题。