Hadoop在Linux中故障怎么排查

Java环境验证：Hadoop依赖Java运行，需确保已安装正确版本的Java（如OpenJDK 8）并配置JAVA_HOME环境变量。通过java -version检查Java版本，通过echo $JAVA_HOME确认环境变量设置。
Hadoop配置文件核对：重点检查core-site.xml（fs.defaultFS需指向正确的NameNode地址）、hdfs-site.xml（dfs.datanode.data.dir需存在且有写入权限）、yarn-site.xml（yarn.resourcemanager.hostname需设置为ResourceManager节点）等配置文件的正确性。

查看Hadoop进程：使用jps命令列出所有Java进程，确认NameNode、DataNode、ResourceManager、NodeManager等关键进程是否运行。若进程缺失，需进一步排查日志或重启服务。
重启Hadoop服务：若进程异常，可通过$HADOOP_HOME/sbin/stop-all.sh停止所有服务，再用$HADOOP_HOME/sbin/start-all.sh启动服务，观察进程是否恢复正常。

日志文件位置：Hadoop日志主要位于$HADOOP_HOME/logs目录（如NameNode日志为hadoop-*-namenode-*.log，DataNode日志为hadoop-*-datanode-*.log），YARN日志位于$HADOOP_HOME/logs/userlogs（任务级日志）。
日志查看技巧：使用tail -f $HADOOP_HOME/logs/*.log实时查看最新日志，用grep "ERROR" $HADOOP_HOME/logs/*.log筛选错误信息，结合awk提取关键字段（如时间戳、错误类型）。

网络连通性测试：使用ping命令测试集群节点间的网络连通性，用telnet <IP> <端口>（如telnet namenode 9000）检查Hadoop服务端口是否开放。
防火墙设置：关闭防火墙或放行Hadoop所需端口（如HDFS的50070、YARN的8088、MapReduce的50010）。例如，使用sudo ufw allow 9000开放端口。
权限问题排查：确保Hadoop用户（如hadoop）对HDFS数据目录（dfs.datanode.data.dir）、临时目录（/tmp）有读写权限。可使用chown -R hadoop:hadoop /path/to/dir修改权限。

NameNode无法启动：可能是元数据损坏，需用hdfs namenode -format格式化NameNode（注意：此操作会清除原有元数据，需提前备份）；若为clusterID不一致，需修改DataNode的VERSION文件（位于dfs.datanode.data.dir目录下），使其与NameNode的clusterID一致。
DataNode无法启动：检查dfs.datanode.data.dir目录是否存在且权限正确；删除/tmp目录下的临时文件（如/tmp/hadoop-*），再重启集群。
ResourceManager/NodeManager无法启动：检查yarn-site.xml配置（如yarn.resourcemanager.scheduler.address、yarn.nodemanager.aux-services），确保配置项与集群环境匹配。
MapReduce任务失败：查看$HADOOP_HOME/logs/userlogs目录下的任务日志（如stdout、stderr），常见原因包括权限不足（需chmod -R 777 /tmp）、输出目录已存在（需提前删除）、源数据路径错误（需检查hdfs dfs -ls路径是否存在）。

资源使用分析：使用top（查看CPU/内存占用）、df -h（查看磁盘空间）、iostat -x 1 10（查看磁盘I/O）等命令监控系统资源，若资源不足（如内存耗尽），需调整YARN配置（如yarn.nodemanager.resource.memory-mb）或扩容集群。
HDFS健康检查：使用hdfs dfsadmin -report命令查看HDFS集群状态（如DataNode数量、存储容量、块副本数），确保存储资源充足且数据分布均衡。

日志聚合：使用ELK Stack（Elasticsearch+Logstash+Kibana）或Splunk集中管理日志，实现日志的可视化分析与快速检索。
监控工具：部署Ambari、Cloudera Manager或Prometheus+Grafana，实时监控集群状态（如节点存活、任务进度、资源利用率），设置报警阈值（如内存使用率超过80%触发报警）。

最新问答