Linux系统里Hadoop如何进行故障排查

Linux系统下Hadoop故障排查流程与常见解决方法

日志是故障排查的核心依据，Hadoop的日志默认存储在$HADOOP_HOME/logs目录下（如NameNode日志为hadoop-*-namenode-*.log、DataNode日志为hadoop-*-datanode-*.log）。可使用以下命令快速定位错误信息：

实时监控所有日志：tail -f $HADOOP_HOME/logs/*.log
过滤错误信息：grep -i "error\|fail\|exception" $HADOOP_HOME/logs/*.log
日志中通常会包含具体的错误类型（如NoRouteToHostException、OutOfMemoryError）和堆栈跟踪，是定位问题的关键线索。

使用jps命令（Java进程查看工具）确认Hadoop关键组件是否正常运行。正常情况下，应看到以下进程：

NameNode（主节点）、DataNode（数据节点）、SecondaryNameNode（备用NameNode，可选）
ResourceManager（YARN主节点）、NodeManager（YARN工作节点）
若某进程未启动，需检查对应组件的日志（如DataNode未启动则查看hadoop-*-datanode-*.log），并尝试手动启动：$HADOOP_HOME/sbin/hadoop-daemon.sh start datanode。

Hadoop的配置文件位于$HADOOP_HOME/etc/hadoop目录下，需重点检查以下文件的关键参数：

core-site.xml：fs.defaultFS（HDFS的URI，如hdfs://namenode:9000）、hadoop.tmp.dir（临时目录路径）
hdfs-site.xml：dfs.replication（副本数，默认3）、dfs.namenode.name.dir（NameNode元数据存储路径）、dfs.datanode.data.dir（DataNode数据存储路径）
yarn-site.xml：yarn.resourcemanager.hostname（ResourceManager主机名）、yarn.nodemanager.aux-services（NodeManager辅助服务，需设置为mapreduce_shuffle）
mapred-site.xml：mapreduce.framework.name（MapReduce运行框架，需设置为yarn）
确保所有节点的配置文件一致，无语法错误（如标签未闭合、参数值格式错误）。

使用Hadoop自带命令检查集群健康状况：

HDFS状态：hdfs dfsadmin -report，可查看DataNode数量、存储容量、数据块分布等信息（若DataNode未上报，需检查网络或DataNode进程）。
YARN状态：yarn node -list，查看NodeManager列表及状态（RUNNING表示正常）；yarn application -list，查看正在运行的应用程序（如MapReduce作业）。

Hadoop集群依赖节点间的网络通信，需检查以下内容：

连通性测试：使用ping <目标IP>命令测试节点间网络是否可达（如NameNode与DataNode之间）。
端口检查：使用netstat -tulnp | grep <端口号>或telnet <目标IP> <端口号>验证Hadoop所需端口是否开放（常见端口：HDFS的50070、50010；YARN的8088、50020）。
hosts文件：确保/etc/hosts中包含所有节点的IP与主机名映射（如192.168.1.10 namenode），避免DNS解析问题。

文件权限：HDFS文件/目录权限需正确（如/user/hadoop目录需属于hadoop用户），可使用hdfs dfs -ls /path查看权限，hdfs dfs -chmod/chown修改权限（测试环境可临时关闭权限检查：hdfs-site.xml中设置dfs.permissions.enabled=false）。
磁盘空间：使用df -h检查HDFS数据目录所在磁盘的剩余空间（建议保留20%以上），若空间不足，需清理无用文件（如hdfs dfs -rm -r /tmp/*）。
内存限制：若出现OutOfMemoryError，需调整JVM内存参数（如mapred-site.xml中mapred.child.java.opts设置为-Xmx2048m，根据节点内存调整）。

NameNode无法启动：可能是元数据损坏，解决方法：停止集群，删除NameNode的dfs.namenode.name.dir目录（如/home/hadoop/hdfs/name），然后格式化NameNode（hadoop namenode -format），最后重启集群。
DataNode无法启动：检查dfs.datanode.data.dir目录是否存在且权限正确；删除/tmp目录下的临时文件（如/tmp/hadoop-*）；确保NameNode与DataNode的clusterID一致（可通过hdfs-site.xml中的dfs.namenode.clusterID查看）。
ResourceManager无法启动：检查yarn-site.xml中的yarn.resourcemanager.hostname配置是否正确；删除/tmp目录下的YARN临时文件。
Too many fetch-failures：通常是节点间连通问题，需检查/etc/hosts文件是否一致，以及.ssh/authorized_keys是否包含所有节点的公钥（实现免密登录）。

Hadoop Web界面：通过浏览器访问NameNode（http://namenode:50070）查看HDFS状态，访问ResourceManager（http://resourcemanager:8088）查看YARN作业详情。
系统监控工具：使用top（查看CPU/内存占用）、iostat -x 1 10（查看磁盘I/O）、vmstat 1 10（查看系统整体性能）分析资源瓶颈。
日志分析工具：对于大规模集群，可使用ELK Stack（Elasticsearch+Logstash+Kibana）集中收集和分析日志，快速定位高频错误。

最新问答