Hadoop 故障 CentOS 上怎么排查

centos

小樊

2025-08-31 02:32:04

栏目: 智能运维

在CentOS上排查Hadoop故障可按以下步骤进行：

查看系统及服务状态
- 用journalctl -xe查看系统日志，systemctl status hadoop-*检查Hadoop服务（如NameNode、DataNode）是否正常。
- 通过ps、top命令查看进程状态，确认无异常进程占用资源。
检查配置文件
- 确认core-site.xml、hdfs-site.xml等配置正确，如fs.defaultFS、dfs.namenode.name.dir等参数。
- 检查环境变量（如JAVA_HOME、HADOOP_HOME）是否配置正确。
分析日志文件
- 查看Hadoop日志（默认在/var/log/hadoop-hdfs/或$HADOOP_HOME/logs），用tail -f实时监控或grep搜索ERROR/WARN关键字。
- 重点关注NameNode和DataNode的运行日志，定位具体错误（如端口冲突、权限不足等）。
验证网络与权限
- 用ping、traceroute检查节点间网络连通性，确保防火墙放行Hadoop所需端口（如50070、9870）。
- 用ls -l检查文件/目录权限，确保Hadoop用户对数据目录有读写权限。
处理资源与磁盘问题
- 用df -h、free -m检查磁盘空间和内存使用，清理冗余文件或扩容。
- 若磁盘故障，用hdfs fsck检查并修复数据块。
借助工具监控与诊断
- 使用Ambari、Ganglia等工具监控集群状态，查看实时指标和历史趋势。
- 若遇复杂问题，可通过ELK Stack（Logstash+Kibana）进行日志集中分析。
常见操作与故障处理
- NameNode无法启动：检查日志，尝试重新格式化（首次启动需执行hdfs namenode -format）。
- 端口冲突：用netstat -tuln定位占用端口的进程，修改配置文件中的端口号。
- 数据块损坏：用hdfs fsck /检查文件系统，修复或删除损坏块。

参考来源：

Hadoop 故障 CentOS 上怎么排查

最新问答

相关标签