温馨提示×

Hadoop 故障 CentOS 上怎么排查

小樊
51
2025-08-31 02:32:04
栏目: 智能运维

在CentOS上排查Hadoop故障可按以下步骤进行:

  1. 查看系统及服务状态

    • journalctl -xe查看系统日志,systemctl status hadoop-*检查Hadoop服务(如NameNode、DataNode)是否正常。
    • 通过pstop命令查看进程状态,确认无异常进程占用资源。
  2. 检查配置文件

    • 确认core-site.xmlhdfs-site.xml等配置正确,如fs.defaultFSdfs.namenode.name.dir等参数。
    • 检查环境变量(如JAVA_HOMEHADOOP_HOME)是否配置正确。
  3. 分析日志文件

    • 查看Hadoop日志(默认在/var/log/hadoop-hdfs/$HADOOP_HOME/logs),用tail -f实时监控或grep搜索ERROR/WARN关键字。
    • 重点关注NameNode和DataNode的运行日志,定位具体错误(如端口冲突、权限不足等)。
  4. 验证网络与权限

    • pingtraceroute检查节点间网络连通性,确保防火墙放行Hadoop所需端口(如50070、9870)。
    • ls -l检查文件/目录权限,确保Hadoop用户对数据目录有读写权限。
  5. 处理资源与磁盘问题

    • df -hfree -m检查磁盘空间和内存使用,清理冗余文件或扩容。
    • 若磁盘故障,用hdfs fsck检查并修复数据块。
  6. 借助工具监控与诊断

    • 使用Ambari、Ganglia等工具监控集群状态,查看实时指标和历史趋势。
    • 若遇复杂问题,可通过ELK Stack(Logstash+Kibana)进行日志集中分析。
  7. 常见操作与故障处理

    • NameNode无法启动:检查日志,尝试重新格式化(首次启动需执行hdfs namenode -format)。
    • 端口冲突:用netstat -tuln定位占用端口的进程,修改配置文件中的端口号。
    • 数据块损坏:用hdfs fsck /检查文件系统,修复或删除损坏块。

参考来源

0