Debian上Hadoop故障排查技巧有哪些

Debian上Hadoop故障排查技巧

一快速定位流程

查看进程：用 jps 确认 NameNode、DataNode、ResourceManager、NodeManager 是否都在；缺失或异常即优先排查对应组件。
看日志：到 $HADOOP_HOME/logs 用 tail -f 实时跟踪，或用 grep “ERROR” 搜索错误；必要时用 journalctl -u 服务名 查看系统级服务日志。
查配置：核对 core-site.xml、hdfs-site.xml、yarn-site.xml、mapred-site.xml 的关键参数与路径一致性。
看资源：用 top、htop、iostat -x 1、vmstat 1 排查 CPU、内存、磁盘 I/O 瓶颈。
测网络：节点间 ping 与端口连通性（如 50070/8088 等），确认防火墙与安全组策略。
用 Web UI：访问 NameNode UI：http://:50070、ResourceManager UI：http://:8088 获取集群健康与任务状态。
变更控制：先备份配置与元数据，再尝试重启单个服务或滚动重启，减少影响面。

二日志与系统层面的高效定位

日志位置与分类：Hadoop 组件日志在 $HADOOP_HOME/logs，命名形如 hadoop--namenode-.log；按组件与主机快速定位。
实时与检索：
- 实时跟踪：tail -f $HADOOP_HOME/logs/hadoop--namenode-.log
- 错误筛选：grep -n “ERROR” $HADOOP_HOME/logs/*.log
- 作业日志：yarn logs -applicationId <app_id>
系统日志：用 journalctl -xe、tail -f /var/log/syslog、dmesg 捕捉与 Hadoop 相关的内核/系统事件。
日志级别与轮转：必要时临时提升日志级别以拿到更细信息；确认 logrotate 正常，避免日志过大影响排查。
模式识别：如 NameNode 与 DataNode namespace ID 不一致（常见于多次格式化 NN），需统一元数据目录后再启动。

三常见故障与修复要点

进程未启动：用 jps 找到缺失进程，回到对应日志定位根因；必要时仅重启该组件，避免全集群重启。
配置错误：核对 core-site.xml/hdfs-site.xml/yarn-site.xml/mapred-site.xml 的 fs.defaultFS、dfs.replication、yarn.resourcemanager.hostname 等关键项；检查 JAVA_HOME/HADOOP_HOME 与路径权限。
SSH 免密失败：出现 Permission denied (publickey,…) 时，确认公钥在目标节点 ~/.ssh/authorized_keys，并设置 600/700 权限。
NameNode edits 过大：执行手动合并生成 fsimage 后重启，清理历史 edits 释放空间。
资源不足或数据倾斜：用 top/htop、iostat、vmstat 识别瓶颈；在 YARN 侧调整 内存/CPU 配额，在作业侧优化 分区/聚合/采样 策略。
节点故障或数据丢失：核验 DataNode 心跳 与磁盘健康；按副本策略恢复或剔除异常节点后重建副本。
安全与网络：启用 Kerberos 时校验 keytab/principal；核对 防火墙/安全组 对 50070/8088/50010/50075 等端口的放行。

四性能瓶颈与网络连通性排查

资源监控：
- top/htop：CPU、内存、负载
- iostat -x 1：磁盘 await、svctm、util
- vmstat 1：上下文切换、swap、I/O 等待
连接与端口：
- 节点连通：ping
- 端口可达：nc -vz 或 ss -lntp | grep
- 服务状态：systemctl status hadoop-* 或 journalctl -u
HDFS 健康：用 hdfs dfsadmin -report 查看 容量、可用、损坏块、DataNode 数；结合 fsck 检查文件系统一致性。
作业级诊断：用 yarn application -list/-status <app_id> 与 yarn logs -applicationId <app_id> 定位慢任务与异常。

五维护与变更的最佳实践

最新问答