Hadoop怎样在Linux上进行故障恢复

Hadoop在Linux上的故障恢复可按以下步骤操作，涵盖组件故障、数据异常等场景：

查看日志
- 定位组件（NameNode/DataNode/ResourceManager等）日志，分析错误信息：
```
tail -f $HADOOP_HOME/logs/*.log | grep "ERROR"  
```

检查进程状态

使用jps确认关键进程是否运行：

jps  # 正常有NameNode、DataNode、ResourceManager等进程

验证网络与配置
- 测试节点间连通性：ping <节点IP>，检查防火墙端口（如NameNode的9000、ResourceManager的8088）。
- 确认配置文件（core-site.xml、hdfs-site.xml等）参数正确。

非HA场景：
1. 停止集群：$HADOOP_HOME/sbin/stop-dfs.sh
2. 备份元数据：cp -r $HADOOP_HOME/dfs/name/current $HADOOP_HOME/dfs/name/current_backup
3. 从备份恢复元数据或使用hdfs namenode -format重新格式化（会清除数据，需谨慎）。
4. 启动集群：$HADOOP_HOME/sbin/start-dfs.sh。

HA场景：

手动切换状态（如测试环境）：

yarn rmadmin -transitionToStandby <Active节点名>  # 切换Active为Standby  
yarn rmadmin -transitionToActive <Standby节点名>  # 切换Standby为Active

单个DataNode宕机：
- HDFS自动从其他副本恢复数据，无需手动干预。
- 若需修复磁盘问题，可重启DataNode：$HADOOP_HOME/sbin/stop-datanode.sh + start-datanode.sh。
多个DataNode故障：
- 检查磁盘空间、网络，修复后重启节点，HDFS会自动完成数据同步。

非HA场景：
- 重启ResourceManager进程：$HADOOP_HOME/sbin/stop-yarn.sh + start-yarn.sh。
HA场景：
- 若Active ResourceManager故障，Standby节点自动切换，可通过ZooKeeper状态确认。

数据块修复

使用hdfs fsck检查并修复损坏的数据块：

hdfs fsck / -files -blocks -locations  # 检查文件系统  
hdfs fsck /path/to/corrupt/file -move  # 移动损坏文件到/tmp

参考来源：

最新问答