Hadoop在Linux环境下的备份与恢复实践
一、备份目标与总体策略
二、HDFS数据备份与恢复
三、NameNode元数据与集群组件备份
四、自动化、监控与最佳实践
五、常用命令速查表
| 场景 | 命令示例 |
|---|---|
| DistCp全量 | hadoop distcp hdfs://src:8020/data hdfs://dst:8020/backup/$(date +%F) |
| DistCp增量 | hadoop distcp -update hdfs://src:8020/data hdfs://dst:8020/backup/latest |
| 快照创建 | hdfs dfs -createSnapshot /data snap_20251228 |
| 快照恢复 | hdfs dfs -cp /data/.snapshot/snap_20251228/file /data/restore |
| 回收站恢复 | hdfs fs -cp hdfs://nn:8020/.Trash/Current/file /data/ |
| 元数据备份 | sudo -u hdfs hdfs dfsadmin -safemode enter && sudo -u hdfs hdfs dfsadmin -saveNamespace && sudo -u hdfs cp -a /dfs/nn/current /nnbak/$(date +%F) |
| 定时备份 | 0 2 * * * /usr/bin/hadoop distcp -update hdfs://src /backup/daily-$(date +%F) >> /var/log/hadoop-backup.log 2>&1 |