Hadoop 在 Ubuntu 的数据备份策略
一 策略总览
二 备份层级与方法
hdfs dfsadmin -safemode enter → hdfs dfsadmin -saveNamespace,将生成的元数据拷贝到安全存储;恢复时使用 hdfs dfsadmin -restoreNamespace。适用于全量快照式备份与回滚。dd)或文件系统级备份(如 dump),用于节点重建与快速恢复。三 示例备份方案
hdfs dfsadmin -allowSnapshot /data/importanthdfs dfs -createSnapshot /data/important snap_20250801hdfs dfs -cp -r /data/important/.snapshot/snap_20250801 /backup/important_snap_20250801hdfs dfs -checksum 比对,按策略保留 N 个快照并删除过期快照。hadoop distcp -m 50 -update -delete hdfs://prod-nn:8020/data/important hdfs://backup-nn:8020/backup/prod/data/important_$(date +%F)hadoop distcp -m 50 -update hdfs://prod-nn:8020/data/important hdfs://backup-nn:8020/backup/prod/data/important_incremental_$(date +%H)hdfs dfsadmin -safemode enterdd if=/dev/sda of=/backup/nn_disk_$(date +%F).img bs=4Mtar czf /backup/nn_metadata_$(date +%F).tgz /dfs/name /etc/hadoop /var/log/hadoop-*dd 回写镜像,恢复配置并启动 NameNode 验证。四 恢复与演练
hdfs dfs -cp -r /data/important/.snapshot/<snap> /data/important_restored;跨集群备份用 hdfs dfs -cp 或 DistCp 反向拷贝回生产。hdfs dfsadmin -restoreNamespace,核对 fsimage 与 edits 一致性,再退出安全模式对外服务。dd 将镜像写回磁盘,恢复 /etc/hadoop 与日志目录,启动相关服务并做数据/业务校验。五 运维与合规要点