HDFS在CentOS上的备份策略
一 策略总览与分层
二 备份方法选型与适用场景
| 方法 | 适用场景 | 关键命令/要点 |
|---|---|---|
| HDFS快照 | 目录级时间点回滚、误删快速恢复 | 允许快照:hdfs dfsadmin -allowSnapshot /path;创建:hdfs dfs -createSnapshot /path snap1;恢复:hdfs dfs -cp /path/. /restore/path |
| DistCp 跨集群/远端HDFS | 定期全量/增量、灾备与迁移 | hadoop distcp -m 50 -bandwidth 100 /data hdfs://backupnn:8020/backup/2025-12-23;配合 -update/-overwrite 做增量/覆盖 |
| 对象存储(OBS/S3兼容) | 低成本长期留存、异地归档 | 通过Hadoop S3A或厂商工具导出至 s3a://bucket/backup/;注意对象存储不保留属主/属组/权限/配额等HDFS属性 |
| NFS/CIFS/SFTP | 接入NAS/备份服务器,便于合规留存 | 以DistCp/NFS挂载/SFTP方式落地,适合中小规模或合规归档 |
| 本地/NAS直拷(谨慎) | 仅限应急或元数据目录 | 不建议直接拷贝DataNode数据目录,易与块分布/校验不一致;优先用DistCp或快照导出 |
| 配置文件备份 | 快速重建集群 | tar czf hdfs-config-$(date +%F).tar.gz /etc/hadoop/conf /usr/local/hadoop/etc/hadoop |
| 元数据检查点 | NameNode故障恢复准备 | 安全模式:hdfs dfsadmin -safemode enter;保存命名空间:hdfs dfsadmin -saveNamespace;校验:hdfs fsck / -files -blocks -locations |
| 说明:快照与DistCp为常用组合;远端HDFS/NFS/CIFS/SFTP/OBS等介质在容量、成本与属性保留上各有取舍,需按业务选择。 |
三 推荐备份策略模板
四 自动化与调度示例
五 恢复流程与注意事项