Ubuntu下Hadoop备份策略全览
一 策略总览与适用场景
| 策略 | 备份对象 | 时效与成本 | 典型场景 | 关键工具或配置 |
|---|---|---|---|---|
| HDFS多副本冗余 | 数据块 | 高可用、低成本;非“异地” | 单集群日常容错 | dfs.replication=3(默认三副本) |
| HDFS快照 Snapshot | 目录/表 | 近实时、低开销;只覆盖已启用快照的路径 | 误删/误改前的快速回滚 | hdfs dfsadmin -allowSnapshot;hdfs dfs -createSnapshot |
| DistCp跨集群/跨机房备份 | 目录/库 | 小时~天级;带宽/计算成本 | 灾备、迁移、跨环境拷贝 | hadoop distcp [options] |
| NFS共享目录落地NameNode元数据 | 元数据(fsimage+edits) | 配置简单;共享存储单点风险 | 低成本元数据容灾 | NFS Server + dfs.name.dir 指向挂载点 |
| Pacemaker+DRBD/AvatarNode 双机热备 | NameNode服务与元数据 | 自动切换、RTO秒级;部署复杂 | 高可用主备 | Pacemaker 资源代理 + DRBD;AvatarNode |
| 云备份 CBR/HDFS备份服务 | HDFS目录 | 平台化管理、保留策略灵活;依赖云 | 合规、云上统一备份 | 虚拟客户端(NameNode IP或HDFS URL)、Kerberos/Keytab |
| 配置与脚本自动化 | 配置文件/脚本 | 低成本、易落地;需自维护 | 全链路可恢复 | tar 打包 /etc/hadoop/conf;cron 定时 |
二 关键策略与实施要点
三 备份策略组合建议
四 恢复与演练要点