温馨提示×

Debian HBase 数据备份方法是什么

小樊
45
2025-12-19 03:55:45
栏目: 智能运维

Debian 上 HBase 数据备份方法

一、方法总览与选型

  • 快照 Snapshot(推荐):低开销、在线创建表的元数据与 HFile 引用;支持克隆与回滚,适合日常备份与快速恢复
  • Export/Import:将表导出为 HDFS 序列化文件,支持按时间窗口做准增量备份与跨集群迁移,导入可走普通写入或 bulk load
  • CopyTable:基于 Scan/Put 在表间或集群间复制数据,可指定时间/行范围与列族,适合小中型表定向迁移
  • Replication:基于 WAL 的异步复制,构建主从/主主容灾,适合持续同步而非一次性备份。
  • DistCp 离线拷贝:直接复制 HDFS 目录(停机或只读窗口),适合历史冷备/跨集群迁移,操作需谨慎。

二、快照 Snapshot 备份与恢复

  • 开启快照(仅首次需要):在 hbase-site.xml 中设置
    <property>
      <name>hbase.snapshot.enabled</name>
      <value>true</value>
    </property>
    
  • 基本流程(HBase Shell)
    # 1) 创建快照
    snapshot 'mytbl', 'snap_20251219'
    
    # 2) 列出/校验
    list_snapshots
    
    # 3) 克隆为新表(不产生数据拷贝)
    clone_snapshot 'snap_20251219', 'mytbl_bak'
    
    # 4) 回滚到快照(需先禁用表)
    disable 'mytbl'
    restore_snapshot 'snap_20251219'
    enable 'mytbl'
    
    # 5) 删除快照
    delete_snapshot 'snap_20251219'
    
  • 跨集群备份:将快照导出到远端 HDFS(不落地本地)
    hbase org.apache.hadoop.hbase.snapshot.ExportSnapshot \
      -snapshot snap_20251219 \
      -copy-from hdfs://src-nn:8020/hbase \
      -copy-to   hdfs://dst-nn:8020/hbase \
      -mappers 16 -bandwidth 100
    
    提示:快照是元数据+HFile引用,创建/克隆/回滚在线完成,性能开销小。

三、Export/Import 备份与恢复

  • 全量导出/导入
    # 导出到 HDFS(默认导出最新版本)
    hbase org.apache.hadoop.hbase.mapreduce.Export mytbl /backup/hbase/mytbl_20251219
    
    # 导入(目标表需先存在;可走普通写入)
    hbase org.apache.hadoop.hbase.mapreduce.Import mytbl /backup/hbase/mytbl_20251219
    
  • 多版本与增量窗口
    # 导出最近 3 个版本,指定时间窗口(单位 ms)
    hbase org.apache.hadoop.hbase.mapreduce.Export mytbl \
      /backup/hbase/mytbl_20251219 3 1734566400000 1734652800000
    
    # 导入时可使用 bulk 方式提升效率(需 HFile 路径)
    hbase org.apache.hadoop.hbase.mapreduce.Import mytbl /backup/hbase/mytbl_20251219
    
    说明:Export 支持 versions/starttime/endtime,适合按时间做准增量备份;Import 可走 bulk 导入以减少写放大。

四、CopyTable 表间复制

  • 同集群克隆
    hbase org.apache.hadoop.hbase.mapreduce.CopyTable \
      --new.name=mytbl_copy mytbl
    
  • 跨集群复制(指定对端 ZK)
    hbase org.apache.hadoop.hbase.mapreduce.CopyTable \
      --peer.adr=zk1:2181,zk2:2181,zk3:2181:/hbase \
      mytbl
    
  • 按时间/列族/行范围
    hbase org.apache.hadoop.hbase.mapreduce.CopyTable \
      --starttime=1734566400000 --endtime=1734652800000 \
      --families=cf1,cf2 \
      --peer.adr=zk1:2181:/hbase mytbl
    
    提示:CopyTable 通过 Scan + Put/Delete 实现,适合小中型表定向迁移,大表对线上会有一定负载。

五、Replication 与 DistCp 及实践建议

  • Replication(持续容灾)
    # 开启复制
    hbase shell> enable_replication
    
    # 添加对端(CLUSTER_KEY 格式:zk_quorum:clientPort:znode_parent)
    hbase shell> add_peer '1', 'zk1:2181,zk2:2181,zk3:2181:/hbase'
    
    # 对指定列族开启复制作用域
    hbase shell> disable 'mytbl'
    hbase shell> alter 'mytbl', {NAME => 'cf1', REPLICATION_SCOPE => '1'}
    hbase shell> enable 'mytbl'
    
    说明:基于 WAL 的异步复制,适合主从/主主容灾;误删等逻辑错误也会被复制,需配合快照/离线备份做回滚点。
  • DistCp(离线拷贝)
    # 同集群备份
    hadoop distcp hdfs://nn1:8020/hbase /backup/hbase/hbase_20251219
    
    # 跨集群备份
    hadoop distcp hdfs://nn1:8020/hbase hdfs://nn2:8020/hbase_backup/20251219
    
    提示:为减少不一致,建议在停机或只读窗口执行;恢复时可将备份目录拷回 HBase 根目录并校验元数据。
  • 实践建议
    • 日常以快照为主,定期做跨集群 ExportSnapshot 异地归档;关键时点(升级/变更前)额外做一次快照。
    • 需要时间点恢复时,结合 Export 时间窗口快照;对大表优先用快照/ExportSnapshot,避免 CopyTable 全表扫描。
    • Replication 的同时保留离线快照,防止逻辑错误扩散;定期校验备份可用(克隆/导入演练)。

0