Debian环境下HBase的数据迁移方法

Debian环境下HBase数据迁移方法

一迁移方案总览与选择

CopyTable（HBase层）：基于MapReduce扫描源表写入目标表，支持按时间窗口做增量迁移，对线上影响可控，适合中小规模或需要按时间段迁移的场景。
Export/Import（HBase层）：将表导出为SequenceFile到HDFS，再在目标集群导入，便于跨版本迁移与审计留痕，适合全量迁移。
Snapshot + ExportSnapshot（HDFS层）：对表打快照（HDFS硬链），再拷贝快照到目标HDFS并恢复，几乎不影响源集群，适合大规模、零停机、快速回滚的迁移。
DistCp + LoadIncrementalHFiles（HDFS层）：先DistCp拷贝底层HFile到目标HDFS，再用Bulk Load装载到目标表，适合超大规模且对停机敏感的场景。
Replication（HBase层）：配置主从复制进行持续同步，适合长期双活/准实时同步与零停机割接。
选择建议：离线一次性大批量优先用Snapshot/ExportSnapshot；需要跨版本或留痕选Export/Import；需要按时间窗口增量选CopyTable；持续同步选Replication；超大规模且追求性能选DistCp+Bulk Load。

二通用准备与前置检查

版本与兼容性：确认源/目标HBase/Hadoop版本兼容，网络互通，目标集群已安装HBase客户端。
权限与安全：确保HBase/HDFS访问权限一致；若启用Kerberos/SSL，需准备相应keytab/证书并在客户端配置。
表结构一致：目标表需提前创建，保持表名、列族、列族属性一致（如TTL、压缩、版本数）。
数据落盘：迁移前对涉及表执行flush ‘表名’，必要时短暂停写，减少迁移期间的一致性问题。
资源与带宽：大数据量迁移建议配置YARN/MR资源与带宽限制，避免影响业务。

三常用迁移方法步骤

方法一 Snapshot + ExportSnapshot（推荐）
1. 源集群创建快照：hbase> snapshot 'snap_tbl', 'tbl'
2. 导出快照到目标HDFS：hbase org.apache.hadoop.hbase.snapshot.ExportSnapshot -snapshot snap_tbl -copy-to hdfs://dst-nn:8020/hbase/.hbase-snapshot/snap_tbl
3. 目标集群恢复：hbase> restore_snapshot 'snap_tbl'，如表被禁用执行enable 'tbl'
4. 校验：count 'tbl' 或抽样 scan 'tbl', {LIMIT => 100}
  适用：大规模、零停机、可快速回滚。
方法二 DistCp + LoadIncrementalHFiles（超大规模）
1. 源端flush并（可选）短暂disable表：flush 'tbl' 或 disable 'tbl'
2. DistCp拷贝region目录到目标HDFS临时目录：
  hadoop distcp -m 50 -bandwidth 100 hdfs://src-nn:8020/hbase/data/default/tbl hdfs://dst-nn:8020/tmp/tbl_hfiles
3. 目标集群创建相同表结构后Bulk Load：
  hbase org.apache.hadoop.hbase.mapreduce.LoadIncrementalHFiles hdfs://dst-nn:8020/tmp/tbl_hfiles tbl
  适用：TB级数据、对停机敏感、追求高吞吐。
方法三 CopyTable（按时间窗口增量）
1. 目标集群建表（同列族）
2. 执行迁移（跨集群示例）：
  hbase org.apache.hadoop.hbase.mapreduce.CopyTable --peer.adr=zk-dst:2181:/hbase --starttime=1700000000000 --endtime=1700086400000 src_tbl dst_tbl
  适用：中小规模、需要按时间段迁移或不停写的增量同步。
方法四 Export/Import（跨版本/留痕）
1. 源端导出：hbase org.apache.hadoop.hbase.mapreduce.Export tbl hdfs://src-nn:8020/export/tbl
2. 目标端导入（目标表需先存在且结构一致）：hbase org.apache.hadoop.hbase.mapreduce.Import tbl hdfs://dst-nn:8020/export/tbl
  适用：跨版本迁移、全量迁移、需要导出文件留档。

四一致性校验与常见问题

校验方法
- 行数对比：hbase org.apache.hadoop.hbase.mapreduce.RowCounter tbl --endtime=TS 在源/目标端对比计数。
- 抽样对比：scan 'tbl', {TIMERANGE => [TS1, TS2], LIMIT => N} 对比关键行/字段。
- 业务侧校验：抽样主键查询、聚合指标比对。
常见问题与处理
- 版本不兼容：优先用Export/Import或Snapshot；CopyTable对两端API/版本更敏感。
- 删除操作未同步：部分工具/通道（如整库迁移）对delete不传递，可能导致不一致，需业务停写或改用支持删除同步的方案。
- HMaster过早清理：目标集群恢复快照后，若HMaster清理间隔过短可能清理有效数据，需适当调大清理间隔后再导入/恢复。
- 带宽与业务影响：迁移时通过-bandwidth、-m等参数限流，选择业务低峰窗口执行。
- 权限/安全：确保两端用户、Kerberos、HDFS ACL一致，否则导入/恢复会失败。

最新问答

相关标签