温馨提示×

centos hbase数据导入导出

小樊
36
2025-12-19 19:28:10
栏目: 智能运维

CentOS下HBase数据导入导出实操指南

一、常用工具与适用场景

  • Export/Import:通过 MapReduce 将表导出到 HDFS 再导入目标表,支持按版本、时间范围导出,适合一次性迁移或带时间窗口的增量迁移。导入时可选择普通 put/delete 或生成 HFile 后走 Bulk Load 提升吞吐。
  • CopyTable:基于 Scan + Put/Delete API 在表间/集群间复制数据,可指定 rowkey 区间、时间区间、列族,适合在线小中体量迁移或持续近实时同步(跨集群需 –peer.adr)。
  • Snapshot + ExportSnapshot:对表做轻量快照,再用 ExportSnapshot 将快照拷贝到目标集群 HDFS,在目标集群恢复;停机影响小,适合大表跨机房/跨集群迁移。
  • DistCp:直接拷贝底层 HDFS 文件,适合停机窗口内的整表/整库迁移;在线业务需先停写,恢复后注意 region 分配与元数据修复
  • Replication:基于 WAL主从复制,适合持续同步与容灾;不适合一次性离线迁移。
  • Bulk Load(HFile):先生成 HFile 再加载到目标表,绕过写路径,适合海量数据的高速导入。

二、标准操作步骤