HBase数据迁移在CentOS上如何完成

HBase数据迁移在CentOS上的完成方法

一、迁移前准备

环境检查：确保源CentOS集群与目标CentOS集群均已安装相同版本的HBase（版本不一致可能导致数据格式不兼容），且Hadoop生态组件（如HDFS、YARN）运行正常。
网络连通性：确认源集群与目标集群的Hadoop节点（NameNode、DataNode）、ZooKeeper节点之间网络互通，防火墙开放对应端口（如HDFS的8020、ZooKeeper的2181）。
数据备份：迁移前使用hbase shell对源集群的关键表进行备份（如backup 'source_table', 'backup_table'），或直接备份HBase数据目录（/hbase/data），防止数据丢失。

二、常见迁移方法

1. HBase Shell工具（小批量数据迁移）

导出数据到HDFS：使用export命令将源表数据导出为SequenceFile格式，存储到HDFS路径（如hbase org.apache.hadoop.hbase.mapreduce.Export 'source_table' '/hdfs/export_path'）。
传输数据到目标集群：通过scp或rsync将HDFS导出路径的数据复制到目标集群的对应HDFS目录（如scp -r /hdfs/export_path user@target-centos:/hdfs/target_export_path）。
导入数据到目标表：使用import命令将HDFS中的数据导入目标表（如hbase org.apache.hadoop.hbase.mapreduce.Import 'target_table' '/hdfs/target_export_path'）。
适用场景：小批量数据（如单表<100GB）、非实时迁移需求。

2. HBase Export/Import工具（跨集群批量迁移）

导出数据：在源集群执行hbase export 'source_table' '/hdfs/source_export_path'，将表数据导出为SequenceFile格式到HDFS。
复制数据到目标集群：使用hadoop distcp命令将导出的数据从源集群HDFS复制到目标集群HDFS（如hadoop distcp hdfs://source-namenode:8020/source_export_path hdfs://target-namenode:8020/target_export_path）。
导入数据：在目标集群执行hbase import 'target_table' '/hdfs/target_export_path'，将数据导入目标表。
适用场景：跨集群批量迁移（如从测试环境迁移到生产环境）、数据量中等（100GB-1TB）。

3. HBase Replication（实时同步）

配置源集群：编辑源集群hbase-site.xml，添加复制相关配置：

<property>
  <name>hbase.replication</name>
  <value>true</value>
</property>
<property>
  <name>hbase.replication.source.zookeeper.quorum</name>
  <value>source-zookeeper1,source-zookeeper2,source-zookeeper3</value>
</property>
<property>
  <name>hbase.replication.source.zookeeper.property.clientPort</name>
  <value>2181</value>
</property>

配置目标集群：编辑目标集群hbase-site.xml，添加复制目标配置：

<property>
  <name>hbase.replication</name>
  <value>true</value>
</property>
<property>
  <name>hbase.replication.target.zookeeper.quorum</name>
  <value>target-zookeeper1,target-zookeeper2,target-zookeeper3</value>
</property>
<property>
  <name>hbase.replication.target.zookeeper.property.clientPort</name>
  <value>2181</value>
</property>

创建Peer关系：在源集群hbase shell中执行add_peer 'peer1', 'target-zookeeper1:2181,target-zookeeper2:2181,target-zookeeper3:2181:/hbase'，建立与目标集群的复制通道。
启动复制：在源集群hbase shell中执行start_replication 'peer1'，开始同步数据到目标集群。
监控状态：通过hbase shell status 'replication'查看复制延迟，确保数据同步正常。
适用场景：实时数据同步（如生产环境主备集群）、需要低延迟的业务。

4. HBase Bulk Load（大数据量高效迁移）

导出数据：使用hbase org.apache.hadoop.hbase.mapreduce.Export命令将源表数据导出到HDFS（同方法2）。

转换为HFile格式：在目标集群执行hbase org.apache.hadoop.hbase.mapreduce.HFileOutputFormat2命令，将导出的数据转换为HFile格式（HBase原生存储格式）：

hbase org.apache.hadoop.hbase.mapreduce.HFileOutputFormat2 \
  -D mapreduce.job.output.key.class=org.apache.hadoop.hbase.KeyValue \
  -D mapreduce.job.output.value.class=org.apache.hadoop.hbase.KeyValue \
  -D mapreduce.job.output.format=org.apache.hadoop.hbase.mapreduce.TableOutputFormat \
  -D hbase.table.name=target_table \
  /hdfs/export_path /hdfs/hfile_output_path

加载HFile到目标表：使用LoadIncrementalHFiles命令将HFile加载到目标表（如hbase org.apache.hadoop.hbase.mapreduce.LoadIncrementalHFiles -D hbase.table.name=target_table /hdfs/hfile_output_path target_table）。
适用场景：超大数据量（>1TB）、对迁移速度要求高的场景（比Import快2-3倍）。

5. HBase Snapshot（一致性快照迁移）

创建快照：在源集群hbase shell中，先为表开启复制属性（alter 'source_table', {NAME => 'cf', REPLICATION_SCOPE => '1'}），再创建快照（snapshot 'source_table', 'source_table_snapshot'）。
导出快照到目标集群：使用ExportSnapshot工具将快照复制到目标集群HDFS（如hbase org.apache.hadoop.hbase.snapshot.ExportSnapshot -snapshot source_table_snapshot -copy-from hdfs://source-namenode:8020/hbase/.hbase-snapshot/source_table_snapshot -copy-to hdfs://target-namenode:8020/hbase/.hbase-snapshot/）。
恢复快照到目标表：在目标集群hbase shell中执行restore_snapshot 'source_table_snapshot'，将快照恢复为目标表。
适用场景：需要保证数据一致性的迁移（如数据库备份）、跨版本迁移（快照兼容性好）。

三、迁移后验证

检查目标集群状态：使用hbase master status查看Master节点状态，hbase regionserver status查看RegionServer节点是否正常运行。
验证表结构与数据：在目标集群hbase shell中执行list查看表是否存在，scan 'target_table', {LIMIT => 10}查看前10条数据，确认数据完整性与正确性。
监控数据一致性：通过hbase shell的count命令对比源表与目标表的行数，或使用Checksum工具（如HBase Checksum）验证数据哈希值是否一致。