HBase在CentOS上的故障恢复方法

HBase在CentOS上的故障恢复方法

一、恢复流程总览

二、常见故障与恢复步骤

HMaster 故障
- 确认 ZooKeeper 正常运行；在 Active Master 异常时，重启 HMaster 进程；如配置了多 Master，观察 Standby Master 是否自动接管。
RegionServer 故障
- 确认 ZooKeeper 正常；重启异常 RegionServer；检查负载、磁盘与健康状态，必要时临时下线异常节点再恢复。
数据文件异常/不一致
- 使用 hbck 检测与修复：先运行 hbck 查看不一致项，再按需执行修复（如分配修复、region 修复等）。
配置错误
- 检查并修正 hbase-site.xml 等关键配置（如 hbase.rootdir、hbase.zookeeper.quorum 等），修正后重启集群。
连接问题（如无法连接 ZooKeeper）
- 检查 ZooKeeper 状态与网络连通性，必要时调整连接/会话超时参数后重试。

三、基于备份的恢复方法

使用 HBase 快照恢复
- 在 HBase Shell 中创建快照：create_snapshot 'my_table', 'my_snapshot'；
- 停止集群：stop-hbase.sh；
- 将快照相关文件从备份位置恢复到 hbase.rootdir（如使用 HDFS get 拷贝回 .archive 对应目录）；
- 启动集群：start-hbase.sh；
- 在 HBase Shell 中执行恢复：restore_snapshot 'my_snapshot'。
使用 WAL（Write-Ahead Log）恢复
- 检查 WAL 完整性：hbase org.apache.hadoop.hbase.wal.WALManager -files -logs；
- 将备份的 WAL 文件复制回 WALs 目录（如 hadoop fs -get ... /path/to/hbase/data/hbase/.logs/WALs/...）；
- 启动集群，系统会自动重放 WAL 中的操作。
使用 HBase Backup/Restore 工具
- 全量备份：hbase backup create full /path/to/backup；
- 恢复：hbase backup restore /path/to/backup；
- 恢复前确保集群完全停止，且 备份文件完整；必要时在 hbase-site.xml 中调整 hbase.rootdir 指向备份路径。

四、验证与后续预防

验证
- 查看集群状态：/hbase/bin/hbase shell → status 'simple'；
- 抽样校验数据：scan 'your_table_name'（可按需限制条数）；
- 复核关键业务表的 Region 分布 与 可用性。
预防
- 定期执行 快照/备份；
- 启用 多 Master 与合理的 Region 预分区/负载均衡；
- 持续 监控告警 与健康巡检（进程、端口、网络、磁盘、ZooKeeper 会话等）。

五、注意事项与风险提示

最新问答