-
HMaster 故障(Active 异常或 Standby 未接管)
- 在 ZK 中确认 /hbase/master 是否存在且指向有效主机;
- 查看 Master 日志是否有 ZK session expired / Port in use 等错误;
- 重启 Standby Master:执行 $HBASE_HOME/bin/hbase-daemon.sh start master;
- 若仍无 active Master,检查 hbase-site.xml 的分布式与 HA 配置(如 hbase.master.cluster.distributed、hbase.nameservices),必要时滚动重启相关服务。
-
RegionServer 故障(宕机、频繁 Full GC、端口占用)
- 在 Shell 中确认 dead region servers;UI 中查看 Last Contact 是否异常;
- 查看 RegionServer 日志 是否有 OutOfMemoryError / GC 超时 等;
- 优先尝试在本机重启:$HBASE_HOME/bin/hbase-daemon.sh start regionserver;若端口占用,释放端口或调整配置后再启;
- 若节点硬件/系统不可恢复,允许 Master 自动迁移 该节点上的 Region 到其他节点,待恢复后重新上线。
-
数据一致性异常(Region 分布不均、元数据不一致)
- 使用 hbck 检查集群一致性:执行 $HBASE_HOME/bin/hbck;
- 在业务低峰期执行修复:$HBASE_HOME/bin/hbck -repair;修复前建议备份 HBase 数据目录 与 HDFS 对应目录;
- 修复后重启相关服务并复核状态。