CentOS环境下HBase故障排查实操手册
一、快速定位流程
二、常见故障与修复要点
| 症状 | 关键检查 | 修复建议 |
|---|---|---|
| HMaster/RegionServer无法启动 | 进程缺失、配置项错误(如hbase.cluster.distributed、hbase.rootdir、hbase.zookeeper.quorum)、端口占用 | 修正hbase-site.xml;释放或更换端口;确认HDFS/ZK可用;必要时清理临时文件后重启 |
| ZooKeeper Session expired/ConnectionLoss | ZK会话超时、连接数/负载异常、版本兼容 | 增大ZK超时;检查ZK负载与连接数;核对HBase与ZK版本;用zkCli.sh核查节点路径 |
| Region无法上线/元数据异常 | hbase:meta不一致、主机名变更 | 在Shell执行scan 'hbase:meta’定位异常行;必要时按指引修复或删除问题条目后重启;随后用hbck复核一致性 |
| 启动卡住/Region上线慢 | HMaster初始化超时、线程不足 | 适当增大hbase.master.executor.serverops.threads、hbase.master.initializationmonitor.timeout;检查ZK/HDFS健康 |
| 数据不一致/Region未部署 | hbck报错如“Region xxx not deployed on any region server” | 执行hbase hbck -fixAssignments tableName修复分配,再复核直至通过 |
| 读写延迟高/性能下降 | GC过长、Compaction队列堆积、热点、缓存命中低 | 分析GC日志;优化Compaction策略;避免热点(合理RowKey/预分区);调整BlockCache/MemStore与压缩 |
| 端口冲突 | 16000/16020/2181/60000被占用 | 结束占用进程或修改hbase.master.port/hbase.regionserver.port后重启 |
三、关键命令与操作示例
四、性能与稳定性优化要点
五、排障注意事项与风险控制