CentOS 上 HBase 故障诊断流程
一 快速定位流程
二 常见故障与处理要点
| 症状 | 关键检查 | 处理建议 |
|---|---|---|
| HMaster/RegionServer 起不来 | jps 无进程;端口 60000/2181 被占用;配置错误;日志报错 | 释放占用端口或调整配置;修正 hbase-site.xml;查看 /var/log/hbase/ 错误;必要时清理临时文件并重启 |
| ZooKeeper Session expired | ZK 会话超时;连接数/负载异常;版本兼容 | 适当增大 ZK 会话超时;监控 ZK 连接数与负载;核对 HBase-ZK 版本兼容 |
| Region 上线慢/长时间 transition | Master 初始化/Region 分配慢;线程不足 | 增加 hbase.master.executor.serverops.threads、hbase.master.initializationmonitor.timeout;优化启动参数 |
| 读写延迟高 | top/htop/ps 看资源;线程争用;配置不当 | 调整 RegionServer 内存/线程;用 jstack 定位热点线程;结合监控趋势分析 |
| 数据不一致/Region 异常 | hbck 报告不一致;HFile/元数据异常 | 运行 hbase hbck 检查并修复;必要时结合 WAL/快照/备份 恢复 |
| HDFS 依赖异常 | HDFS 不健康;权限/空间问题 | 恢复 HDFS 健康;核对 hbase.rootdir 权限与可用空间 |
| 时钟不同步 | 系统时间漂移 | 同步 NTP,校正时间后重启服务 |
三 关键命令与工具清单
四 日志分析与配置核查要点
五 恢复与回滚建议