CentOS上HBase故障排查实操手册
一、快速定位流程
二、常见故障与修复对照表
| 症状 | 快速检查 | 修复建议 |
|---|---|---|
| HMaster/RegionServer起不来 | jps无进程;端口16000/16010/16020/16030被占用;日志报“Could not bind to address” | 释放或更换端口;确认JAVA_HOME与版本兼容;检查hbase-site.xml关键配置;必要时清理临时文件后重启 |
| ZooKeeper连接异常(ConnectionLoss/Session expired) | zkCli.sh连不通;ZK未启动或会话超时 | 启动ZK集群;核对hbase.zookeeper.quorum;适度增大ZK会话超时;检查ZK负载与版本兼容 |
| HDFS相关报错(Permission denied/No valid filesystem/安全模式) | HDFS目录权限错误;NameNode在SafeMode;core-site/hdfs-site指向错误 | 执行hdfs dfs -chown -R hbase:hadoop /hbase;必要时hdfs dfsadmin -safemode leave;校正hbase.rootdir的HDFS地址 |
| Region无法上线/分布不均 | hbck报不一致;修改主机名后meta异常 | 在hbase shell执行scan 'hbase:meta’定位异常行;用hbck -fixAssignments修复分配;必要时调整负载均衡策略 |
| 读写延迟高/抖动 | top/htop见CPU/GC尖峰;线程堆积 | 用jstack分析热点线程;优化memstore/blockcache与handler数;考虑预分区、压缩、合并策略与Bulk load后Major Compaction |
| ServerNotRunningYetException | HMaster未就绪;依赖未起或配置错误 | 按依赖顺序启动(ZK→HDFS→HBase);核对ZK与HDFS连通性;修正配置与端口冲突后重启 |
三、关键命令清单
四、配置与网络检查要点
五、数据一致性与恢复