HBase自带工具
http://master-node:16010/master-status,查看集群状态、RegionServer分布等。hbase shell 执行 status 'detailed' 查看集群详情,或 hbase hbck 检查元数据一致性。第三方工具
hbase-metrics.properties 暴露指标。日志告警
/hbase/logs/ 下的 hbase-regionserver.log),设置关键字告警(如 “ERROR”、“Exception”)。Prometheus告警规则示例
# hbase_rules.yml
groups:
- name: hbase_alerts
rules:
- alert: HighRegionServerLoad
expr: hbase_regionserver_load > 100 # 自定义阈值
for: 5m
labels:
severity: critical
annotations:
summary: "High load on RegionServer {{ $labels.instance }}"
description: "RegionServer {{ $labels.instance }} has been overloaded for 5 minutes."
阈值设置建议
hbase-env.sh 中配置 HBASE_JMX_OPTS,确保监控数据可采集。以上配置可结合实际需求选择工具组合,优先使用Prometheus+Grafana实现指标采集与可视化,配合日志分析工具覆盖异常场景。