选择思路与场景定位
主流工具对比与适用场景
| 工具 | 类型 | 关键能力 | 典型场景 | 在 CentOS 的部署要点 |
|---|---|---|---|---|
| HBase Master UI | 内置 | 查看集群/RegionServer/Region状态、请求数、延迟、内存等 | 日常巡检、故障定位的第一现场 | 默认端口16010;仅能本机/内网访问,需配合反向代理或内网域名 |
| HBase Shell | 内置 | status、list_regions、describe 等,辅助核对状态与元数据 | 快速健康检查、脚本化核对 | 需在集群节点或能连 ZooKeeper 的客户端执行 |
| JMX + JMX Exporter + Prometheus + Grafana | 开源组合 | 暴露JMX指标、时序存储、灵活查询与Grafana可视化 | 指标全、可扩展、可落地SLO/告警 | 在 Master/RegionServer 部署 JMX Exporter(常见 16030/16020 暴露),Prometheus 抓取,Grafana 导入 HBase 仪表盘 |
| Ganglia | 开源 | 分布式指标收集与可视化,轻量易扩展 | 传统物理机/中小集群、偏系统层监控 | 各节点部署 gmond,中央 gmetad 汇总,Web 展示 |
| Zabbix | 开源 | 企业级监控、模板丰富、告警渠道多 | 大规模服务器/网络设备统一监控 | 安装 Server/Agent,通过 JMX/IPMI/SNMP 采集,模板化监控 HBase 与 OS |
| Nagios | 开源 | 服务可用性、插件生态、告警灵活 | 以可用性为核心的监控 | 编写检查脚本(端口/HTTP/进程),配置联系人/升级策略 |
| ELK(Logstash/Elasticsearch/Kibana) | 开源 | 日志采集、检索、可视化与关键字告警 | 异常日志、慢查询、GC、报错追踪 | Filebeat 采集 HBase 日志,ES 存储,Kibana 看板与告警 |
| 商业工具(Datadog/New Relic) | SaaS | 全栈可观测、云集成、分析能力强 | 需要快速落地与深度分析的团队 | 安装 Agent,开启 JMX/系统采集,按需订阅 |
| hbtop | 开源工具 | 类 top 的 HBase 实时监控 | 终端快速查看RegionServer/Region热点 | 在集群节点直接运行,适合临时排查 |
| Hadoop HDFS/YARN Web UI | 生态工具 | HDFS 容量/健康、YARN 资源使用 | 与 HBase 紧耦合的存储/计算层观测 | NameNode 50070、ResourceManager 8088 等 |
| 上表涵盖了常见的内置工具、开源组合与商业方案,并给出在 CentOS 上的典型使用方式与适配场景。 |
推荐组合方案
关键指标与告警建议
在 CentOS 上的落地步骤