HBase监控工具在Ubuntu上的应用

在 Ubuntu 上落地 HBase 监控，建议以“内置工具快速巡检 + Linux 系统监控打底 + 第三方平台集中可视化与告警”为主线，覆盖进程、JVM、HDFS、表/Region 与健康面板等关键维度，形成闭环运维。

一、监控体系与工具选型

内置与系统层
- 进程与日志：使用 jps 检查 HMaster/HRegionServer 存活；日志位于 $HBASE_HOME/logs，重点排查 ERROR/WARN。
- Web 管理界面：访问 HBase Master UI（默认 http://:60010） 查看集群健康、Region 分布、表/Region 详情与负载；结合 Hadoop ResourceManager UI（http://:8088） 观察 YARN/CPU/内存/队列。
- 系统资源：用 top/htop、vmstat 1、iostat -x 1、free -h、df -h 实时看 CPU、内存、I/O、磁盘；用 sar -u/-r 1 3 收集历史趋势。
第三方平台
- Zabbix：通过 Agent 采集进程/端口/自定义脚本指标，配置阈值与告警，适合已有 Zabbix 体系的团队。
- Prometheus + Grafana：以 JMX Exporter 暴露 HBase JMX 指标，Prometheus 抓取并存储，Grafana 做面板与告警规则。
- Ganglia：轻量、适合大规模集群的分布式监控，便于看整体资源趋势。

二、快速上手步骤

内置巡检与系统监控
- 进程与日志：执行 $JAVA_HOME/bin/jps 确认 HMaster/HRegionServer；tail -f $HBASE_HOME/logs/hbase-*.log 观察异常。
- 资源面：执行 htop、vmstat 1、iostat -x 1、free -h、df -h；必要时用 sar 回溯历史。
- UI 面：浏览器打开 http://:60010 与 http://:8088 交叉验证健康与负载。
Zabbix 集成
- 在 Ubuntu 安装 Zabbix Server/Agent，在 Zabbix 前端创建主机并关联 HBase 模板，添加进程存活、端口连通、JMX 或脚本指标，配置触发器与告警媒介（邮件/Slack）。
Prometheus + Grafana 集成
- 部署 JMX Exporter（通常与 HBase 同机或 Sidecar），在 hbase-env.sh 中开启 JMX 并指向 Exporter；Prometheus 配置抓取任务，Grafana 导入 HBase 面板模板并配置告警规则。

三、关键监控指标与告警阈值

维度	关键指标	建议阈值/动作
进程/服务	HMaster/HRegionServer 进程存活、60010/8088 端口连通	进程缺失或端口不通即严重告警，联动自动拉起/工单
系统资源	CPU 使用率、内存使用率、磁盘 %util、HDFS 使用率	CPU>80% 持续 5 分钟、内存>90%、磁盘 %util≈100%、HDFS 空间紧张时扩容或清理
读写性能	读/写延迟、请求数	读延迟>1s 或写延迟>2s 告警，结合业务 SLA 调整
缓存与压缩	BlockCache 命中率、Compaction 队列	命中率 <80% 告警；Compaction 队列持续增长需关注 I/O 与存储
JVM	GC 次数/时间、堆使用	Full GC 频繁或堆使用长期高位，调大堆/优化对象生命周期
Zookeeper	连接数、会话状态	连接数超过节点数的 2 倍告警，排查会话泄漏或连接风暴
HDFS	存储使用、NameNode/DataNode 健康	使用率接近配额、DataNode 异常或心跳超时及时处理
以上阈值可按业务规模与延迟目标微调，建议先在测试环境验证再推广。

四、日志管理与自动化维护

日志轮转

使用 logrotate 管理 $HBASE_HOME/logs/*.log，示例配置（保留 7 天、每日轮转、压缩）：

/usr/local/hbase/logs/*.log {
    daily
    rotate 7
    compress
    missingok
    notifempty
    sharedscripts
    postrotate
        /usr/local/hbase/bin/stop-logging.sh
        /usr/local/hbase/bin/start-logging.sh
    endscript
}

自动化巡检与维护
- 进程存活巡检脚本（示例）：
```
#!/usr/bin/env bash
if ! pgrep -x "HRegionServer" > /dev/null; then
  echo "HRegionServer DOWN at $(date)" | mail -s "HBase Alert" admin@example.com
fi
```
  加入 crontab：*/5 * * * * /path/check_hbase_process.sh
- 表级维护（示例）：$HBASE_HOME/bin/hbase shell <<EOF compact 'test_table' EOF，并将输出记录到 /var/log/hbase_maintenance.log。

五、常见问题与排查路径

UI 访问异常：确认 HMaster 进程存活、安全组/防火墙放行 60010/8088，以及 /etc/hosts 或 DNS 解析正确。
Region 分布不均或读写抖动：查看 Master UI 的 Region 分布与负载，结合 iostat -x 1 检查磁盘 %util，必要时触发 major compact 或调整预分区/RowKey。
延迟升高或 BlockCache 命中率低：在 Grafana/Prometheus 观察 BlockCache 命中率、Compaction 队列、请求延迟，联动调整 BlockCache 大小、压缩与表设计。

最新问答

相关标签