Debian上HBase性能监控实操指南
一 监控体系与工具选型
二 快速落地步骤
三 关键监控指标与阈值建议
| 维度 | 核心指标 | 说明/用途 | 建议关注 |
|---|---|---|---|
| 吞吐与延迟 | 读/写吞吐量、读/写延迟、RPC延迟 | 反映业务处理能力与服务体验 | 突增/抖动、P95/P99异常 |
| Region健康 | Region数量/大小、读写请求计数、热点Region | 评估负载均衡与分裂压力 | 单RS Region过多、热点集中 |
| 存储与文件 | HFile大小、Store文件数、HDFS使用率 | 影响查询与合并压力 | 大文件/过多小文件、容量告警 |
| 内存与缓存 | MemStore大小、BlockCache命中率 | 影响读写路径与GC | MemStore常刷、命中率下降 |
| 写入路径 | WAL写入性能、Flush频率/耗时 | 影响持久化与恢复 | WAL慢、频繁Flush |
| 合并与分裂 | Compaction次数/时长、Split/Merge活动 | 影响I/O与抖动 | 长时Compaction、频繁Split |
| JVM与GC | Heap/Meta/CodeCache、GC次数/时间 | 稳定性与停顿风险 | Full GC频繁、晋升失败 |
| 主机资源 | CPU、内存、磁盘IO、网络 | 基础设施瓶颈定位 | IO饱和、网络拥塞 |
| 服务可用性 | HMaster/RegionServer进程存活、Web UI/端口连通 | 快速发现宕机/异常 | 进程消失、端口不通 |
| 以上指标可通过HBase Web UI、Shell、JMX以及HDFS/YARN UI交叉验证,便于定位根因。 |
四 日常巡检与排障流程