监控目标与总体架构
快速巡检与内置观测
JMX 指标与可视化告警
关键指标与阈值建议
| 维度 | 核心指标 | 常见阈值或关注点 | 主要用途 |
|---|---|---|---|
| 可用性 | Live Masters、Live RegionServers | 任一 Master 异常或 RegionServer 掉线需立即处理 | 快速判断集群存活 |
| 延迟 | Read/Write RPC Latency | 持续上升常伴随 GC、热点、I/O 问题 | 性能劣化定位 |
| 吞吐 | Read/Write Throughput | 与业务峰值对比,突降/突升均需核查 | 容量与负载评估 |
| 负载均衡 | Requests per RegionServer | 标准差过大提示 热点/Region 不均 | 均衡与拆分依据 |
| 存储 | StoreFile/HFile 大小、HDFS 使用率 | 文件过大或 HDFS 容量 逼近阈值需扩容或压缩 | 查询性能与容量管理 |
| 写入路径 | WAL 写入性能 | 写入抖动影响持久化与恢复 | 稳定性与恢复能力 |
| 内存 | JVM Heap/MemStore/BlockCache | MemStore 频繁 flush、BlockCache 命中低 需调优 | 读写路径优化 |
| GC | GC 次数/停顿时间 | 长停顿或频繁 GC 影响延迟与可用性 | JVM 与参数调优 |
| 列族 | 列族数量、配置一致性 | 过多列族或配置不当影响 Compaction/Flush | 结构治理 |
| 日志 | ERROR/WARN 关键字频率 | 错误集中需结合 Region/表 维度排查 | 故障根因定位 |
| 以上指标可通过 HBase UI、Shell、JMX、Prometheus/Grafana 与 日志 多通道获取与交叉验证。 |
日志分析与常见故障排查