监控思路与分层
快速排查命令与示例
JMX 远程监控与采集
持续观测与告警方案
关键指标与告警阈值示例
| 维度 | 关键指标 | 建议阈值或动作 |
|---|---|---|
| 系统 | CPU 使用率 | 持续 > 80% 触发排查(热点方法、GC 压力、外部依赖) |
| 系统 | 可用内存 | 剩余 < 10% 或频繁换页,检查堆/非堆与缓存占用 |
| 系统 | 磁盘 I/O | await/svctm 明显升高,排查日志/堆转储/数据库写入 |
| 系统 | 网络 | 丢包/重传率高,排查网卡、带宽与应用重试 |
| JVM 堆 | Heap 使用率 | 持续 > 80% 或频繁 Full GC,考虑增大堆或优化对象生命周期 |
| JVM GC | YGC/FGC 次数与耗时 | FGC 次数增加或 FGCT 明显变长,分析老年代占用与引用泄漏 |
| JVM 线程 | 线程总数/阻塞/死锁 | 线程数突增或 BLOCKED/DEADLOCK,用 jstack 定位热点与锁竞争 |
| JVM 类 | 加载/卸载 | 持续增长不回落,警惕 ClassLoader/热部署 泄漏 |
| 应用 | HTTP 延迟/P95/P99 | 超过 SLA 阈值触发告警,联动 trace 定位瓶颈 |
| 应用 | 错误率 | 5xx/异常率升高,结合日志与 调用链 快速定位根因 |