整体思路与监控体系
关键监控指标与告警阈值
| 维度 | 关键指标 | 建议阈值或关注点 | 主要用途 |
|---|---|---|---|
| 系统资源 | CPU 使用率、Load 1/5/15 | Load 持续高于CPU核数需排查 | 识别CPU瓶颈 |
| 内存 | 可用内存、Swap 使用 | Swap 频繁使用说明内存不足 | 发现内存压力 |
| 磁盘 | IOPS、吞吐、await/avgqu-sz | await 高或 avgqu-sz 大表示IO瓶颈 | 定位慢查询/写入 |
| 网络 | TCP 重传率、连接数 | 重传率高、TIME_WAIT 堆积需优化TCP/连接复用 | 保障吞吐与稳定性 |
| Puma/Unicorn | 进程/线程数、请求队列、响应时间 | 队列持续增长、P95/P99 上升 | 发现Web层瓶颈 |
| Sidekiq | 作业队列长度、重试/失败数、并发 | 队列堆积、失败增多需扩容或优化作业 | 保障异步任务 |
| PostgreSQL | 连接数、慢查询、缓存命中 | 连接接近上限、缓存命中低需优化索引/参数 | 定位数据库瓶颈 |
| Redis | 命中率、内存使用、阻塞 | 命中率下降或内存逼近 maxmemory | 保障缓存效率 |
| Nginx | 请求速率、5xx 比例、响应时间 | 5xx 突增、P95/P99 升高 | 发现网关/上游问题 |
| CI/CD | 排队时长、Runner 利用率、作业耗时 | 排队久、Runner 饱和需扩容或优化流程 | 提升交付效率 |
| 上述指标可通过Prometheus/Grafana采集与可视化,系统层辅以top/vmstat/iostat/sar/ss快速定位。 |
监控落地步骤
常见瓶颈与优化措施
日常维护与持续优化