MongoDB 性能监控实践指南
一 内置工具与快速排障
二 系统与平台监控
三 可视化与长期观测
四 关键指标与告警阈值建议
| 指标 | 含义 | 建议关注 | 告警/优化方向 |
|---|---|---|---|
| 操作吞吐 insert/query/update/delete/command | 每秒操作数 | 突增/骤降 | 结合慢查询与连接数定位业务变化或阻塞 |
| faults/s | 缺页次数 | 持续 > 0 且升高 | 增加内存、优化工作集、减少随机 IO |
| locked % | 全局写锁占比 | 持续 > 50% | 降低长事务、优化索引、减少大批量写 |
| qr/qw | 读/写队列 | 持续 > 0 | 检查锁争用、慢查询、连接风暴 |
| conn | 当前连接数 | 接近/超过连接上限 | 调整连接池、排查连接泄漏 |
| page_faults | 页面错误 | 升高 | 与 faults/s 联动,优化内存与工作集 |
| idx miss % / keysExamined/docsExamined | 索引命中与扫描 | 命中低或扫描远大于返回 | 增加/改写索引、改写查询 |
| query execution time (ms) | 查询延迟 | 超过 slowms(如 100ms) | 使用 Profiler/Atlas 定位并优化 |
| disk await/svctm | 磁盘响应 | 明显升高 | 更换/扩容更快存储、优化索引与聚合 |
| replication lag | 主从/分片复制延迟 | 持续增大 | 检查网络、从节点负载、Oplog 窗口 |
| asserts | 内部错误/警告 | 非 0 增长 | 及时排查错误日志与异常操作 |
五 落地步骤与排障流程