MongoDB在CentOS上的监控配置方案
一 监控目标与总体架构
二 快速落地步骤
三 关键指标与阈值建议
| 维度 | 关键指标 | 建议阈值或动作 |
|---|---|---|
| 连接 | connections.current / connections.available | 使用率 > 80% 告警,检查连接泄漏或调整 maxIncomingConnections |
| 操作吞吐 | inserts/queries/updates/deletes per second | 突降或异常尖峰,结合慢查询与 Profiler 排查 |
| 延迟与队列 | operationLatencyMillis、globalLock.currentQueue.total | 队列持续 > 10–50 ms 或明显上升,检查锁竞争与索引 |
| 页面错误 | extra_info.page_faults | 持续上升,检查内存与工作集是否超出 RAM |
| 缓存与命中 | wiredTiger.cache.*.bytes.readinto / cache.hitRatio | hitRatio < 95% 时考虑增加内存或优化工作集 |
| 复制 | replication.oplog.rs.size / replication.lag | lag 持续增长或接近 oplog 窗口,评估扩容/分片 |
| 存储 | db.stats().dataSize / free space | 数据或日志盘使用率 > 80% 告警,预留增长与压缩/归档 |
| 错误日志 | 日志中 ERROR/WARNING 关键字 | 出现 FATAL/UNRECOVERABLE 立即处理,ERROR 持续出现需定位根因 |
四 告警规则示例
五 日常巡检与维护