如何在Linux系统中监控MongoDB性能

Linux下监控MongoDB性能的实用方案

一快速上手的内置工具

使用 mongostat 实时查看数据库整体吞吐与连接：
mongostat --host localhost --port 27017 --username admin --password yourpassword --authenticationDatabase admin
关注字段：insert/query/update/delete（每秒操作数）、conn（当前连接数）、mem（内存使用）等，用于快速判断负载与异常波动。
使用 mongotop 观察各库/集合的读写耗时分布：
mongotop --host localhost --port 27017 --username admin --password yourpassword --authenticationDatabase admin
适合定位“热点”库或集合，快速发现读写倾斜。
在 mongo shell 中查看全局状态与库级统计：
mongo --host localhost --port 27017 --username admin --password yourpassword --authenticationDatabase admin
• 全局：db.serverStatus()（返回连接、内存、网络、opcounters、wiredTiger 等大量指标）
• 库级：db.stats()（对象数、索引数、存储大小等）
小技巧：将输出重定向到日志可做临时留存，例如：mongo --eval “db.serverStatus()” >> serverStatus.log。

二系统层面的资源监控

进程与CPU/内存：
• top/htop：top -u mongod 或 htop（按 mongod 用户过滤），观察 CPU%、RES、%MEM。
磁盘IO：
• iostat -x 1：关注 await、r/s、w/s、util%，识别磁盘瓶颈。
虚拟内存与调度：
• vmstat 1：关注 si/so（换入/换出）、us/sy/id（CPU 分布）。
这些系统指标与 MongoDB 的吞吐、延迟紧密相关，能快速判断是否存在资源争用或硬件瓶颈。

三长期监控与可视化

开源组合 Prometheus + Grafana：
• 在 Prometheus 配置抓取 MongoDB 任务（示例）：
scrape_configs:
- job_name: ‘mongodb’
static_configs:
- targets: [‘localhost:27017’]
• Grafana 添加 Prometheus 数据源并导入 MongoDB 仪表盘，实现历史趋势、面板可视化与阈值告警。
企业级与托管方案：
• MongoDB Ops Manager / Cloud Manager：官方监控与管理，覆盖集群、备份、告警等。
• Percona Monitoring and Management（PMM）：开源，多数据库支持，图表与告警完善。
• Zabbix / Nagios：通过插件采集 mongostat/mongotop 或自定义脚本，适合已有监控平台。
选择建议：短期排障用内置工具；中长期观测与告警建议上 Prometheus+Grafana 或 PMM/Ops Manager。

四关键指标与告警阈值示例

维度	核心指标	常用命令/来源	告警参考	说明
吞吐	insert/query/update/delete ops/s	mongostat	突增/骤降、持续接近上限	反映业务负载变化
连接	connections.current / connections.available	db.serverStatus()	接近 maxIncomingConnections	连接耗尽会导致失败
延迟	opLatencies.commands/reads/writes.avg ms	db.serverStatus()	明显上升	常与慢查询、锁争用相关
缓存与内存	wiredTiger.cache.、mem.、page faults	db.serverStatus()	cache 命中率下降、page faults 上升	命中低提示内存/工作集不足
磁盘IO	await、r/s、w/s、util%	iostat -x 1	util% 持续高、await 大	磁盘成为瓶颈
复制	replSetGetStatus metrics（复制延迟/心跳）	rs.status()	复制延迟持续增长	影响一致性与故障切换
慢查询	slowms、totalKeysExamined、totalDocsExamined	慢查询日志 / Profiler / explain()	扫描文档过多、无索引	需优化查询与索引
以上指标与命令覆盖了资源、数据库与复制健康度的主路径；阈值应结合基线动态调整。

五慢查询定位与优化

开启并分析 Profiler（开发/测试环境优先）：
• 开启：db.setProfilingLevel(1, 100ms)（记录 >100ms 的操作）
• 查询：db.system.profile.find().sort({ts:-1}).limit(10)
使用 explain(“executionStats”) 判断执行计划：
• 示例：db.users.find({age:{$gt:30}}).explain(“executionStats”)
• 关注：
- queryPlanner.winningPlan.stage：出现 COLLSCAN 表示全表扫描，需加索引
- executionStats.executionTimeMillis：执行耗时
- totalKeysExamined / totalDocsExamined：扫描键/文档数，越少越好
优化方向：为高频查询建立合适索引、减少返回字段、避免在大集合上无索引聚合与排序。

最新问答