Node.js日志与性能监控结合实践
一、目标与总体架构
二、关键指标与日志字段设计
| 观测对象 | 核心指标/字段 | 采集方式 | 典型用途 |
|---|---|---|---|
| HTTP 服务 | 请求率、P50/P95/P99 延迟、错误率、active_requests | prom-client Histogram/Gauge 拦截中间件 | 容量评估、SLO 告警、慢请求定位 |
| 进程与系统 | CPU 使用率、RSS/Heap/External、事件循环延迟 | process.memoryUsage()、os.cpus()、event-loop-lag | 资源瓶颈识别、内存泄漏预警 |
| 数据库/外部依赖 | 连接池使用、慢查询、下游错误率/时延 | 埋点 + 日志字段(如db.pool.active/free/queued) | 依赖瓶颈定位、连接风暴排查 |
| 业务关键路径 | 订单总数、支付成功率、转化率 | prom-client Counter/Gauge 自定义埋点 | 业务健康与增长分析 |
三、落地实现步骤
四、从告警到根因的排查闭环
五、生产级配置与优化建议