Linux 上监控 GitLab 的实用方案
一 监控体系总览
二 快速落地步骤
三 关键监控指标与阈值建议
| 维度 | 关键指标 | 建议阈值或关注点 | 说明 |
|---|---|---|---|
| 系统资源 | CPU 使用率、内存使用率、磁盘 IOPS/延迟、网络吞吐 | CPU > 80% 持续 5–15 分钟;可用内存过低;磁盘 await/svctm 升高;带宽打满 | 先定位瓶颈资源,再回溯到 GitLab 组件 |
| GitLab 组件 | Unicorn/Rails 请求耗时、排队、5xx 错误率、Sidekiq 队列与重试、Workhorse 请求耗时 | 5xx 突增、队列持续增长、P95/P99 明显上升 | 反映应用健康与容量 |
| Runner | 作业排队时长、失败率、并发/利用率 | 排队时间拉长、失败率升高 | 关注 CI/CD 负载与 Runner 规模 |
| 数据库/缓存 | PostgreSQL 连接数、慢查询、锁等待;Redis 命中率、内存与阻塞 | 连接数接近上限、慢查询增多、命中率下降 | 常见性能根因来源 |
| 存储与仓库 | 仓库对象存储延迟、NFS/对象存储错误、磁盘空间 | 空间不足、延迟抖动 | 影响克隆/拉取与 Web 响应 |
| 网络与安全 | 连接数、TCP 重传、异常来源 IP | 重传率高、异常访问增多 | 排查网络质量与潜在攻击 |
四 命令行与日志的即时排查
五 容器与 Kubernetes 场景补充