温馨提示×

Jenkins在Linux中如何监控

小樊
44
2025-12-04 08:53:28
栏目: 智能运维

监控目标与总体架构

  • 监控对象应覆盖三层:
    1. Jenkins 应用层(构建队列、执行节点在线状态、构建成功率/耗时、插件健康);
    2. JVM 层(堆内存、GC、线程、类加载);
    3. 操作系统层(CPU、内存、磁盘 I/O、网络)。
  • 推荐架构:在 Jenkins 内安装监控插件获取应用与 JVM 指标,使用 Prometheus 抓取指标、Grafana 可视化;同时用 Linux 命令行工具系统性能套件补充主机层面监控,构建结果写入 InfluxDB 做趋势分析,并通过 邮件/Slack 等实现告警。

快速落地步骤

  • 应用与 JVM 监控
    • 安装 Monitoring 插件(JavaMelody):进入 Manage Jenkins → Plugins 搜索并安装,安装后在 Manage Jenkins → Monitoring of Jenkins master 查看仪表盘,覆盖内存、CPU、HTTP 响应时间、当前请求数等。
    • 安装 Prometheus metrics 插件:为 Jenkins 暴露 /prometheus 指标端点;在 Prometheus 配置 scrape:
      • job_name: ‘jenkins’
        metrics_path: ‘/prometheus’
        static_configs:
        • targets: [‘<jenkins_ip>:<jenkins_port>’]
    • Grafana 添加 Prometheus 数据源并导入 Jenkins 仪表盘模板(如 9964),即可获得构建与节点健康的可视化面板。
  • 主机与系统资源监控
    • 使用 sysstat(含 sar/iostat)持续采集 CPU、内存、I/O;
    • 使用 top/htop 观察进程资源,iostat 检查磁盘 I/O,iftop/nethogs 监控网络流量;
    • 将这些指标与 Jenkins 指标一并纳入统一可视化与告警体系。
  • 构建与任务监控
    • 通过 Jenkins REST API 获取构建状态与结果,例如:
      • curl -u : http://<jenkins_ip>:/job/<job_name>/lastBuild/api/json
    • 结合 Email ExtensionSlack Notification 插件在构建成功/失败、阶段变更时自动通知。

告警与可视化方案

  • 可视化:
    • Grafana 对接 Prometheus,导入 Jenkins 仪表盘模板(ID:9964),集中展示构建队列、节点在线、构建时长分布、失败趋势等;
    • JavaMelody 提供轻量级的 JVM/HTTP 维度图表,适合快速排障。
  • 告警:
    • Prometheus 配置规则(如构建队列过长、节点离线、HTTP 错误率升高、JVM Full GC 频繁等),联动 Alertmanager 发送邮件/企业微信/钉钉/Slack;
    • Jenkins 内用 Email ExtensionSlack Notification 对构建事件做即时通知,形成“平台内+平台外”的双通道告警。

Linux命令与脚本示例

  • 节点与构建状态巡检脚本(示例)
    • 查看节点在线:
      • curl -s -u : http://<jenkins_ip>:/computer/api/json | jq -r ‘.computer[] | “(.displayName): (.offline)”’
    • 查看最近一次构建结果:
      • curl -s -u : http://<jenkins_ip>:/job/<job_name>/lastBuild/api/json | jq -r ‘.result’
  • 主机资源快速查看
    • CPU/内存:top/htop
    • 磁盘 I/O:iostat -x 1
    • 网络:iftop 或 nethogs
  • 将采集到的指标写入 InfluxDB(配合 InfluxDB 插件或脚本),在 Grafana 中做趋势对比与容量规划。

关键指标与阈值建议

  • 建议重点关注的指标与常见阈值(需结合业务调优):
    • 构建队列长度:持续大于 0 表示存在资源瓶颈或并发不足;
    • 节点在线率:长期低于 95% 需排查节点稳定性/网络;
    • 构建成功率/失败率:失败率升高应联动回滚与根因分析;
    • 构建时长 P95/P99:突增可能受代码/依赖/测试/存储影响;
    • JVM Heap/Memory:Old/Eden 使用率高且 Full GC 频繁需扩容或优化;
    • HTTP 响应时间/错误率:响应时间升高或 5xx 增多需检查插件/负载/后端;
    • CPU/内存/磁盘 I/O:CPU 持续 > 80%、可用内存低、磁盘 IOWAIT 高均可能引发构建抖动与超时。

0