Debian上Jenkins监控与告警实战
一 监控分层与总体架构
二 快速落地步骤
三 关键监控指标与告警规则示例
| 维度 | 核心指标 | 用途 | 建议阈值/动作 |
|---|---|---|---|
| 节点健康 | default_jenkins_nodes_online | 发现Agent掉线 | == 0 持续2m即告警,检查Agent进程、网络、权限 |
| 构建健康 | jenkins_job_build_status(1=成功,0=失败) | 失败趋势与稳定性 | 失败率上升或连续失败触发告警 |
| 队列与执行 | jenkins_queue_size、jenkins_executor_in_use / jenkins_executor_free | 判断资源瓶颈 | 队列持续增长或Executor长期打满触发扩容 |
| 系统资源 | node_cpu_seconds_total、node_memory_MemAvailable_bytes、node_filesystem_avail_bytes | 主机容量与压力 | 可用内存低、磁盘可用空间不足、CPU持续高负载触发处理 |
| 服务可用性 | HTTP 200/302 对 /login 或 /prometheus | 判定服务存活 | 连续失败触发页面/接口告警与自动恢复流程 |
| 说明:节点在线状态与队列/执行器等指标由Jenkins插件提供;主机资源指标由Node Exporter提供。 |
四 服务与日志层面的可用性检查
五 轻量替代与补充工具