监控目标与总体思路
核心指标清单与采集方法
| 指标 | 含义 | 采集方法 | 告警建议 |
|---|---|---|---|
| 日志生成速率(条/秒、KB/s) | 应用与内核产生日志的强度 | 对 /var/log/syslog 做按秒聚合计数与时长统计;journalctl 按时间窗口统计 | 突增超过基线 2–3σ 或持续高位 |
| 采集器吞吐与队列 | rsyslog/syslog-ng 的处理与排队 | 观察进程指标(CPU、RSS)、队列/积压(如 rsyslog imjournal 队列)、系统负载 | 队列持续增长或处理时延明显变长 |
| 处理时延(端到端) | 事件产生到落盘/外发耗时 | 在日志中注入时间戳(应用/rsyslog 模板),计算接收与落盘时间差 P95/P99 | P95 超过 1–2 秒 或抖动增大 |
| 丢失与重试 | 网络/磁盘/磁盘满导致的丢日志 | 监控 rsyslog 的 discarded/overflow、连接失败重试、磁盘 inode/full 告警 | 出现丢弃/重试或磁盘满告警 |
| 磁盘与 I/O | 写日志对磁盘的压力 | 采集 await、svctm、util、写速率 等(如 iostat),并监控分区使用率 | util 持续 >80%、await 明显升高 |
| 资源占用 | 采集器自身消耗 | 采集 rsyslog/syslog-ng 的 CPU%、内存 RSS、文件句柄数 | RSS 持续增长、句柄逼近上限 |
| 传输可靠性 | 本地/远程传输成功率 | 统计 连接失败、超时、重连 次数与成功率 | 失败率上升或重连频繁 |
| 日志完整性与保留 | 是否按策略保留与可读 | 校验 /var/log 分区使用率、logrotate 成功与失败计数 | 使用率 >80%、轮转失败 |
采集与可视化实现
阈值与告警建议
实践要点