CentOS 下 Dolphin 的系统监控与报警设置
一 适用对象与总体方案
- 在 CentOS 环境中,Dolphin 常见指代有三类:
- DolphinScheduler:分布式工作流调度系统,关注任务状态、失败告警、资源利用等。
- DolphinDB:分布式时序数据库,关注进程存活、端口连通、日志报错、资源与查询性能等。
- KDE Dolphin:桌面文件管理器,通常无需系统级监控与报警。
- 推荐总体方案:
- 主机与中间件层用 Prometheus + Node Exporter + Alertmanager + Grafana 统一采集、告警与可视化。
- 业务层在 DolphinScheduler 内启用失败告警,并将关键指标接入 Prometheus;DolphinDB 通过进程/端口/日志与 Exporter 结合监控。
二 快速落地 Prometheus 监控与邮件告警
- 组件与端口
- Node Exporter:采集主机指标,默认端口 9100。
- Prometheus:时序数据库与告警评估,默认端口 9090。
- Alertmanager:告警路由与去重,默认端口 9093。
- 安装与配置要点(示例)
- Prometheus 抓取 Node Exporter 与业务目标(示例片段 prometheus.yml):
- scrape_configs:
- job_name: ‘linux’
static_configs:
- targets: [‘localhost:9100’]
- job_name: ‘dolphinscheduler-api’
static_configs:
- targets: [‘:12345’] # 以实际 DS API/服务端口为准
- Alertmanager 邮件路由(示例片段 alertmanager.yml):
- route:
- receivers:
- name: ‘email’
email_configs:
- to: ‘your_email@example.com’
from: ‘alertmanager@example.com’
smarthost: ‘smtp.example.com:587’
auth_username: ‘your_username’
auth_password: ‘your_password’
require_tls: true
- 常用告警规则示例(CPU 持续高于 80% 触发):
- groups:
- name: host
rules:
- alert: HighCPUUsage
expr: 100 - (avg by(instance)(irate(node_cpu_seconds_total{mode=“idle”}[5m]))) > 80
for: 5m
labels:
severity: critical
annotations:
summary: “High CPU on {{ $labels.instance }}”
description: “CPU usage > 80% for 5m”
- Grafana:添加 Prometheus 数据源,导入主机/业务面板进行可视化。
三 DolphinScheduler 监控与告警
- 内置能力与对接
- 通过 Web 界面 查看任务执行状态与日志,并支持告警配置;同时可通过 API 与第三方监控系统对接,实现更灵活的监控与告警联动。
- 主机与进程监控
- 将 DS 各节点纳入 Node Exporter,在 Prometheus 中采集 CPU、内存、磁盘 IO、网络等资源指标,配置阈值告警(如节点宕机、磁盘空间不足、负载过高)。
- 服务可达性与日志
- 对 API/Worker/Master 端口进行 黑盒/拨测(如 Blackbox Exporter 或脚本探测),异常时触发告警;持续 tail -f 应用日志或使用 journalctl 跟踪服务状态变更与异常堆栈。
四 DolphinDB 监控与告警
- 快速巡检与日志
- 进程与端口:
- 进程存活:ps -ef | grep dolphindb
- 端口连通:nc -vz 8848(默认端口)
- 日志定位:tail -f /path/to/dolphindb/logs/dolphindb.log,关注 ERROR/WARN 与 OOM/连接数异常。
- 资源与性能
- 通过 Node Exporter 采集主机资源;结合业务侧查询延迟、会话/连接数等指标(如 DolphinDB 暴露或经 Exporter/脚本采集),在 Prometheus 中设置阈值告警(如连接数突增、查询 P95 延迟过高)。
- 告警通道
- 复用 Alertmanager 邮件/企业微信/钉钉等通知方式,统一收敛数据库与主机告警。
五 快速排障与最佳实践
- 连通性与防火墙
- 确认 9100/9090/9093/8848 等端口在主机与云安全组放行;Prometheus 能访问 Node Exporter 与目标服务。
- 告警去重与抑制
- 在 Alertmanager 中配置分组、抑制与静默策略,避免告警风暴;为不同严重级别设置不同路由与接收人。
- 基线阈值与演练
- 先设定宽松阈值并持续观察一段时间,再按业务峰谷优化;定期通过故障注入/负载升高验证告警链路有效性。
- 桌面版说明
- 若指的是 KDE Dolphin 文件管理器,其为桌面应用,通常不涉及系统级监控与报警;如需监控服务器,请选择上文的 DolphinScheduler 或 DolphinDB 方案。