centos dolphin的系统监控与报警设置

CentOS 下 Dolphin 的系统监控与报警设置

一适用对象与总体方案

在 CentOS 环境中，Dolphin 常见指代有三类：
- DolphinScheduler：分布式工作流调度系统，关注任务状态、失败告警、资源利用等。
- DolphinDB：分布式时序数据库，关注进程存活、端口连通、日志报错、资源与查询性能等。
- KDE Dolphin：桌面文件管理器，通常无需系统级监控与报警。
推荐总体方案：
- 主机与中间件层用 Prometheus + Node Exporter + Alertmanager + Grafana 统一采集、告警与可视化。
- 业务层在 DolphinScheduler 内启用失败告警，并将关键指标接入 Prometheus；DolphinDB 通过进程/端口/日志与 Exporter 结合监控。

二快速落地 Prometheus 监控与邮件告警

组件与端口
- Node Exporter：采集主机指标，默认端口 9100。
- Prometheus：时序数据库与告警评估，默认端口 9090。
- Alertmanager：告警路由与去重，默认端口 9093。
安装与配置要点（示例）
- Prometheus 抓取 Node Exporter 与业务目标（示例片段 prometheus.yml）：
  - scrape_configs:
    - job_name: ‘linux’ static_configs:
      - targets: [‘localhost:9100’]
    - job_name: ‘dolphinscheduler-api’ static_configs:
      - targets: [‘:12345’] # 以实际 DS API/服务端口为准
- Alertmanager 邮件路由（示例片段 alertmanager.yml）：
  - route:
    - receiver: ‘email’
  - receivers:
    - name: ‘email’ email_configs:
      - to: ‘your_email@example.com’ from: ‘alertmanager@example.com’ smarthost: ‘smtp.example.com:587’ auth_username: ‘your_username’ auth_password: ‘your_password’ require_tls: true
- 常用告警规则示例（CPU 持续高于 80% 触发）：
  - groups:
    - name: host rules:
      - alert: HighCPUUsage expr: 100 - (avg by(instance)(irate(node_cpu_seconds_total{mode=“idle”}[5m]))) > 80 for: 5m labels: severity: critical annotations: summary: “High CPU on {{ $labels.instance }}” description: “CPU usage > 80% for 5m”
- Grafana：添加 Prometheus 数据源，导入主机/业务面板进行可视化。

三 DolphinScheduler 监控与告警

内置能力与对接
- 通过 Web 界面 查看任务执行状态与日志，并支持告警配置；同时可通过 API 与第三方监控系统对接，实现更灵活的监控与告警联动。
主机与进程监控
- 将 DS 各节点纳入 Node Exporter，在 Prometheus 中采集 CPU、内存、磁盘 IO、网络等资源指标，配置阈值告警（如节点宕机、磁盘空间不足、负载过高）。
服务可达性与日志
- 对 API/Worker/Master 端口进行 黑盒/拨测（如 Blackbox Exporter 或脚本探测），异常时触发告警；持续 tail -f 应用日志或使用 journalctl 跟踪服务状态变更与异常堆栈。

四 DolphinDB 监控与告警

快速巡检与日志
- 进程与端口：
  - 进程存活：ps -ef | grep dolphindb
  - 端口连通：nc -vz 8848（默认端口）
- 日志定位：tail -f /path/to/dolphindb/logs/dolphindb.log，关注 ERROR/WARN 与 OOM/连接数异常。
资源与性能
- 通过 Node Exporter 采集主机资源；结合业务侧查询延迟、会话/连接数等指标（如 DolphinDB 暴露或经 Exporter/脚本采集），在 Prometheus 中设置阈值告警（如连接数突增、查询 P95 延迟过高）。
告警通道
- 复用 Alertmanager 邮件/企业微信/钉钉等通知方式，统一收敛数据库与主机告警。

五快速排障与最佳实践

连通性与防火墙
- 确认 9100/9090/9093/8848 等端口在主机与云安全组放行；Prometheus 能访问 Node Exporter 与目标服务。
告警去重与抑制
- 在 Alertmanager 中配置分组、抑制与静默策略，避免告警风暴；为不同严重级别设置不同路由与接收人。
基线阈值与演练
- 先设定宽松阈值并持续观察一段时间，再按业务峰谷优化；定期通过故障注入/负载升高验证告警链路有效性。
桌面版说明
- 若指的是 KDE Dolphin 文件管理器，其为桌面应用，通常不涉及系统级监控与报警；如需监控服务器，请选择上文的 DolphinScheduler 或 DolphinDB 方案。

最新问答