温馨提示×

centos dolphin的系统监控与报警设置

小樊
39
2025-12-29 11:55:38
栏目: 智能运维

CentOS 下 Dolphin 的系统监控与报警设置

一 适用对象与总体方案

  • CentOS 环境中,Dolphin 常见指代有三类:
    • DolphinScheduler:分布式工作流调度系统,关注任务状态、失败告警、资源利用等。
    • DolphinDB:分布式时序数据库,关注进程存活、端口连通、日志报错、资源与查询性能等。
    • KDE Dolphin:桌面文件管理器,通常无需系统级监控与报警。
  • 推荐总体方案:
    • 主机与中间件层用 Prometheus + Node Exporter + Alertmanager + Grafana 统一采集、告警与可视化。
    • 业务层在 DolphinScheduler 内启用失败告警,并将关键指标接入 Prometheus;DolphinDB 通过进程/端口/日志与 Exporter 结合监控。

二 快速落地 Prometheus 监控与邮件告警

  • 组件与端口
    • Node Exporter:采集主机指标,默认端口 9100
    • Prometheus:时序数据库与告警评估,默认端口 9090
    • Alertmanager:告警路由与去重,默认端口 9093
  • 安装与配置要点(示例)
    • Prometheus 抓取 Node Exporter 与业务目标(示例片段 prometheus.yml):
      • scrape_configs:
        • job_name: ‘linux’ static_configs:
          • targets: [‘localhost:9100’]
        • job_name: ‘dolphinscheduler-api’ static_configs:
          • targets: [‘:12345’] # 以实际 DS API/服务端口为准
    • Alertmanager 邮件路由(示例片段 alertmanager.yml):
      • route:
        • receiver: ‘email’
      • receivers:
        • name: ‘email’ email_configs:
          • to: ‘your_email@example.com’ from: ‘alertmanager@example.com’ smarthost: ‘smtp.example.com:587’ auth_username: ‘your_username’ auth_password: ‘your_password’ require_tls: true
    • 常用告警规则示例(CPU 持续高于 80% 触发):
      • groups:
        • name: host rules:
          • alert: HighCPUUsage expr: 100 - (avg by(instance)(irate(node_cpu_seconds_total{mode=“idle”}[5m]))) > 80 for: 5m labels: severity: critical annotations: summary: “High CPU on {{ $labels.instance }}” description: “CPU usage > 80% for 5m”
    • Grafana:添加 Prometheus 数据源,导入主机/业务面板进行可视化。

三 DolphinScheduler 监控与告警

  • 内置能力与对接
    • 通过 Web 界面 查看任务执行状态与日志,并支持告警配置;同时可通过 API 与第三方监控系统对接,实现更灵活的监控与告警联动。
  • 主机与进程监控
    • 将 DS 各节点纳入 Node Exporter,在 Prometheus 中采集 CPU、内存、磁盘 IO、网络等资源指标,配置阈值告警(如节点宕机、磁盘空间不足、负载过高)。
  • 服务可达性与日志
    • API/Worker/Master 端口进行 黑盒/拨测(如 Blackbox Exporter 或脚本探测),异常时触发告警;持续 tail -f 应用日志或使用 journalctl 跟踪服务状态变更与异常堆栈。

四 DolphinDB 监控与告警

  • 快速巡检与日志
    • 进程与端口:
      • 进程存活:ps -ef | grep dolphindb
      • 端口连通:nc -vz 8848(默认端口)
    • 日志定位:tail -f /path/to/dolphindb/logs/dolphindb.log,关注 ERROR/WARN 与 OOM/连接数异常。
  • 资源与性能
    • 通过 Node Exporter 采集主机资源;结合业务侧查询延迟、会话/连接数等指标(如 DolphinDB 暴露或经 Exporter/脚本采集),在 Prometheus 中设置阈值告警(如连接数突增、查询 P95 延迟过高)。
  • 告警通道
    • 复用 Alertmanager 邮件/企业微信/钉钉等通知方式,统一收敛数据库与主机告警。

五 快速排障与最佳实践

  • 连通性与防火墙
    • 确认 9100/9090/9093/8848 等端口在主机与云安全组放行;Prometheus 能访问 Node Exporter 与目标服务。
  • 告警去重与抑制
    • Alertmanager 中配置分组、抑制与静默策略,避免告警风暴;为不同严重级别设置不同路由与接收人。
  • 基线阈值与演练
    • 先设定宽松阈值并持续观察一段时间,再按业务峰谷优化;定期通过故障注入/负载升高验证告警链路有效性。
  • 桌面版说明
    • 若指的是 KDE Dolphin 文件管理器,其为桌面应用,通常不涉及系统级监控与报警;如需监控服务器,请选择上文的 DolphinSchedulerDolphinDB 方案。

0