温馨提示×

Ubuntu Dolphin如何进行系统资源监控

小樊
37
2025-12-12 11:17:00
栏目: 智能运维

Ubuntu 下 Dolphin 与系统资源监控指南

一、先明确监控对象

  • 若你指的是 Dolphin(文件管理器):它不提供系统级监控功能,建议直接查看系统资源。
  • 若你指的是 DolphinDB(分布式数据库):需同时关注操作系统资源与数据库节点指标(CPU、内存、磁盘 I/O、网络、查询延迟、作业队列等)。

二、快速上手 系统级监控常用命令

  • 实时资源总览
    • top/htop:查看 CPU、内存、进程;在 top 中按 P/M 排序,htop 支持鼠标与颜色高亮。
    • 安装 htop:sudo apt install htop
  • 内存与磁盘
    • free -h:以 GB/MB 显示内存,关注 available 列。
    • df -h:查看 磁盘空间 与挂载点占用。
  • I/O 与系统活动
    • iostat -x 1:查看 磁盘 I/O 利用率(%util)await 等扩展指标,定位 I/O 瓶颈。
    • vmstat 1:观察 procs、memory、swap、io、system、cpu 概览,关注 wa(I/O 等待)。
    • sar(来自 sysstat):查看 历史 CPU、内存、I/O 报表;常用 sar -u/-d [间隔]。
  • 网络
    • ss -s:快速查看 套接字/连接 统计。
    • nethogs:按进程查看 带宽占用(需 sudo)。
    • iftop -i eth0:按网卡查看 实时流量(示例网卡 eth0)。

三、进阶可视化与告警

  • Glances(终端一体化监控)
    • 安装:sudo apt install glances
    • 特点:跨平台,集中展示 CPU、内存、磁盘 I/O、网络、文件系统、温度 等,适合快速巡检与远程查看(可配 Web/SNMP)。
  • Prometheus + Grafana(服务器与数据库双重监控)
    • 服务器层:Node Exporter 采集 CPU、内存、磁盘、网络;Prometheus 定时抓取;Grafana 可视化与告警。
    • DolphinDB 层:利用 内置运维函数(如 getPerf、getClusterPerf)输出 进程/节点 指标,Prometheus 抓取后在 Grafana 展示;也可使用 dolphindb-datasource 插件直连 DolphinDB 做面板查询。
  • Zabbix(企业级监控)
    • 通过 Zabbix Agent 采集主机指标,结合自定义脚本/接口获取 DolphinDB 进程 的 CPU、内存、磁盘、网络等,配置触发器实现 告警 与可视化。

四、DolphinDB 专项监控与配置

  • 启用与获取指标
    • 配置:在 dolphindb.cfg 中设置 perfMonitoring=true(节点单独启动时默认 false;集群由控制器启动时默认 true)。
    • 常用函数:
      • getPerf():返回 本地节点 性能度量(如 cpuUsage、memoryUsed、diskReadRate/WriteRate、networkRecv/SendRate、runningJobs、queuedJobs、lastMsgLatency 等)。
      • getClusterPerf():返回 集群所有节点 性能度量(仅可在 控制器 执行)。
      • getJobStat():查看 作业/任务 执行与排队情况。
  • Web 界面可观测项
    • 包含 memUsed、memAlloc、medLast10QueryTime、maxLast10QueryTime、maxRunningQueryTime、connectionNum 等,便于快速定位查询与连接瓶颈。
  • 日志与工作负载
    • 工作日志默认目录 log,文件 nodeAlias_job.log;可在配置中调整 jobLog 路径与名称,用于审计与问题复盘。

五、实用命令清单与排障要点

  • 常用命令速查
    • CPU/内存:top/htop;内存详情:free -h
    • 磁盘:df -h;I/O:iostat -x 1;系统概览:vmstat 1;历史:sar -u/-d [间隔]
    • 网络:ss -s;进程带宽:sudo nethogs;网卡流量:sudo iftop -i eth0
    • 一体化:glances
  • 排障要点
    • I/O 瓶颈:iostat 中 %util 接近 100% 表示设备繁忙;await 高 说明 I/O 等待时间长。
    • 负载与 CPU:vmstat wa 持续偏高表示磁盘等待;top/htop 结合 P/M 排序定位异常进程。
    • 网络异常:ss 看连接状态,iftop/nethogs 定位高占用进程或异常流量。

0