Ubuntu 下 Dolphin 与系统资源监控指南
一、先明确监控对象
- 若你指的是 Dolphin(文件管理器):它不提供系统级监控功能,建议直接查看系统资源。
- 若你指的是 DolphinDB(分布式数据库):需同时关注操作系统资源与数据库节点指标(CPU、内存、磁盘 I/O、网络、查询延迟、作业队列等)。
二、快速上手 系统级监控常用命令
- 实时资源总览
- top/htop:查看 CPU、内存、进程;在 top 中按 P/M 排序,htop 支持鼠标与颜色高亮。
- 安装 htop:sudo apt install htop
- 内存与磁盘
- free -h:以 GB/MB 显示内存,关注 available 列。
- df -h:查看 磁盘空间 与挂载点占用。
- I/O 与系统活动
- iostat -x 1:查看 磁盘 I/O 利用率(%util)、await 等扩展指标,定位 I/O 瓶颈。
- vmstat 1:观察 procs、memory、swap、io、system、cpu 概览,关注 wa(I/O 等待)。
- sar(来自 sysstat):查看 历史 CPU、内存、I/O 报表;常用 sar -u/-d [间隔]。
- 网络
- ss -s:快速查看 套接字/连接 统计。
- nethogs:按进程查看 带宽占用(需 sudo)。
- iftop -i eth0:按网卡查看 实时流量(示例网卡 eth0)。
三、进阶可视化与告警
- Glances(终端一体化监控)
- 安装:sudo apt install glances
- 特点:跨平台,集中展示 CPU、内存、磁盘 I/O、网络、文件系统、温度 等,适合快速巡检与远程查看(可配 Web/SNMP)。
- Prometheus + Grafana(服务器与数据库双重监控)
- 服务器层:Node Exporter 采集 CPU、内存、磁盘、网络;Prometheus 定时抓取;Grafana 可视化与告警。
- DolphinDB 层:利用 内置运维函数(如 getPerf、getClusterPerf)输出 进程/节点 指标,Prometheus 抓取后在 Grafana 展示;也可使用 dolphindb-datasource 插件直连 DolphinDB 做面板查询。
- Zabbix(企业级监控)
- 通过 Zabbix Agent 采集主机指标,结合自定义脚本/接口获取 DolphinDB 进程 的 CPU、内存、磁盘、网络等,配置触发器实现 告警 与可视化。
四、DolphinDB 专项监控与配置
- 启用与获取指标
- 配置:在 dolphindb.cfg 中设置 perfMonitoring=true(节点单独启动时默认 false;集群由控制器启动时默认 true)。
- 常用函数:
- getPerf():返回 本地节点 性能度量(如 cpuUsage、memoryUsed、diskReadRate/WriteRate、networkRecv/SendRate、runningJobs、queuedJobs、lastMsgLatency 等)。
- getClusterPerf():返回 集群所有节点 性能度量(仅可在 控制器 执行)。
- getJobStat():查看 作业/任务 执行与排队情况。
- Web 界面可观测项
- 包含 memUsed、memAlloc、medLast10QueryTime、maxLast10QueryTime、maxRunningQueryTime、connectionNum 等,便于快速定位查询与连接瓶颈。
- 日志与工作负载
- 工作日志默认目录 log,文件 nodeAlias_job.log;可在配置中调整 jobLog 路径与名称,用于审计与问题复盘。
五、实用命令清单与排障要点
- 常用命令速查
- CPU/内存:top/htop;内存详情:free -h
- 磁盘:df -h;I/O:iostat -x 1;系统概览:vmstat 1;历史:sar -u/-d [间隔]
- 网络:ss -s;进程带宽:sudo nethogs;网卡流量:sudo iftop -i eth0
- 一体化:glances
- 排障要点
- I/O 瓶颈:iostat 中 %util 接近 100% 表示设备繁忙;await 高 说明 I/O 等待时间长。
- 负载与 CPU:vmstat wa 持续偏高表示磁盘等待;top/htop 结合 P/M 排序定位异常进程。
- 网络异常:ss 看连接状态,iftop/nethogs 定位高占用进程或异常流量。