温馨提示×

ubuntu驱动性能监控工具

小樊
37
2026-01-02 19:26:36
栏目: 智能运维

Ubuntu 驱动性能监控工具精选

一 图形处理器 GPU

  • NVIDIA 生态

    • 实时监控:使用命令 watch -n 2 nvidia-smi 查看 GPU 利用率、显存、温度、功耗、进程;关键列包括 Perf(P0–P12 性能状态)Pwr: Usage/CapMemory-UsageGPU-Util。支持按间隔刷新与长时观测。
    • 信息查询与诊断:nvidia-smi -L 列卡;nvidia-smi -i 0 -q 查看指定 GPU 详细信息;nvidia-smi topo -m 查看多卡拓扑;nvidia-smi -q 可导出完整状态,便于排障与归档。
    • 驱动与渲染验证:glxinfo | grep “OpenGL renderer” 确认正在使用的 OpenGL 渲染器/驱动;ubuntu-drivers devices 查看系统 推荐驱动;必要时通过 “软件和更新 → 附加驱动” 切换版本。
  • 通用与开源栈

    • 硬件与驱动识别:lspci | grep -i vga 或 lspci | grep -i nvidia 快速确认 显卡型号/厂商;lshw -C display 查看 详细硬件与驱动绑定;glxinfo 验证当前渲染路径。
    • 基础压力与帧率:glmark2、glxgears 进行 OpenGL 基准/帧率测试,辅助判断驱动是否正常工作及性能大致水平(轻量验证,非专业基准)。

二 存储设备

  • 健康与 SMART

    • SATA/SSD/HDD:sudo smartctl -a /dev/sda 查看 SMART 健康、温度、重映射扇区等;sudo smartctl -t short/long /dev/sda 触发 短/长自检;日常可用 watch -n 1 smartctl -A /dev/sda 观察关键属性变化。
    • NVMe:sudo nvme smart-log /dev/nvme0 查看 温度、percentage_used、media_errors 等;watch -n 1 nvme smart-log /dev/nvme0 实时刷新。一般 NVMe 工作温度以 30–65°C 为宜,percentage_used 应尽量低。
    • 图形化:gnome-disk-utility(GNOME 磁盘)与 GSmartControl 提供 SMART 状态可视化;KDE 分区管理器亦支持 SMART 查看。
  • 性能与 I/O

    • 实时性能:iostat -dx 1(来自 sysstat)观察 await、svctm、r/s、w/s、util% 等;iotop 按进程查看 实时磁盘 I/O;dstat -d 综合资源监控。
    • 基准测试:dd(快速粗略带宽)、fio(专业 I/O 场景与压测,可指定 4k/顺序/随机、direct I/O 等)。

三 中央处理器 CPU 与温度

  • 温度与频率:watch -n 2 sensors 查看 CPU 核心温度、临界阈值 等;结合 lscpu 观察 型号、核心数、频率 等基础信息。若温度接近或超过阈值,需检查散热与负载。

四 一键诊断清单

  • 快速定位显卡与驱动:lspci | grep -i vga;ubuntu-drivers devices;glxinfo | grep “OpenGL renderer”;必要时在 “软件和更新 → 附加驱动” 中切换版本。
  • NVIDIA 现场观测:watch -n 2 nvidia-smi(关注 GPU-Util、显存、温度、Perf、Pwr);nvidia-smi -i 0 -q 与 nvidia-smi topo -m 做深入诊断。
  • 存储健康:smartctl -a /dev/sda 或 nvme smart-log /dev/nvme0;图形化可用 GNOME 磁盘/GSmartControl。
  • 存储性能:iostat -dx 1、iotop、dstat;压测用 fio/dd。

0