Linux Docker性能如何监控

Linux下监控Docker性能的核心方法与工具

一、原生工具：快速上手的基础监控

1. docker stats：实时资源使用仪表盘

docker stats是Docker内置的实时监控命令，可展示容器的CPU使用率（单核满载为100%，多核则按比例计算）、内存使用量及限制（MEM USAGE / LIMIT，接近100%需警惕OOM）、网络I/O（NET I/O，单位为KB/s或MB/s）、磁盘I/O（BLOCK I/O，单位为KB/s或MB/s）及进程数（PIDS，突增可能预示程序异常）。

基础用法：docker stats（显示所有运行中容器）；
指定容器：docker stats <容器ID或名称>；
静态输出：docker stats --no-stream（仅显示当前状态，不刷新）；
自定义格式：docker stats --format "table {{.Name}}\t{{.CPUPerc}}\t{{.MemUsage}}\t{{.NetIO}}"（仅显示名称、CPU%、内存使用及网络I/O）。

2. docker top：容器内进程级洞察

docker top可查看容器内运行的进程信息（类似主机的top命令），包括进程ID（PID）、父进程ID（PPID）、用户（USER）、命令（CMD）及资源占用（%CPU、%MEM），帮助定位容器内具体进程的性能瓶颈。

基础用法：docker top <容器ID或名称>；
自定义列：docker top <容器ID或名称> -o pid,ppid,user,cmd,%cpu,%mem（指定显示列）。

3. docker system df：磁盘空间监控

docker system df可查看Docker整体磁盘使用情况，包括镜像（Images）、容器（Containers）、数据卷（Volumes）的使用量及可回收空间（RECLAIMABLE）。结合-v参数可显示详细信息（如每个镜像/容器占用的空间）。

基础用法：docker system df（概览）；
详细信息：docker system df -v（显示每个对象的详细占用）。

二、第三方工具：企业级深度监控方案

1. cAdvisor + Prometheus + Grafana：黄金监控组合

cAdvisor（容器顾问）：开源工具，收集容器的CPU、内存、网络、磁盘等指标，提供Web界面查看实时数据，并暴露Prometheus格式的指标接口。部署方式：docker run -d --name=cadvisor -p 8080:8080 --privileged=true -v /:/rootfs:ro -v /var/run:/var/run:rw -v /sys:/sys:ro -v /var/lib/docker/:/var/lib/docker:ro google/cadvisor。
Prometheus：开源监控系统，通过scrape_configs配置抓取cAdvisor的指标（如job_name: 'cadvisor'，targets: ['cadvisor:8080']），存储时间序列数据并支持告警规则（如内存使用率超过90%持续5分钟）。
Grafana：开源可视化工具，通过Prometheus数据源创建仪表盘，展示CPU使用率趋势、内存占用曲线、网络流量波动等指标，支持告警推送（邮件、Slack等）。

2. 商业工具：简化运维的便捷选择

Datadog：提供Docker集成插件，监控CPU、内存、I/O、网络等指标，支持应用性能追踪（如请求延迟、错误率），可通过仪表盘自定义视图，设置智能告警（自动忽略周期性波动）。
Dynatrace：全栈可观测性平台，自动发现容器及微服务，监控容器生命周期（启动/停止时间）、资源使用（CPU、内存）、应用性能（如数据库查询耗时），支持根因分析（如定位到某个容器的数据库慢查询）。
SolarWinds Server & Application Monitor：支持Docker容器监控，提供容量规划（预测CPU/内存未来需求）、性能图表（CPU/内存随时间变化）、告警（资源阈值超限），适合混合云环境。

三、场景化性能诊断技巧

1. CPU异常飙升

使用docker stats查看容器CPU%是否超过阈值（如75%持续5分钟）；
结合docker top找出容器内占用CPU高的进程（如mysqld进程占用24.3% CPU）；
若为应用层问题，可通过docker exec进入容器内部使用top、htop或perf工具进一步分析。

2. 内存泄漏定位

用docker stats --no-stream --format '{{.Name}} {{.MemUsage}}'监控容器内存使用趋势（如某容器内存从300MiB持续增长至1.2GiB）；
进入容器内部生成内存快照（如Java应用使用jcmd 1 GC.heap_dump /tmp/dump.hprof），分析堆内存中的对象占用；
设置Prometheus告警规则（如container_memory_working_set_bytes / container_spec_memory_limit_bytes > 0.9），提前预警。

3. 网络瓶颈分析

用docker stats查看容器NET I/O（如15.4MB/3.2MB，发送流量远大于接收）；
进入容器内部查看网络接口状态（如docker exec -it nginx ip addr show eth0）；
抓取网络包分析（如docker run --net container:nginx -it nicolaka/netshoot tcpdump -i eth0），查看是否有大量重传或丢包。

四、生产环境注意事项

强制设置资源限制：运行容器时通过--cpus（如--cpus=2，限制2核）、--memory（如--memory=1g，限制1GiB）参数限制资源，避免单个容器占用过多资源导致主机崩溃；
启用实时告警：通过Prometheus Alertmanager或Datadog设置告警规则（如内存使用率超过90%、网络丢包率超过1%），及时通知运维人员处理；
定期清理无用资源：使用docker system prune清理停止的容器、未使用的网络、悬空镜像及构建缓存，释放磁盘空间（建议每周执行一次）。