定位与优化路径
编译与并行配置示例
常见瓶颈与对策一览
| 瓶颈类型 | 典型症状 | 快速定位 | 优化要点 |
|---|---|---|---|
| CPU 计算密集 | 单核占用接近100%,并行后总吞吐提升有限 | perf top、VTune 热点函数 | 选更优算法;-O3/-xHost/-march=native;OpenMP/MPI;循环向量化与分块 |
| 内存带宽/缓存 | CPU 利用率高但性能不升,L3/内存占用异常 | perf record/report、VTune 内存分析 | 列主序、合并访问、分块/tiling;减少allocate/free;用内存池 |
| 磁盘 I/O | 计算短、I/O 长,吞吐远低于磁盘能力 | iostat -x 1、fio 基准 | 合并小 I/O、二进制格式、缓冲/异步 I/O、SSD、必要时内存映射文件 |
| 网络通信 | 多节点并行弱扩展,通信占比高 | 监控网络吞吐/延迟、应用日志 | 减少通信量、批处理/压缩消息、合理进程映射与拓扑、重叠计算与通信 |
| 系统/资源限制 | 线程/进程创建失败、文件句柄不足 | ulimit -a、dmesg | 提升ulimit;关闭不必要服务;必要时调整vm.swappiness、增配内存 |
最小可行优化清单