PyTorch在Debian上的使用技巧
sudo apt update && sudo apt upgrade -y),安装Python 3.6+及pip(sudo apt install python3 python3-pip),建议通过venv或conda创建虚拟环境,隔离项目依赖。pip install torch torchvision torchaudio);pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu117);conda create -n pytorch_env python=3.9创建环境,再用conda install pytorch torchvision torchaudio cudatoolkit=11.7 -c pytorch安装。import torch; print(torch.__version__); print(torch.cuda.is_available())),确保安装正确。torch.utils.data.DataLoader时,设置num_workers>0(建议4*num_GPU)启用多进程加载,开启pin_memory=True加速CPU到GPU的数据传输。torch.cuda.amp模块实现,使用torch.cuda.amp.autocast()自动选择计算精度,torch.cuda.amp.GradScaler()缩放梯度,减少显存占用并提升速度。torch.nn.parallel.DistributedDataParallel(DDP),每个GPU独立处理数据分片,比DataParallel更高效;大模型可考虑模型并行(将模型拆分到不同GPU)。backward()调用后执行optimizer.step(),模拟大批次训练,减少显存占用;cuda:0)创建张量,避免CPU-GPU来回传输;del model, tensor),调用torch.cuda.empty_cache()清理显存。net.core.somaxconn、vm.swappiness),优化系统性能。.item()、.cpu()、.numpy()等操作,如需获取标量值,可使用loss.item()但避免在循环中频繁调用;清除计算图用detach()而非转移设备。torch.tensor([1,2], device='cuda:0')),避免先创建CPU张量再转移,减少开销。torch.autograd.profiler分析计算图性能,nvprof工具分析GPU利用率,找出代码瓶颈(如数据加载慢、计算密集部分)。torch.save(model.state_dict(), 'model.pth')保存模型参数(而非整个模型),加载时通过model.load_state_dict(torch.load('model.pth'))恢复,避免版本兼容问题。