CentOS上PyTorch性能优化实操指南
一 快速定位瓶颈
二 环境与驱动配置
三 数据加载与预处理优化
四 训练与推理计算优化
五 最小可用优化示例
model.train()
for data, target in dataloader:
data, target = data.cuda(non_blocking=True), target.cuda(non_blocking=True)
optimizer.zero_grad()
with autocast():
output = model(data)
loss = torch.nn.functional.cross_entropy(output, target)
scaler.scale(loss).backward()
scaler.step(optimizer)
scaler.update()