验证安装:导入并打印版本与 CUDA 可用性,python -c “import torch; print(torch.version); print(torch.cuda.is_available())”。
二 GPU 相关错误排查与修复
驱动与工具链:用 nvidia-smi 查看驱动与最高支持的 CUDA 运行时版本;如需本地编译或运行含 CUDA 扩展的代码,确保已安装匹配版本的 CUDA Toolkit 与 cuDNN,并配置环境变量(如 PATH、LD_LIBRARY_PATH、CUDA_HOME)。
版本匹配:PyTorch 的预编译包自带对应 CUDA 运行时,需与驱动兼容;若 nvidia-smi 显示 CUDA 12.1,可选 pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121;若显示 CUDA 11.8,可用 cu118 索引。
环境与路径:在虚拟环境中安装与运行,避免与系统包冲突;必要时检查 which python / which pip 是否指向同一环境。
回退策略:旧显卡或驱动不支持新 CUDA 时,选择旧版 PyTorch 或改用 CPU 版本。
三 常见报错与对应修复
ModuleNotFoundError: No module named ‘torch’:未在当前环境安装或激活错误环境;确认激活虚拟环境后 pip install torch,或用 conda/pip 在目标环境重装。
RuntimeError: Input type (torch.FloatTensor) and weight type (torch.cuda.FloatTensor) should be the same:模型在 GPU 而数据在 CPU;将输入张量或模型统一到同一设备,例如 tensor = tensor.to(device); model = model.to(device)。