CentOS环境下PyTorch调试工具有哪些

pdb（Python内置调试器）：Python标准库中的基础调试工具，通过import pdb; pdb.set_trace()在代码中设置断点，运行脚本后进入交互模式，支持n（下一步）、c（继续）、p <变量>（打印变量）、l（查看上下文代码）等命令，适合快速定位代码逻辑问题。
ipdb（增强版pdb）：基于pdb的增强工具，提供语法高亮、代码自动补全和更友好的交互界面，安装方式为pip install ipdb，使用方法与pdb一致（import ipdb; ipdb.set_trace()），适合需要更高效交互的开发者。

PyCharm：功能全面的Python IDE，内置调试模块，支持PyTorch代码调试。通过导入项目、设置断点、点击“调试”按钮（虫子图标）启动调试会话，可查看变量值、调用栈、表达式评估，还能直接跳进PyTorch源码，适合大型项目开发。
Visual Studio Code（VS Code）：轻量级代码编辑器，通过安装Python扩展支持PyTorch调试。需配置.vscode/launch.json文件，设置断点后点击“绿色播放”按钮启动调试，支持变量监视、调用堆栈查看，还可结合TensorBoard插件可视化训练过程。

Python logging模块：灵活的日志记录工具，通过logging.basicConfig配置日志级别（如DEBUG）、格式和输出文件（如app.log），在代码中插入logging.debug('变量值: {}'.format(variable))记录执行流程和变量状态，适合长期运行的训练任务。
PyTorch SummaryWriter：用于将训练指标（如损失、准确率）、模型结构、权重直方图等数据写入TensorBoard日志，通过from torch.utils.tensorboard import SummaryWriter创建实例，使用writer.add_scalar()、writer.add_graph()等方法记录数据，配合tensorboard --logdir=runs命令启动可视化服务，直观监控训练过程。
torch.testing.assert_close：PyTorch≥1.12提供的断言工具，用于比较两个张量的值是否接近（支持设置相对误差rtol和绝对误差atol），若差异超限会抛出带高亮差异的异常，比assert torch.allclose()更直观，适合验证模型输出的准确性。

PyTorch Profiler：PyTorch新一代性能分析工具，支持CPU/GPU性能分析，通过with torch.autograd.profiler.profile(use_cuda=True) as prof包裹代码块，使用prof.key_averages().table(sort_by='cuda_time_total')输出每步GPU kernel耗时，排序后可快速定位性能瓶颈。也可结合TensorBoard插件（tensorboard_trace_handler）实现可视化分析。
cProfile：Python内置的性能分析工具，通过import cProfile; cProfile.run('my_function()')生成性能报告，显示函数调用次数、耗时等信息，适合分析代码的整体性能分布。

TensorBoard：开源可视化工具，支持PyTorch模型结构、训练指标、权重分布等的可视化，通过SummaryWriter记录数据，使用tensorboard --logdir=runs启动服务，在浏览器中查看实时训练曲线和模型结构，适合监控训练过程。
Netron：跨平台的模型可视化工具，支持ONNX、PyTorch模型等格式，通过torch.onnx.export()将PyTorch模型导出为ONNX格式，再用Netron打开（双击.onnx文件），可交互式查看模型层结构、数据类型、形状等信息，适合模型架构调试。

torch.cuda.memory_summary：PyTorch提供的GPU内存分析工具，通过print(torch.cuda.memory_summary())打印设备级内存分配表，显示当前分配的显存、预留的显存及各张量的内存占用情况，帮助定位显存泄漏或过度占用问题。
torch.autograd.set_detect_anomaly：开启反向传播异常检测，通过with torch.autograd.set_detect_anomaly(True): loss.backward()运行反向传播，若存在inplace操作破坏计算图（如tensor.add_(1)），会立即抛出堆栈信息，帮助定位梯度计算问题。

TorchSnooper：自动打印每行代码的张量信息的工具，通过pip install torchsnooper安装，在函数前添加@torchsnooper.snoop()装饰器，运行脚本后会自动输出每行代码执行后的张量形状、数据类型、设备等信息，适合快速检查张量维度是否符合预期。
VizTracer：轻量级代码跟踪工具，支持Python和PyTorch代码的性能分析与可视化，通过viztracer my_script.py生成跟踪数据文件，或使用with VizTracer(log_torch=True):包裹代码块追踪PyTorch原生调用，生成的HTML报告可直观展示代码执行流程和时间分布。

最新问答