Linux下查看PyTorch日志的常用方法
一 实时查看控制台输出
python train.py | less -S(按空格翻页,q退出)。python train.py 2>&1 | grep --color=auto -E "ERROR|WARNING|loss"(将标准错误合并到标准输出并高亮关键词)。python train.py 2>&1 | grep -i error。nohup python train.py > train.log 2>&1 &,随后用 tail -f train.log 实时跟踪日志尾部。上述做法适用于大多数深度学习训练脚本在Linux环境下的输出查看与筛选。二 查看文本日志文件
cat train.logless -S train.logtail -f train.loggrep -n "loss" train.logless/tail 打开即可。三 使用 TensorBoard 查看可视化日志
from torch.utils.tensorboard import SummaryWriterwriter = SummaryWriter('runs/exp1')writer.add_scalar('train/loss', loss.item(), step)writer.close()tensorboard --logdir=runs --port=6006ssh -L 6006:127.0.0.1:6006 user@server -p 22tensorboard --logdir=runslogging_dir 与 logging_steps,训练产生的事件会写入指定目录供 TensorBoard 可视化。四 分布式训练与平台日志路径
五 常见问题排查
pip install tensorboard--logdir 是否指向包含事件文件的目录(SummaryWriter 写入的目录,或 Trainer 的 logging_dir 下的子目录)。tensorboard --logdir="/abs/path/to/logs"。tensorboard 命令或日志目录配置错误。