利用
python3 tools/train.py --stage float --config configs/segmentation/unet.py
进行训练
训练到epotch8因为读取数据超时意外停止,
模型文件产生到此
float-checkpoint-epoch-0008-30554cd8.pth.tar
现在我希望继续在epotch8的基础上恢复训练,
于是按照文档
Horizon-Torch-Samples 1.2.0
在unet.py里加上
trainer=float_trainer,
quantize=False,
# 配置 resume_checkpoint, 即 checkpoint 文件路径
resume_checkpoint="./tmp_models/dwunet_seg/float-checkpoint-last.pth.tar",
# 配置 resume_optimizer, 即是否恢复 optimizer, 默认为 True
resume_optimizer=True,
# 配置 resume_epoch_or_step, 即是否恢复 epoch(step) 计数, 默认
为 True
resume_epoch_or_step=True,
)
但是无法恢复训练,我再次执行
python3 tools/train.py --stage float --config configs/segmentation/unet.py
终端输出的消息是
809 INFO [metric_updater.py:320] Node[0] Epoch[0] Step[99] GlobalStep[99] dwunet_seg: MeanIOU[tensor(0.0766, device='cuda:0')]
还是从Epoch[0]开始。

