unet模型无法恢复训练

已解决

FDwuyun2023-04-26

1.芯片型号：X3

2.天工开物开发包OpenExplorer版本：XJ3_OE_2.5.2

3.问题定位：unet模型训练

4.问题具体描述：

利用

python3 tools/train.py --stage float --config configs/segmentation/unet.py

进行训练

训练到epotch8因为读取数据超时意外停止，

模型文件产生到此

float-checkpoint-epoch-0008-30554cd8.pth.tar

现在我希望继续在epotch8的基础上恢复训练，

于是按照文档

Horizon-Torch-Samples 1.2.0

在unet.py里加上

float_solver = dict(
trainer=float_trainer,
quantize=False,
# 配置 resume_checkpoint, 即 checkpoint 文件路径
resume_checkpoint="./tmp_models/dwunet_seg/float-checkpoint-last.pth.tar",
# 配置 resume_optimizer, 即是否恢复 optimizer, 默认为 True
resume_optimizer=True,
# 配置 resume_epoch_or_step, 即是否恢复 epoch(step) 计数, 默认
为 True
resume_epoch_or_step=True,
)

但是无法恢复训练，我再次执行

python3 tools/train.py --stage float --config configs/segmentation/unet.py

终端输出的消息是

809 INFO [metric_updater.py:320] Node[0] Epoch[0] Step[99] GlobalStep[99] dwunet_seg: MeanIOU[tensor(0.0766, device='cuda:0')]

还是从Epoch[0]开始。

算法工具链