1.芯片型号:X3派
2.天工开物开发包OpenExplorer版本:XJ3_OE_2.5.2
3.问题定位:MobileNet_UNet模型训练
4.问题具体描述:
MobileNet_UNet训练,
/horizon_xj3_open_explorer_v2.5.2-py38_20230331/ddk/samples/ai_toolchain/horizon_model_train_samples/scripts目录下
的unet模型
输入以下命令
python3 tools/train.py --stage float --config configs/segmentation/unet.py
报错
RuntimeError: Please install <module 'torch' from '/opt/miniconda3/lib/python3.9/site-packages/torch/__init__.py'> == 1.10.2, but get 1.13.1
然后卸载torch1.13.1,安装了torch-1.10.2+cu111。这个报错解决。
之后又报错
/horizon_plugin_pytorch/extension.py
RuntimeError: Fail to load libhorizon_ops, origin msg is
libnvrtc.so.11.1: cannot open shared object file: No such file or directory
查找之后发现是CUDA不匹配,需要安装CUDA11.1。
可是我租的是有GPU的服务器,服务器上的CUDA不允许卸载、也不许更改。
所以,我想问问有什么办法可以解决这个问题。

