专栏算法工具链MobileNet_UNet语义分割模型训练

MobileNet_UNet语义分割模型训练

已解决
FDwuyun2023-05-17
74
2
1.芯片型号:X3派
2.天工开物开发包OpenExplorer版本:XJ3_OE_2.5.2
3.问题定位:MobileNet_UNet模型训练
4.问题具体描述

MobileNet_UNet训练,

/horizon_xj3_open_explorer_v2.5.2-py38_20230331/ddk/samples/ai_toolchain/horizon_model_train_samples/scripts目录下

的unet模型

输入以下命令

python3 tools/train.py --stage float --config configs/segmentation/unet.py

报错

RuntimeError: Please install <module 'torch' from '/opt/miniconda3/lib/python3.9/site-packages/torch/__init__.py'> == 1.10.2, but get 1.13.1

然后卸载torch1.13.1,安装了torch-1.10.2+cu111。这个报错解决。

之后又报错

/horizon_plugin_pytorch/extension.py

RuntimeError: Fail to load libhorizon_ops, origin msg is

libnvrtc.so.11.1: cannot open shared object file: No such file or directory

查找之后发现是CUDA不匹配,需要安装CUDA11.1。

可是我租的是有GPU的服务器,服务器上的CUDA不允许卸载、也不许更改。

所以,我想问问有什么办法可以解决这个问题。

算法工具链
评论2
0/1000
  • FDwuyun
    Lv.1
    补充:服务器是分配GPU的,本身就是运行Docker里,无法使用地平线提供的gpu docker。
    2023-05-17
    0
    0
  • 颜值即正义
    Lv.2

    您好,地平线的gpu docker要满足cuda11.1,请根据用户手册中的要求进行环境部署工作

    2023-05-24
    0
    0