专栏算法工具链J5 Docker Hub GPU Docker 镜像拉取问题

J5 Docker Hub GPU Docker 镜像拉取问题

已解决
maiunlei2025-01-10
93
5

您好,目前我通过网页下载了1.1.74版本,步骤如下:

  1. docker load -i docker_open_explorer_ubuntu_20_j5_gpu_v1.1.74.tar.gz

  2. docker pull openexplorer/ai_toolchain_ubuntu_20_j5_gpu:v1.1.74-py38 执行这条指令的时候就报了bug如下:Error response from daemon: Get "https://registry-1.docker.io/v2/": net/http: request canceled while 

  3. 我尝试 docker run -it --gpus all --shm-size=15g -v /home/machunlei/J5:/open_explorer -v /home/machunlei/codes/datasets/J5_data:/data/horizon_j5/data openexplorer/ai_toolchain_ubuntu_20_j5_gpu:v1.1.74-py38也报了错误

我的步骤有问题吗,需要怎么操作呢

附件:
算法工具链
征程5
评论2
0/1000
  • Huanghui
    Lv.5

    你好,从你上传的两张图片看

    1. 图片1736475770926.jpg

    图片中没有看到问题,你通过docker images看看image的list吧,如果其中已经有了,就说明加载成功了。

    2.图片1736476051156.png

    这个是运行docker构建docker容器出问题了,错误信息也在提示中有打印

    nvidia-container-cli: initialization error: loadd library failed: libnvidia-ml.so.1: cannot openshared object file:no such file or directory:unknown.

    这个看起来是你的cuda环境的问题,尝试下面步骤试试呢:

    1。 不使用GPU,构建普通的container:docker run -it--privileged=true -v /home/machunlei/J5:/open_explorer -v /home/machunlei/codes/datasets/J5_data:/data/horizon_j5/data

    2025-01-10
    0
    3
    • maiunlei回复Huanghui:

      使用和不使用GPU的两种情况,是不是只是影响速度,对其他的有影响吗?

      2025-01-10
      0
    • Huanghui回复maiunlei:

      有没有影响看你用工具链的目的:

      1. 如果只是PTQ转换 或 运行时程序开发,就没有啥影响,最多就是 PTQ 是calibration慢一点(即使GPU可用,很多使用模型也无法使用GPU加速)。

      2. 如果你要是进行QAT量化训练,那就有影响。QAT的示例和PLUGIN中都用到了CUDA。如果是这种情况,还是要把显卡的问题解决了才行。

      2025-01-10
      0
    • maiunlei回复Huanghui:

      明白了 谢谢

      2025-01-10
      0
  • Huanghui
    Lv.5

    对于 nvidia-container-cli: initialization error: loadd library failed: libnvidia-ml.so.1: cannot openshared object file:no such file or directory:unknown.试着检查一下:

    1.执行命令 nvidia-smi 检查 HOST 系统的 NVIDIA 驱动

    如果命令不可用或返回错误,说明主机系统的 NVIDIA 驱动未正确安装,需要先安装驱动。

    2.确保HOST安装了 nvidia-container-toolkit

    3.验证主机系统中是否存在 libnvidia-ml.so.1,比如系列命令(目录可能在不同系统下会有变化)

    ls /usr/lib/x86_64-linux-gnu/libnvidia-ml.so.1

    注:如果文件不存在,需要重新安装 NVIDIA 驱动;如果文件存在但无法加载,可能是路径未正确挂载到容器中。

    2025-01-10
    0
    0