CUDA AI模型调试环境搭建步骤

慈云数据 2024-03-13 技术支持 50 0

CUDA AI模型调试环境搭建步骤

  • 版本信息
  • 操作步骤
    • 下载安装
      • 从NVIDIA官网下载
      • 从百度网盘下载
    • 卸载Nvidia驱动
    • 安装NVIDIA驱动
    • 安装docker
    • NVIDIA GPU锁频
    • 获取NVIDIA GPU信息(PCIE链路、功耗等)
    • 创建ubuntu 22.04容器
    • 替换apt源
    • 安装必要的依赖
    • 安装CUDA
    • 安装cuDNN
    • 安装TensorRT
    • 安装python及虚拟环境
    • 安装TensorRT的其它组件(Polygraphy、trex)
    • 安装pytorch及依赖
    • yolov5n测试
      • 下载yolov5n的源码、权值、数据集
      • pytorch测试yolov5n的精度和推理平均延迟
      • pytorch导出yolov5n的onnx模型
      • 采用onnxsim对onnx模型做图优化
      • 采用trex对onnx模型进行Profiling,获取每层的shape,算子类型,耗时,精度类型等
      • 采用Polygraphy对比GPU与CPU的误差
      • 采用trtexe生成engine
      • 采用ncu统计推理一次的访存量
      • 延迟测试(单路)
      • 吞吐测试(多路)
      • 上传到百度网盘
    • 保存镜像
    • 上传镜像

本文介绍了搭建NVIDIA GPU AI模型调试环境的步骤,并以yolov5n为例介绍了一些工具的使用,会不定期追加,欢迎补充

CUDA AI模型调试环境搭建步骤
(图片来源网络,侵删)

宿主机只安装驱动,其它操作均在Docker容器里进行

版本信息

名称 版本
服务器 XFUSION 2288H V6
操作系统 CentOS Linux release 7.4.1708 (Core) | Ubuntu 18.04.6 LTS
Docker版本 Centos: docker-ce 20.10.9-3 nvidia-docker2-2.13.0-1
Ubuntu: docker-ce 5:24.0.2-1 nvidia-docker2 2.13.0-1
容器基础镜像 ubuntu:22.04
GPU型号 Tesla T4 16GB
CUDA 12.1.1
GPU驱动 535.154.05
CUDNN 8.9.7.29_1.0
TensorRT 8.6.1
Pytorch 2.2.0+cu121

操作步骤

下载安装包

从NVIDIA官网下载

wget https://us.download.nvidia.cn/tesla/535.154.05/NVIDIA-Linux-x86_64-535.154.05.run
wget https://developer.nvidia.com/downloads/compute/machine-learning/tensorrt/secure/8.6.1/local_repos/nv-tensorrt-local-repo-ubuntu2204-8.6.1-cuda-12.0_1.0-1_amd64.deb
wget https://developer.nvidia.com/downloads/compute/cudnn/secure/8.9.7/local_installers/12.x/cudnn-local-repo-ubuntu2204-8.9.7.29_1.0-1_amd64.deb
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-ubuntu2204.pin
wget https://developer.download.nvidia.com/compute/cuda/12.1.1/local_installers/cuda-repo-ubuntu2204-12-1-local_12.1.1-530.30.02-1_amd64.deb
wget https://repo.anaconda.com/archive/Anaconda3-2023.09-0-Linux-x86_64.sh

从百度网盘下载

下载链接

CUDA AI模型调试环境搭建步骤
(图片来源网络,侵删)

卸载NVIDIA驱动

centos系统卸载方法

systemctl stop docker #防止设备被占用
yum remove *nvidia-* -y
bash ./NVIDIA-Linux-x86_64-535.154.05.run  --uninstall
reboot  #重启OS

ubuntu系统卸载方法

systemctl stop docker #防止设备被占用
apt-get --purge remove *nvidia*
dpkg -l | grep nvidia
reboot

安装NVIDIA驱动

ubuntu-drivers devices
apt install nvidia-driver-535
nvidia-smi -q | grep "Driver Version"    # 确认驱动版本为535.154.05

安装docker

centos系统安装方法

# 安装docker
rpm -e `rpm -qa | grep "docker-ce"`
yum install -y yum-utils device-mapper-persistent-data lvm2
yum-config-manager --add-repo http://mirrors.aliyun.com/docker-ce/linux/centos/docker-ce.repo
yum 
微信扫一扫加客服

微信扫一扫加客服

点击启动AI问答
Draggable Icon