CUDA AI模型调试环境搭建步骤
- 版本信息
- 操作步骤
-
- 下载安装包
-
- 从NVIDIA官网下载
- 从百度网盘下载
- 卸载Nvidia驱动
-
- CentOS系统卸载方法
- ubuntu系统卸载方法
- 安装NVIDIA驱动
- 安装docker
-
- centos系统安装方法
- ubuntu系统安装方法
- NVIDIA GPU锁频
- 获取NVIDIA GPU信息(PCIE链路、功耗等)
- 创建ubuntu 22.04容器
- 替换apt源
- 安装必要的依赖
- 安装CUDA
- 安装cuDNN
- 安装TensorRT
- 安装python及虚拟环境
- 安装TensorRT的其它组件(Polygraphy、trex)
- 安装pytorch及依赖
- yolov5n测试
-
- 下载yolov5n的源码、权值、数据集
- pytorch测试yolov5n的精度和推理平均延迟
- pytorch导出yolov5n的onnx模型
- 采用onnxsim对onnx模型做图优化
- 采用trex对onnx模型进行Profiling,获取每层的shape,算子类型,耗时,精度类型等
- 采用Polygraphy对比GPU与CPU的误差
- 采用trtexe生成engine
- 采用ncu统计推理一次的访存量
- 延迟测试(单路)
- 吞吐测试(多路)
- 上传到百度网盘
- 保存镜像
- 上传镜像
本文介绍了搭建NVIDIA GPU AI模型调试环境的步骤,并以yolov5n为例介绍了一些工具的使用,会不定期追加,欢迎补充

(图片来源网络,侵删)
宿主机只安装驱动,其它操作均在Docker容器里进行
版本信息
名称 | 版本 |
---|---|
服务器 | XFUSION 2288H V6 |
操作系统 | CentOS Linux release 7.4.1708 (Core) | Ubuntu 18.04.6 LTS |
Docker版本 | Centos: docker-ce 20.10.9-3 nvidia-docker2-2.13.0-1 Ubuntu: docker-ce 5:24.0.2-1 nvidia-docker2 2.13.0-1 |
容器基础镜像 | ubuntu:22.04 |
GPU型号 | Tesla T4 16GB |
CUDA | 12.1.1 |
GPU驱动 | 535.154.05 |
CUDNN | 8.9.7.29_1.0 |
TensorRT | 8.6.1 |
Pytorch | 2.2.0+cu121 |
操作步骤
下载安装包
从NVIDIA官网下载
wget https://us.download.nvidia.cn/tesla/535.154.05/NVIDIA-Linux-x86_64-535.154.05.run wget https://developer.nvidia.com/downloads/compute/machine-learning/tensorrt/secure/8.6.1/local_repos/nv-tensorrt-local-repo-ubuntu2204-8.6.1-cuda-12.0_1.0-1_amd64.deb wget https://developer.nvidia.com/downloads/compute/cudnn/secure/8.9.7/local_installers/12.x/cudnn-local-repo-ubuntu2204-8.9.7.29_1.0-1_amd64.deb wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-ubuntu2204.pin wget https://developer.download.nvidia.com/compute/cuda/12.1.1/local_installers/cuda-repo-ubuntu2204-12-1-local_12.1.1-530.30.02-1_amd64.deb wget https://repo.anaconda.com/archive/Anaconda3-2023.09-0-Linux-x86_64.sh
从百度网盘下载
下载链接

(图片来源网络,侵删)
卸载NVIDIA驱动
centos系统卸载方法
systemctl stop docker #防止设备被占用 yum remove *nvidia-* -y bash ./NVIDIA-Linux-x86_64-535.154.05.run --uninstall reboot #重启OS
ubuntu系统卸载方法
systemctl stop docker #防止设备被占用 apt-get --purge remove *nvidia* dpkg -l | grep nvidia reboot
安装NVIDIA驱动
ubuntu-drivers devices apt install nvidia-driver-535 nvidia-smi -q | grep "Driver Version" # 确认驱动版本为535.154.05
安装docker
centos系统安装方法
# 安装docker rpm -e `rpm -qa | grep "docker-ce"` yum install -y yum-utils device-mapper-persistent-data lvm2 yum-config-manager --add-repo http://mirrors.aliyun.com/docker-ce/linux/centos/docker-ce.repo yum