p3 服务器安装 NVIDIA GPU 驱动和 CUDA 工具包

2.7 安装驱动和工具包

2.7.3 p3 服务器安装 NVIDIA GPU 驱动和 CUDA 工具包

操作场景

GPU加速型p3（physical.p3.large规格）裸金属服务器创建成功后，需安装NVIDIA GPU驱动和CUDA工具包，从而实现计算加速功能。

前提条件

● 已绑定弹性公网IP。

● 已下载对应操作系统所需驱动的安装包。

表2-13 NVIDIA GPU 驱动和 CUDA 工具包下载

操作系统需要下载的驱动下载地址

Ubuntu 16.04、

CentOS 7.4 NVIDIA GPU驱动安装包

不同的操作系统，安装NVIDIA GPU驱动和CUDA工具包的操作略有不同，具体如下：

CentOS 7.4 安装操作

步骤1 登录裸金属服务器，执行以下命令，切换至root权限。

su root

步骤2 （可选）如果不存在依赖包gcc、gcc-c++、make和kernel-devel，请执行以下命令进行安装。

yum install gcc yum install gcc-c++

yum install make

yum install kernel-devel-`uname -r`

步骤3 （可选）将Nouveau驱动列入黑名单。

如果已经安装并加载了Nouveau的显卡驱动，请执行以下操作将Nouveau驱动列入黑名单以避免冲突。

1. 编辑“/etc/modprobe.d/blacklist.conf”，在文件后面添加blacklist nouveau。

2. 运行以下命令备份与重建initramfs：

mv /boot/initramfs-$(uname -r).img /boot/initramfs-$(uname -r).img.bak dracut -v /boot/initramfs-$(uname -r).img $(uname -r)

3. 重启：reboot。

步骤4 （可选）如果X服务正在运行，请执行systemctl set-default multi-user.target命令并重启裸金属服务器以进入多用户模式。

步骤5 （可选）安装NVIDIA GPU驱动。

如果选择了特定版本的NVIDIA GPU驱动，而不是捆绑在CUDA工具包中的版本，则需要执行此步骤。

1. 下载NVIDIA GPU驱动安装包NVIDIA-Linux-x86_64-xxx.yy.run（下载链接：

https://www.nvidia.com/Download/index.aspx?lang=en），并将该安装包上

传至裸金属服务器的“/tmp”目录下。

图2-23 搜索 NVIDIA 驱动包（CentOS 7.4）

2. 执行以下命令，安装NVIDIA GPU驱动。

sh ./NVIDIA-Linux-x86_64-xxx.yy.run 3. 执行以下命令，删除安装包。

rm -f NVIDIA-Linux-x86_64-xxx.yy.run 步骤6 安装CUDA工具包。

1. 下载CUDA Toolkit安装包cuda_a.b.cc_xxx.yy_linux.run（下载链接：https://

developer.nvidia.com/cuda-downloads），并将该安装包上传至裸金属服务器

的“/tmp”目录下。

2. 执行以下命令，修改安装包的权限。

chmod +x cuda_a.b.cc_xxx.yy_linux.run 3. 执行以下命令，安装CUDA工具包。

./cuda_a.b.cc_xxx.yy_linux.run -toolkit -samples -silent -override --tmpdir=/tmp/

4. 执行以下命令，删除安装包。

rm -f cuda

_a.b.cc_xxx.yy

_linux.run 5. 执行如下三条命令，验证是否安装成功。

cd /usr/local/cuda/samples/1_Utilities/deviceQueryDrv/

make

./deviceQueryDrv

回显信息中包含“Result = PASS”，表示CUDA工具包和NVIDIA GPU驱动安装成功。

----结束

Ubuntu 16.04 安装操作

步骤1 登录裸金属服务器，执行以下命令，切换至root权限。

sudo root

步骤2 （可选）如果不存在依赖包gcc、g++和make，请执行以下命令进行安装。

apt-get install gcc apt-get install g++

apt-get install make

步骤3 （可选）将Nouveau驱动列入黑名单。

如果已经安装并加载了Nouveau的显卡驱动，请执行以下操作将Nouveau驱动列入黑名单以避免冲突。

1. 编辑“/etc/modprobe.d/blacklist.conf”，在文件后面加入以下内容：

blacklist nouveau

options nouveau modeset=0

2. 执行以下命令备份与重建initramfs：

mv /boot/initramfs-$(uname -r).img /boot/initramfs-$(uname -r).img.bak sudo update-initramfs -u

3. 重启：sudo reboot

步骤4 （可选）如果X服务正在运行，请执行systemctl set-default multi-user.target命令并重启裸金属服务器以进入多用户模式。

步骤5 （可选）安装NVIDIA GPU驱动。

如果选择了特定版本的NVIDIA GPU驱动，而不是捆绑在CUDA工具包中的版本，则需要执行此步骤。

1. 下载NVIDIA GPU驱动安装包NVIDIA-Linux-x86_64-xxx.yy.run（下载链接：

https://www.nvidia.com/Download/index.aspx?lang=en），并将该安装包上

传至裸金属服务器的“/tmp”目录下。

图2-24 搜索 NVIDIA 驱动包

2. 执行以下命令，安装NVIDIA GPU驱动。

sh ./NVIDIA-Linux-x86_64-xxx.yy.run 3. 执行以下命令，删除安装包。

rm -f NVIDIA-Linux-x86_64-xxx.yy.run 步骤6 安装CUDA工具包。

1. 下载CUDA Toolkit安装包cuda_a.b.cc_xxx.yy_linux.run（下载链接：https://

developer.nvidia.com/cuda-downloads），并将该安装包上传至裸金属服务器

的“/tmp”目录下。

2. 执行以下命令，修改安装包的权限。

chmod +x cuda_a.b.cc_xxx.yy_linux.run 3. 执行以下命令，安装CUDA工具包。

./cuda_a.b.cc_xxx.yy_linux.run -toolkit -samples -silent -override --tmpdir=/tmp/

4. 执行以下命令，删除安装包。

rm -f cuda

_a.b.cc_xxx.yy

_linux.run 5. 执行如下三条命令，验证是否安装成功。

cd /usr/local/cuda/samples/1_Utilities/deviceQueryDrv/

make

./deviceQueryDrv

回显信息中包含“Result = PASS”，表示CUDA工具包和NVIDIA GPU驱动安装成功。

6. 执行以下命令，验证驱动是否正常使用。

nvidia-smi topo -m

回显信息中如果正常显示GPU的信息，则表示驱动可正常使用。

----结束

3 ^镜像

在文檔中通过外部镜像文件创建私有镜像_裸金属服务器 BMS_用户指南_镜像_华为云 (頁 57-62)

p3 服务器安装 NVIDIA GPU 驱动和 CUDA 工具包

2.7 安装驱动和工具包

2.7.3 p3 服务器安装 NVIDIA GPU 驱动和 CUDA 工具包

操作场景

前提条件

CentOS 7.4 安装操作

https://www.nvidia.com/Download/index.aspx?lang=en），并将该安装包上

developer.nvidia.com/cuda-downloads），并将该安装包上传至裸金属服务器

_a.b.cc_xxx.yy

Ubuntu 16.04 安装操作

https://www.nvidia.com/Download/index.aspx?lang=en），并将该安装包上

developer.nvidia.com/cuda-downloads），并将该安装包上传至裸金属服务器

_a.b.cc_xxx.yy

3 镜像

3 ^镜像