GPU云服务器使用教程

滴滴云技术支持发表于:2018年05月30日 19:58:26更新于:2018年10月22日 15:05:00

访问GPU云服务器须知

GPU云服务器访问须知和DC2云服务器一样,请参考云服务器使用教程(https://help.didiyun.com/hc/kb/article/1090913/)。

GPU云服务器GPU使用

使用GPU须知

GPU驱动和CUDA安装。根据用户选择的镜像,如驱动和CUDA已经安装,可忽略该部分,用户可通过执行nvidia-smi确认。否则,使用GPU前需要安装驱动和CUDA。

手动安装GPU驱动

用户登陆:https://developer.nvidia.com/cuda-downloads

根据自己的情况选择相关的安装包,以CentOS7为例:

0015b0e9149b394645ffa99105c13b1

用户可以选择本地runfile安装包,或者一个all in one的RPM包,或者安装rpm的源。几种方式各有利弊,使用runfile需要自己解决相关的依赖包,比如kernel-devel,gcc等;通过RPM,yum install的方式相关的依赖关系会自动处理。下文以runfile的方式实例安装:

1, 首先查看当前kernel版本,和源中的kernel-devel版本

$ uname –a

Linux 10-254-0-22 3.10.0-514.16.1.el7.x86_64 #...

$ yum info kernel-devel

版本    :3.10.0

发布    :693.21.1.el7

如果这两个版本不一致,则需要执行以下命令并重启:

sudo yum –y update

sudo reboot

2,上述版本问题解决后,执行以下命令,解决相关依赖:

sudo yum -y install kernel-devel gcc gcc-c++ wget

sudo sh sudo sh cuda_9.1.85_387.26_linux.run

注意:中间过程可能会需要重启,详情可查看/tmp目录下的安装日志。

在/tmp下的cuda安装日志,如果出现结果如下:

Driver:   Installed

Toolkit:  Installed in /usr/local/cuda-9.1

Samples:  Installed in /home/dc2-user

则说明驱动和cuda安装成功。

3,验证

用户可到Samples的安装目录下,查看Samples子目录并到1_Utilities/deviceQuery目录下,如上例中是/home/dc2-user/NVIDIA_CUDA-9.1_Samples/1_Utilities/deviceQuery, 执行make命令,并执行deviceQuery程序,会输出相关的GPU信息,比如:

0015b0e9164a318b1d60d6925600ffc 

如果用户通过RPM方式安装,可参考https://developer.nvidia.com/cuda-downloads网站上,选中RPM包的安装方式,但是同样需要解决kernel-devel的版本问题。