滴滴云 A100 共享实例测试须知

滴滴云技术支持发表于:2020年09月15日 11:05:57

1、共享实例简介

A100 服务器目前资源有限,而单个用户很难将整个机器 8 张卡资源用满,经沟通大部分用户都愿意同其他用户共享一台服务器,前提是保证用户间数据隔离不被恶意删除或更改。

0015f602f915b250583f402cc4bbf23

共享示意图如上,每个用户可以分到 1 张 A100 或者一个 MIG 实例(1/2,1/4,1/7 A100),不同 GPU 实例之间计算和访存互相隔离,可以避免互相干扰。

2、如何登录

每个用户将会被分配不同 ssh 端口,通过 ssh -p port user@ip 登录。

目前只支持 Ubuntu 18.04 环境。

系统

Ubuntu 18.04

GPU 驱动450.51.06(不可更改)
CUDA Toolkit11.0.167
cuDNN8.0.1
TensorRT7.1.2
TensorFlow1.15.2
TensorFlow 22.2.0
PyTorch1.6.0a0+9907a3e


注意:尽量不要更改默认环境的软件版本,包括 CUDA Toolkit、cuDNN、TensorRT 以及 AI 框架 TensorFlow、PyTorch、MXNet 等,否则会造成 GPU 不可用等问题。

3、如何使用数据盘

由于根盘 / 容量有限,在运行大规模训练过程中容易引发磁盘爆满导致的一系列故障,建议将训练数据、模型权重放到数据盘,位置为 /work,注意不用的文件及时清理。

另外在 /data 有公开的数据集,权限为只读。有具体需求可以联系滴滴云工程师。

4、如何上传、下载数据

可通过滴滴云 S3 实现较大规模数据的上传、下载,详细步骤参考文章《滴滴云笔记本实例(DAI)数据上传/下载最佳实践》。

5、如何开通特定端口

如果实例内开启了特定服务,如 TensorBoard 需要开启 6006 端口才能从远端访问,请联系滴滴云工程师协助开通。


6、SLA 保证

目前 A100 为邀测阶段,不对 SLA 做出承诺,需用户自行备份重要内容。