1、共享实例简介
A100 服务器目前资源有限,而单个用户很难将整个机器 8 张卡资源用满,经沟通大部分用户都愿意同其他用户共享一台服务器,前提是保证用户间数据隔离不被恶意删除或更改。
共享示意图如上,每个用户可以分到 1 张 A100 或者一个 MIG 实例(1/2,1/4,1/7 A100),不同 GPU 实例之间计算和访存互相隔离,可以避免互相干扰。
2、如何登录
每个用户将会被分配不同 ssh 端口,通过 ssh -p port user@ip 登录。
目前只支持 Ubuntu 18.04 环境。
系统 | Ubuntu 18.04 |
---|---|
GPU 驱动 | 450.51.06(不可更改) |
CUDA Toolkit | 11.0.167 |
cuDNN | 8.0.1 |
TensorRT | 7.1.2 |
TensorFlow | 1.15.2 |
TensorFlow 2 | 2.2.0 |
PyTorch | 1.6.0a0+9907a3e |
注意:尽量不要更改默认环境的软件版本,包括 CUDA Toolkit、cuDNN、TensorRT 以及 AI 框架 TensorFlow、PyTorch、MXNet 等,否则会造成 GPU 不可用等问题。
3、如何使用数据盘
由于根盘 / 容量有限,在运行大规模训练过程中容易引发磁盘爆满导致的一系列故障,建议将训练数据、模型权重放到数据盘,位置为 /work,注意不用的文件及时清理。
另外在 /data 有公开的数据集,权限为只读。有具体需求可以联系滴滴云工程师。
4、如何上传、下载数据
可通过滴滴云 S3 实现较大规模数据的上传、下载,详细步骤参考文章《滴滴云笔记本实例(DAI)数据上传/下载最佳实践》。
5、如何开通特定端口
如果实例内开启了特定服务,如 TensorBoard 需要开启 6006 端口才能从远端访问,请联系滴滴云工程师协助开通。
6、SLA 保证
目前 A100 为邀测阶段,不对 SLA 做出承诺,需用户自行备份重要内容。