大规模机器学习应用程序所需的硬件基础架构,是一个大型的分布式计算机系统。冯·诺伊曼提出的计算机理论包括ALU、控制器、存储器、输入/输出设备(I/O)四部分,本章主要介绍对于分布式计算机系统的I/O设计部分相关内容。
I/O设计是影响分布式计算机系统处理性能的重要因素,对于AI运算,Nvidia提出的对应I/O设计框架名为:Magnum IO。Magnum本身字面意思就是“巨大的”,Nvidia以该词命名,也可以看出其认为在巨大的数据量面前,计算、存储和网络的基础架构设计也应当做一次重大的革新。
Magnum IO有四大核心组件,分别是:Storage IO、Network IO、InNetwork Compute和IO Management。这些组件其实都是GPU Direct的一部分,GPU Direct是Nvidia开发的一项技术,用于实现GPU与其他设备之间的直接通信和数据传输,从而让数据交换避开CPU,实现彻底的旁路和硬件卸载,解决了传统计算机体系架构中令CPU参与数据交换导致的严重CPU资源浪费和传输延迟增加的问题。
GPU Direct包括了GPU Direct Shared Memory、GPU Direct Storage等技术,GPU Direct Storage技术主要用于实现GPU对存储的访问,让GPU绕过CPU,直接从NVMe SSD中读取数据。GPU Direct Shared Memory是Nvidia从2010年开始推出的,该技术能够让GPU直接把数据显存写到应用程序可以使用的用户态内存地址,传统的方法是需要GPU把数据复制到CPU中,再让CPU把数据复制到用户态,该技术减少了一次数据复制,大大减少了对CPU的内存占用,也提高了访问速度。2011年Nvidia推出了GPU Direct P2P技术,令GPU之间可以通过PCI-E总线来互相访问对方的内存,实现CPU仅对GPU发放复制指令操作,而CPU自身不需要参与内存复制,但该技术因涉及PCI-E总线传输存在带宽和时延的问题,2016年被NVlink技术替代。
NVlink通过NVlink Bridge和NVlink Switch等可以实现多卡桥接,Nvidia DGX A100 GPU卡使用的NVlink Switch 2.0(支持NVlink3.0,支持36个Port),Nvidia DGX A100 GPU卡有12个NVlink3.0 Port,每2个可以连接到一个NVlink Switch 2.0,所以一个Nvidia DGX A100 GPU卡可以连接到6个NVlink Switch 2.0,SXM Board上总共有6个NVlink Switch。此外,一张NVlink Switch上有36个Port,那么理论上应该可以连接18个Nvidia DGX A100 GPU卡,但实际上只占用了16个Port,连接了8张Nvidia DGX A100 GPU卡。那么在NVlink Fabric技术下,可以实现搭载两张Board,从而16张Nvidia DGX A100 GPU卡可以实现无阻塞互通,占用32个Port,剩下4个Port则是用来提供有需求时,GPU和CPU的高速互联。但NVlink没有引入FEC前向纠错机制,是无法实现跨服务器节点的GPU通信的。
早期的跨服务器节点的GPU通信是通过RDMA技术实现的,RDMA目前有两种实现方法,IB和RoCE。它是一种绕过对端CPU,让对端网卡直接访问对端系统内存的技术。经过Nvidia的技术升级,数据可以直接从GPU显存向RDMA网卡发送,对端RDMA网卡接收数据后直接将数据传到GPU显存,极大降低了跨节点通信延迟。