#聊一聊#NVidia DGX A100 PCI-E子系统解决SW的upstream通道成为性能瓶颈问题

HEU-liukai 发表于 2024-8-6 14:28

问题来源：

书籍：《大模型时代的基础架构：大模型算力中心建设指南》

章节：第四章 GPU服务器的设计与实现；4.4 Nvidia DGX A100 PCI-E子系统的设计

讨论问题：为了避免使PCI-E的upstream通道成为性能瓶颈，在调度GPU时通过建立绑定关系，令同一个PCI-E Switch下的一个GPU、一张CX6网卡和一块SSD卡绑定为一组，即每个PCI-E Switch下有两组，Nvidia DGX A100 PCI-E子系统下共可分为8组。那么这种分组就是将upstream通道数据流向分成两部分，分别可以通过MLX CX6网卡来实现跨服务器节点GPU之间的互访来减弱“多打一”效应，从而避免SW到RC的带宽成为瓶颈问题？举个例子的话是否就是A、B两地陆路交通堵塞，可以采用航运缓解交通压力并增大运输量？

<div style="text-align: center;"></div>

superleon123 发表于 2024-8-6 17:58

这里主要是指跨服务器的GPU互访，可以通过与GPU配对的Mellanox CX6网卡实现，因为配对的网卡已经与GPU、SSD绑定在同一个组内了，因此跨服务器GPU互访的速度应该会得到提升。

richiefang 发表于 2024-11-24 20:46

由于GPU到RDMA网卡的操作无需经过CPU，所以通过PCI-E Switch的办法旁路掉CPU里面的PCI-E Root Complex，让GPU到RDMA网卡直通。

页: [1]

电子工程世界-论坛's Archiver

#聊一聊#NVidia DGX A100 PCI-E子系统 解决SW的upstream通道成为性能瓶颈问题

#聊一聊#NVidia DGX A100 PCI-E子系统解决SW的upstream通道成为性能瓶颈问题