#聊一聊#NVidia DGX A100 PCI-E子系统 解决SW的upstream通道成为性能瓶颈问题
[复制链接]
问题来源:
书籍:《大模型时代的基础架构:大模型算力中心建设指南》
章节:第四章 GPU服务器的设计与实现;4.4 Nvidia DGX A100 PCI-E子系统的设计
讨论问题:为了避免使PCI-E的upstream通道成为性能瓶颈,在调度GPU时通过建立绑定关系,令同一个PCI-E Switch下的一个GPU、一张CX6网卡和一块SSD卡绑定为一组,即每个PCI-E Switch下有两组,Nvidia DGX A100 PCI-E子系统下共可分为8组。那么这种分组就是将upstream通道数据流向分成两部分,分别可以通过MLX CX6网卡来实现跨服务器节点GPU之间的互访来减弱“多打一”效应,从而避免SW到RC的带宽成为瓶颈问题?举个例子的话是否就是A、B两地陆路交通堵塞,可以采用航运缓解交通压力并增大运输量?
|