294|1

11

帖子

0

TA的资源

一粒金砂(中级)

楼主
 

#聊一聊#NVidia DGX A100 PCI-E子系统 解决SW的upstream通道成为性能瓶颈问题 [复制链接]

 

问题来源:

书籍:《大模型时代的基础架构:大模型算力中心建设指南》

章节:第四章 GPU服务器的设计与实现;4.4 Nvidia DGX A100 PCI-E子系统的设计

讨论问题:为了避免使PCI-E的upstream通道成为性能瓶颈,在调度GPU时通过建立绑定关系,令同一个PCI-E Switch下的一个GPU、一张CX6网卡和一块SSD卡绑定为一组,即每个PCI-E Switch下有两组,Nvidia DGX A100 PCI-E子系统下共可分为8组。那么这种分组就是将upstream通道数据流向分成两部分,分别可以通过MLX CX6网卡来实现跨服务器节点GPU之间的互访来减弱“多打一”效应,从而避免SW到RC的带宽成为瓶颈问题?举个例子的话是否就是A、B两地陆路交通堵塞,可以采用航运缓解交通压力并增大运输量?

 

最新回复

这里主要是指跨服务器的GPU互访,可以通过与GPU配对的Mellanox CX6网卡实现,因为配对的网卡已经与GPU、SSD绑定在同一个组内了,因此跨服务器GPU互访的速度应该会得到提升。  详情 回复 发表于 2024-8-6 17:58
点赞 关注
 
 

回复
举报

18

帖子

0

TA的资源

一粒金砂(中级)

沙发
 
这里主要是指跨服务器的GPU互访,可以通过与GPU配对的Mellanox CX6网卡实现,因为配对的网卡已经与GPU、SSD绑定在同一个组内了,因此跨服务器GPU互访的速度应该会得到提升。
 
 
 

回复
您需要登录后才可以回帖 登录 | 注册

随便看看
查找数据手册?

EEWorld Datasheet 技术支持

相关文章 更多>>
关闭
站长推荐上一条 1/10 下一条

 
EEWorld订阅号

 
EEWorld服务号

 
汽车开发圈

About Us 关于我们 客户服务 联系方式 器件索引 网站地图 最新更新 手机版

站点相关: 国产芯 安防电子 汽车电子 手机便携 工业控制 家用电子 医疗电子 测试测量 网络通信 物联网

北京市海淀区中关村大街18号B座15层1530室 电话:(010)82350740 邮编:100190

电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2024 EEWORLD.com.cn, Inc. All rights reserved
快速回复 返回顶部 返回列表