553|6

60

帖子

0

TA的资源

一粒金砂(中级)

楼主
 

#没读懂#《大模型时代的基础架构》关于GPU跨节点异号卡数据交换路径 [复制链接]

 

邀请:@RCSN   @nmg   @29447945   @DDZZ669   参与回复

问题来源:第六章 GPU集群的网络设计与实现

  

 
在阅读这个章节中注意到书中所说的GPU跨节点异号卡数据交换是通过接入层经过汇聚层交换机,才会抵达另一个节点的异号卡GPU,但是之前有听说过另一种说法

另一种说法:通过中间节点进行通信

如果节点1的GPU0需要与节点2的GPU1进行通信,数据可能首先通过Roce交换机传输到节点2的GPU0,然后由节点2的GPU0通过NVlink Switch转发到GPU1

不知道两种说法哪种对,希望大家来讨论一下,希望老师解答一下

最新回复

GPU内部不具备数据路由功能,所以不能通过通信库实现NVLink的多跳转发   详情 回复 发表于 2024-11-24 20:44
点赞 关注
 
 

回复
举报

6802

帖子

0

TA的资源

五彩晶圆(高级)

沙发
 

只能说,数据直接通过 NVLink 或 InfiniBand 等高速网络传输到 节点2的GPU1。
这种路径适用于节点之间有直接的NVLink或InfiniBD连接和软件优化

点评

模型训练是会碰到这样的情况的,而且节点之间不可能有nvlink  详情 回复 发表于 2024-9-12 10:37
 
 
 

回复

60

帖子

0

TA的资源

一粒金砂(中级)

板凳
 
Jacktang 发表于 2024-9-12 07:31 只能说,数据直接通过 NVLink 或 InfiniBand 等高速网络传输到 节点2的GPU1。 这种路径适用于节点之间有直 ...

模型训练是会碰到这样的情况的,而且节点之间不可能有nvlink

 
 
 

回复

1672

帖子

0

TA的资源

裸片初长成(初级)

4
 

不同编号的GPU卡,跨GPU服务器节点的通信,只能通过上一层交换机(一般称为spine, 或核心层)转发,这是因为GPU卡本身是不具备GPU Direct Memory的路由功能的。GPU Direct Memory也不支持跨卡的路由,只能两张卡直通。

点评

既然GPU层面不支持,那是否可以在代码层面实现这种数据传输控制呢,比如使用一些gpu通信库,或者进行通信数据链路优化啥的 然后老师,我还想问 现在业界是否可以做到单个node故障以后,不重启整个训练任务,而使训  详情 回复 发表于 2024-9-24 16:23
感谢大佬解答  详情 回复 发表于 2024-9-24 16:00
 
 
 

回复

60

帖子

0

TA的资源

一粒金砂(中级)

5
 
richiefang 发表于 2024-9-22 10:49 不同编号的GPU卡,跨GPU服务器节点的通信,只能通过上一层交换机(一般称为spine, 或核心层)转发,这是因 ...

感谢大佬解答

 
 
 

回复

60

帖子

0

TA的资源

一粒金砂(中级)

6
 
richiefang 发表于 2024-9-22 10:49 不同编号的GPU卡,跨GPU服务器节点的通信,只能通过上一层交换机(一般称为spine, 或核心层)转发,这是因 ...

既然GPU层面不支持,那是否可以在代码层面实现这种数据传输控制呢,比如使用一些gpu通信库,或者进行通信数据链路优化啥的
然后老师,我还想问 现在业界是否可以做到单个node故障以后,不重启整个训练任务,而使训练任务恢复呢,我们现在是重启整个训练任务,代价太大了

点评

GPU内部不具备数据路由功能,所以不能通过通信库实现NVLink的多跳转发  详情 回复 发表于 2024-11-24 20:44
 
 
 

回复

1672

帖子

0

TA的资源

裸片初长成(初级)

7
 
ltaodream 发表于 2024-9-24 16:23 既然GPU层面不支持,那是否可以在代码层面实现这种数据传输控制呢,比如使用一些gpu通信库,或者进行通信 ...

GPU内部不具备数据路由功能,所以不能通过通信库实现NVLink的多跳转发

 
 
 

回复
您需要登录后才可以回帖 登录 | 注册

随便看看
查找数据手册?

EEWorld Datasheet 技术支持

相关文章 更多>>
关闭
站长推荐上一条 1/9 下一条

 
EEWorld订阅号

 
EEWorld服务号

 
汽车开发圈

About Us 关于我们 客户服务 联系方式 器件索引 网站地图 最新更新 手机版

站点相关: 国产芯 安防电子 汽车电子 手机便携 工业控制 家用电子 医疗电子 测试测量 网络通信 物联网

北京市海淀区中关村大街18号B座15层1530室 电话:(010)82350740 邮编:100190

电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2025 EEWORLD.com.cn, Inc. All rights reserved
快速回复 返回顶部 返回列表