264|2

18

帖子

0

TA的资源

一粒金砂(中级)

楼主
 

适合机器学习的多GPU服务器设计--《大模型时代的基础架构》 [复制链接]

 
本帖最后由 superleon123 于 2024-9-30 10:49 编辑

        在服务器的市场中,传统的服务器包括有工业标准服务器和关键应用服务器。工业标准服务器一般有以x86、AMD处理器等为主的机型,一般分为2路、4路(两个处理器或者4个处理器)。外形则有1U、2U、4U,甚至10U的刀片服务器,与相应的机柜配套使用。关键服务器以Power、SPARC、IA64等处理器为主,与x86、ARM等指令不兼容。但是可以支持32路或者更多路处理器,体积一般较大,可靠性高,适用于对可靠性要求高的应用场景。

    在nVidia尚未推出服务器专用的Tesla系列GPU前,大部分GPU被用于工作站,或者区块链的节点(如俗称矿机的节点)。随着机器学习应用的普及,nVidia为了帮助更多的服务器厂商,重新设计了GPU服务器,包含了新的技术和理念。设计了以nVidia DGX为品牌的A100、H100等型号服务器。

    DGX系列服务器采用了Intel和AMD处理器。在PCI-E总线、内存、NVLink、RDMA网卡和NVMe SSD等部件上,专为机器学习计算做了特殊的优化设计,实现了对GPU访问的三种通路。如下所述:

    1) 在同一台服务器中,GPU与其它GPU如何通过NVlink快速交换数据。

    2) 在同一台服务器中,GPU读写NVMe接口的SSD(固态硬盘)。

    3) 与其它服务器的GPU通过RDMA网卡快速交换数据。

 

    通过这些形式,可以满足分布式机器学习计算的需要,如数据并行和模型并行。并能在解决大型训练场景中,PB级别数据的读写与交换。

 

 

 

最新回复

机器学习使用的大数据模型需要GpU服务器的强力支持,希望楼主继续分享更多相关技术信息,供大家学习   详情 回复 发表于 2024-10-1 07:06
点赞 关注
 
 

回复
举报

731

帖子

4

TA的资源

纯净的硅(高级)

沙发
 

机器学习使用的大数据模型需要GpU服务器的强力支持,希望楼主继续分享更多相关技术信息,供大家学习

点评

好的,有机会与大家多多交流这方面的内容。  详情 回复 发表于 2024-10-1 16:34
 
 
 

回复

18

帖子

0

TA的资源

一粒金砂(中级)

板凳
 
chejm 发表于 2024-10-1 07:06 机器学习使用的大数据模型需要GpU服务器的强力支持,希望楼主继续分享更多相关技术信息,供大家学习

好的,有机会与大家多多交流这方面的内容。

 
 
 

回复
您需要登录后才可以回帖 登录 | 注册

随便看看
查找数据手册?

EEWorld Datasheet 技术支持

相关文章 更多>>
关闭
站长推荐上一条 1/10 下一条

 
EEWorld订阅号

 
EEWorld服务号

 
汽车开发圈

About Us 关于我们 客户服务 联系方式 器件索引 网站地图 最新更新 手机版

站点相关: 国产芯 安防电子 汽车电子 手机便携 工业控制 家用电子 医疗电子 测试测量 网络通信 物联网

北京市海淀区中关村大街18号B座15层1530室 电话:(010)82350740 邮编:100190

电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2024 EEWORLD.com.cn, Inc. All rights reserved
快速回复 返回顶部 返回列表