superleon123 发表于 2024-9-30 10:41

适合机器学习的多GPU服务器设计--《大模型时代的基础架构》

<div class='showpostmsg'> 本帖最后由 superleon123 于 2024-9-30 10:49 编辑

<p>&nbsp; &nbsp; &nbsp; &nbsp; 在服务器的市场中,传统的服务器包括有工业标准服务器和关键应用服务器。工业标准服务器一般有以x86、AMD处理器等为主的机型,一般分为2路、4路(两个处理器或者4个处理器)。外形则有1U、2U、4U,甚至10U的刀片服务器,与相应的机柜配套使用。关键服务器以Power、SPARC、IA64等处理器为主,与x86、ARM等指令不兼容。但是可以支持32路或者更多路处理器,体积一般较大,可靠性高,适用于对可靠性要求高的应用场景。</p>

<p>&nbsp; &nbsp; 在nVidia尚未推出服务器专用的Tesla系列GPU前,大部分GPU被用于工作站,或者区块链的节点(如俗称矿机的节点)。随着机器学习应用的普及,nVidia为了帮助更多的服务器厂商,重新设计了GPU服务器,包含了新的技术和理念。设计了以nVidia DGX为品牌的A100、H100等型号服务器。</p>

<p>&nbsp; &nbsp; DGX系列服务器采用了Intel和AMD处理器。在PCI-E总线、内存、NVLink、RDMA网卡和NVMe SSD等部件上,专为机器学习计算做了特殊的优化设计,实现了对GPU访问的三种通路。如下所述:</p>

<p>&nbsp; &nbsp;&nbsp;1) 在同一台服务器中,GPU与其它GPU如何通过NVlink快速交换数据。</p>

<p>&nbsp; &nbsp; 2) 在同一台服务器中,GPU读写NVMe接口的SSD(固态硬盘)。</p>

<p>&nbsp; &nbsp; 3) 与其它服务器的GPU通过RDMA网卡快速交换数据。</p>

<p>&nbsp;</p>

<p>&nbsp; &nbsp; 通过这些形式,可以满足分布式机器学习计算的需要,如数据并行和模型并行。并能在解决大型训练场景中,PB级别数据的读写与交换。</p>

<p>&nbsp;</p>

<p>&nbsp;</p>

<p>&nbsp;</p>
</div><script>                                        var loginstr = '<div class="locked">查看本帖全部内容,请<a href="javascript:;"   style="color:#e60000" class="loginf">登录</a>或者<a href="https://bbs.eeworld.com.cn/member.php?mod=register_eeworld.php&action=wechat" style="color:#e60000" target="_blank">注册</a></div>';
                                       
                                        if(parseInt(discuz_uid)==0){
                                                                                                (function($){
                                                        var postHeight = getTextHeight(400);
                                                        $(".showpostmsg").html($(".showpostmsg").html());
                                                        $(".showpostmsg").after(loginstr);
                                                        $(".showpostmsg").css({height:postHeight,overflow:"hidden"});
                                                })(jQuery);
                                        }                </script><script type="text/javascript">(function(d,c){var a=d.createElement("script"),m=d.getElementsByTagName("script"),eewurl="//counter.eeworld.com.cn/pv/count/";a.src=eewurl+c;m.parentNode.insertBefore(a,m)})(document,523)</script>

chejm 发表于 2024-10-1 07:06

<p>机器学习使用的大数据模型需要GpU服务器的强力支持,希望楼主继续分享更多相关技术信息,供大家学习</p>

superleon123 发表于 2024-10-1 16:34

chejm 发表于 2024-10-1 07:06
机器学习使用的大数据模型需要GpU服务器的强力支持,希望楼主继续分享更多相关技术信息,供大家学习

<p>好的,有机会与大家多多交流这方面的内容。<img height="63" src="https://bbs.eeworld.com.cn/static/editor/plugins/hkemoji/sticker/facebook/victory.gif" width="61" /></p>
页: [1]
查看完整版本: 适合机器学习的多GPU服务器设计--《大模型时代的基础架构》