superleon123 发表于 2024-9-30 11:25

一切为了加速机器学习,GPU之间数据交换和访问存储IO体系--《大模型时代的基础架构》

<div class='showpostmsg'> 本帖最后由 superleon123 于 2024-9-30 11:33 编辑

<p>&nbsp; &nbsp; 为了实现分布式大规模机器学习,需要一个大型的分布式计算机系统。而输入输出(I/O)设计是影响分布式计算机系统处理性能的重要因素。常见的分布式I/O系统,有用于虚拟系统中的VirIO,用于高性能计算的HPFS,以及用于大数据平台的HDFS。对于机器学习,nVidia设计了一个名为Magum的I/O框架,顾名思义,Magum就是巨大的意思。其关键思想是GPU Direct,即让GPU用尽量短的路径实现直通。因为GPU之间进行数据交换时吞吐率很高,如果还要经过CPU的话,会造成延迟。在传统的计算机体系结构中,在PCI-E之间传输数据时,需要通过CPU搬运数据,消耗CPU的资源并增加传输延时,使用GPU Direct就能解决这个问题。</p>

<p>&nbsp; &nbsp; GPU Direct包括:</p>

<p>&nbsp; &nbsp; 1)Direct Shared Memory (DSM)--服务器内部的GPU互通</p>

<p>&nbsp; &nbsp; GPU计算涉及大量数据的搬运,如果从系统内存到GPU内存都通过CPU来搬运数据,那CPU的负担就不小了。于是,nVidia推出了Direct Shared Memory技术,可以直接把数据从显存写到应用程序可以使用的用户态地址,在内存空间视图上实现了共享,避免了调用CPU对数据的再次访问与复制。减少了CPU的负担,减少了延时。</p>

<p>&nbsp; &nbsp;之后的GPU Direct P2P技术,增加了对同一 PCI-E总线上GPU之间的点对点直接读取和交换数据的支持。</p>

<p>&nbsp; 2)Direct RDMA--跨服务器节点的GPU互通&nbsp;</p>

<p>&nbsp; &nbsp;因为NVlink和PCI-E总线无法实现跨服务器节点的GPU通信,所以一种名叫RDMA被设计出来,它能够绕过对端CPU,让对端网卡直接访问对端系统内存,是独立于TCP/IP协议栈的一个协议栈,由操作系统内核提供支持。</p>

<p>&nbsp; 3) Direct Storage--GPU对存储的访问</p>

<p>&nbsp; &nbsp;因为传统的GPU从存储设备中获取数据方式,需要借助CPU的直接内存访问机制的介入,读取大量数据时,会占用CPU内部总线的资源。Direct Storage技术能绕过CPU,直接从NVMe SSD钟读取数据。</p>

<p>&nbsp;&nbsp;</p>

<p>&nbsp; 除了上述的三种技术以外,Magnum IO还有其它技术作支撑。总之,这些技术都是为了多GPU之间交换数据和访问存储,加速机器学习计算,提供高效率和低延时的保障。</p>

<p>&nbsp;</p>
</div><script>                                        var loginstr = '<div class="locked">查看本帖全部内容,请<a href="javascript:;"   style="color:#e60000" class="loginf">登录</a>或者<a href="https://bbs.eeworld.com.cn/member.php?mod=register_eeworld.php&action=wechat" style="color:#e60000" target="_blank">注册</a></div>';
                                       
                                        if(parseInt(discuz_uid)==0){
                                                                                                (function($){
                                                        var postHeight = getTextHeight(400);
                                                        $(".showpostmsg").html($(".showpostmsg").html());
                                                        $(".showpostmsg").after(loginstr);
                                                        $(".showpostmsg").css({height:postHeight,overflow:"hidden"});
                                                })(jQuery);
                                        }                </script><script type="text/javascript">(function(d,c){var a=d.createElement("script"),m=d.getElementsByTagName("script"),eewurl="//counter.eeworld.com.cn/pv/count/";a.src=eewurl+c;m.parentNode.insertBefore(a,m)})(document,523)</script>

chejm 发表于 2024-10-1 07:00

<p>支持一下楼主,感谢楼主提供的GpU相关的技术信息,非常详细,希望继续分享更多相关内容</p>

superleon123 发表于 2024-10-1 16:35

chejm 发表于 2024-10-1 07:00
支持一下楼主,感谢楼主提供的GpU相关的技术信息,非常详细,希望继续分享更多相关内容

<p>感谢支持! 有机会大家多交流!</p>
页: [1]
查看完整版本: 一切为了加速机器学习,GPU之间数据交换和访问存储IO体系--《大模型时代的基础架构》