一切为了加速机器学习,GPU之间数据交换和访问存储IO体系--《大模型时代的基础架构》
<div class='showpostmsg'> 本帖最后由 superleon123 于 2024-9-30 11:33 编辑<p> 为了实现分布式大规模机器学习,需要一个大型的分布式计算机系统。而输入输出(I/O)设计是影响分布式计算机系统处理性能的重要因素。常见的分布式I/O系统,有用于虚拟系统中的VirIO,用于高性能计算的HPFS,以及用于大数据平台的HDFS。对于机器学习,nVidia设计了一个名为Magum的I/O框架,顾名思义,Magum就是巨大的意思。其关键思想是GPU Direct,即让GPU用尽量短的路径实现直通。因为GPU之间进行数据交换时吞吐率很高,如果还要经过CPU的话,会造成延迟。在传统的计算机体系结构中,在PCI-E之间传输数据时,需要通过CPU搬运数据,消耗CPU的资源并增加传输延时,使用GPU Direct就能解决这个问题。</p>
<p> GPU Direct包括:</p>
<p> 1)Direct Shared Memory (DSM)--服务器内部的GPU互通</p>
<p> GPU计算涉及大量数据的搬运,如果从系统内存到GPU内存都通过CPU来搬运数据,那CPU的负担就不小了。于是,nVidia推出了Direct Shared Memory技术,可以直接把数据从显存写到应用程序可以使用的用户态地址,在内存空间视图上实现了共享,避免了调用CPU对数据的再次访问与复制。减少了CPU的负担,减少了延时。</p>
<p> 之后的GPU Direct P2P技术,增加了对同一 PCI-E总线上GPU之间的点对点直接读取和交换数据的支持。</p>
<p> 2)Direct RDMA--跨服务器节点的GPU互通 </p>
<p> 因为NVlink和PCI-E总线无法实现跨服务器节点的GPU通信,所以一种名叫RDMA被设计出来,它能够绕过对端CPU,让对端网卡直接访问对端系统内存,是独立于TCP/IP协议栈的一个协议栈,由操作系统内核提供支持。</p>
<p> 3) Direct Storage--GPU对存储的访问</p>
<p> 因为传统的GPU从存储设备中获取数据方式,需要借助CPU的直接内存访问机制的介入,读取大量数据时,会占用CPU内部总线的资源。Direct Storage技术能绕过CPU,直接从NVMe SSD钟读取数据。</p>
<p> </p>
<p> 除了上述的三种技术以外,Magnum IO还有其它技术作支撑。总之,这些技术都是为了多GPU之间交换数据和访问存储,加速机器学习计算,提供高效率和低延时的保障。</p>
<p> </p>
</div><script> var loginstr = '<div class="locked">查看本帖全部内容,请<a href="javascript:;" style="color:#e60000" class="loginf">登录</a>或者<a href="https://bbs.eeworld.com.cn/member.php?mod=register_eeworld.php&action=wechat" style="color:#e60000" target="_blank">注册</a></div>';
if(parseInt(discuz_uid)==0){
(function($){
var postHeight = getTextHeight(400);
$(".showpostmsg").html($(".showpostmsg").html());
$(".showpostmsg").after(loginstr);
$(".showpostmsg").css({height:postHeight,overflow:"hidden"});
})(jQuery);
} </script><script type="text/javascript">(function(d,c){var a=d.createElement("script"),m=d.getElementsByTagName("script"),eewurl="//counter.eeworld.com.cn/pv/count/";a.src=eewurl+c;m.parentNode.insertBefore(a,m)})(document,523)</script> <p>支持一下楼主,感谢楼主提供的GpU相关的技术信息,非常详细,希望继续分享更多相关内容</p>
chejm 发表于 2024-10-1 07:00
支持一下楼主,感谢楼主提供的GpU相关的技术信息,非常详细,希望继续分享更多相关内容
<p>感谢支持! 有机会大家多交流!</p>
页:
[1]