一切为了加速机器学习，GPU之间数据交换和访问存储IO体系--《大模型时代的基础架构》

superleon123 发表于 2024-9-30 11:25

<div class='showpostmsg'> 本帖最后由 superleon123 于 2024-9-30 11:33 编辑

<p>    为了实现分布式大规模机器学习，需要一个大型的分布式计算机系统。而输入输出（I/O)设计是影响分布式计算机系统处理性能的重要因素。常见的分布式I/O系统，有用于虚拟系统中的VirIO，用于高性能计算的HPFS，以及用于大数据平台的HDFS。对于机器学习，nVidia设计了一个名为Magum的I/O框架，顾名思义，Magum就是巨大的意思。其关键思想是GPU Direct，即让GPU用尽量短的路径实现直通。因为GPU之间进行数据交换时吞吐率很高，如果还要经过CPU的话，会造成延迟。在传统的计算机体系结构中，在PCI-E之间传输数据时，需要通过CPU搬运数据，消耗CPU的资源并增加传输延时，使用GPU Direct就能解决这个问题。</p>

<p>    GPU Direct包括：</p>

<p>    1）Direct Shared Memory （DSM）--服务器内部的GPU互通</p>

<p>    GPU计算涉及大量数据的搬运，如果从系统内存到GPU内存都通过CPU来搬运数据，那CPU的负担就不小了。于是，nVidia推出了Direct Shared Memory技术，可以直接把数据从显存写到应用程序可以使用的用户态地址，在内存空间视图上实现了共享，避免了调用CPU对数据的再次访问与复制。减少了CPU的负担，减少了延时。</p>

<p>   之后的GPU Direct P2P技术，增加了对同一 PCI-E总线上GPU之间的点对点直接读取和交换数据的支持。</p>

<p>  2）Direct RDMA--跨服务器节点的GPU互通 </p>

<p>   因为NVlink和PCI-E总线无法实现跨服务器节点的GPU通信，所以一种名叫RDMA被设计出来，它能够绕过对端CPU，让对端网卡直接访问对端系统内存，是独立于TCP/IP协议栈的一个协议栈，由操作系统内核提供支持。</p>

<p>  3) Direct Storage--GPU对存储的访问</p>

<p>   因为传统的GPU从存储设备中获取数据方式，需要借助CPU的直接内存访问机制的介入，读取大量数据时，会占用CPU内部总线的资源。Direct Storage技术能绕过CPU，直接从NVMe SSD钟读取数据。</p>

<p>  </p>

<p>  除了上述的三种技术以外，Magnum IO还有其它技术作支撑。总之，这些技术都是为了多GPU之间交换数据和访问存储，加速机器学习计算，提供高效率和低延时的保障。</p>

<p> </p>
</div><script> var loginstr = '<div class="locked">查看本帖全部内容，请<a href="javascript:;" style="color:#e60000" class="loginf">登录</a>或者<a href="https://bbs.eeworld.com.cn/member.php?mod=register_eeworld.php&action=wechat" style="color:#e60000" target="_blank">注册</a></div>';

if(parseInt(discuz_uid)==0){
(function($){
var postHeight = getTextHeight(400);
$(".showpostmsg").html($(".showpostmsg").html());
$(".showpostmsg").after(loginstr);
$(".showpostmsg").css({height:postHeight,overflow:"hidden"});
})(jQuery);
} </script><script type="text/javascript">(function(d,c){var a=d.createElement("script"),m=d.getElementsByTagName("script"),eewurl="//counter.eeworld.com.cn/pv/count/";a.src=eewurl+c;m.parentNode.insertBefore(a,m)})(document,523)</script>

chejm 发表于 2024-10-1 07:00

<p>支持一下楼主，感谢楼主提供的GpU相关的技术信息，非常详细，希望继续分享更多相关内容</p>

superleon123 发表于 2024-10-1 16:35

chejm 发表于 2024-10-1 07:00
支持一下楼主，感谢楼主提供的GpU相关的技术信息，非常详细，希望继续分享更多相关内容

<p>感谢支持！有机会大家多交流！</p>

页: [1]

电子工程世界-论坛's Archiver

一切为了加速机器学习，GPU之间数据交换和访问存储IO体系--《大模型时代的基础架构》