《大模型时代的基础架构》GPU硬件架构剖析

ltaodream 发表于 2024-9-16 22:45

<div class='showpostmsg'> 本帖最后由 ltaodream 于 2024-9-16 23:00 编辑

<section _blank="" data-tool="mdnice编辑器" data-website="<a target=" id="nice">
<h1 data-tool="mdnice编辑器">GPU的总体设计</h1>

<p data-tool="mdnice编辑器">GPU，本质上是一个PCIE插卡/扣卡，由PCB、GPU芯片、GPU内存以及其它附属电路组成。</p>

<ul data-tool="mdnice编辑器">
<li>
<section>PCB：印刷电路板</section>
</li>
<li>
<section>GPU芯片：H100、A100等</section>
</li>
<li>
<section>GPU芯片：GPU显存</section>
</li>
</ul>

<p data-tool="mdnice编辑器">如下图，Nvidia H100的GPU的核心是Nvidia GH100芯片，它对外的接口包括16个PCI-E5.0通道、18个lane通道（NVLink）和6个HBM3/HBM2e通道。</p>

<ul data-tool="mdnice编辑器">
<li>
<section>16个PCI-E5.0通道，CPU发送指令，GPU访问主存，可提供63GBps的理论传输带宽。</section>
</li>
<li>
<section>18个lane通道（NVLink），连接其它GPU，或通过NVLink Switch连接多个GPU，可提供900GBps的理论传输带宽。</section>
</li>
<li>
<section>6个HBM3/HBM2e通道，单个HBM stack可提供800GBps的理论传输带宽，6个可提供4.8TBps。
<div style="text-align: center;"></div>
</section>
</li>
</ul>

<h2 data-tool="mdnice编辑器">芯片架构剖析</h2>

<p data-tool="mdnice编辑器">Nvidia H100采用了Nvidia的Hopper架构，除了以上提到的通道，整个GH100上有8个GPC，每4个GPC共用30MB的L2 Cache，每个GPC都有9个TPC，。换句话来说，一颗GH100芯片集成了144个SM。</p>

<ul data-tool="mdnice编辑器">
<li>
<section>GPC：GPU处理集群</section>
</li>
<li>
<section>TPC：纹理处理集群</section>
</li>
<li>
<section>SM：流式多处理器</section>
</li>
</ul>

<p data-tool="mdnice编辑器">每个SM内部有256KB的L1 Cache，4个Tex,4个Tensor Core，128个Cuda Core，Hopper架构还引入了TMA。</p>

<ul data-tool="mdnice编辑器">
<li>
<section>Tex：纹理处理单元</section>
</li>
<li>
<section>Tensor Core：Hopper中是第四代Tensor Core，增加了对Transformer算子的支持</section>
</li>
<li>
<section>TMA：张量存储器，使用张量维度和块坐标指定数据传输</section>
</li>
</ul>

<h2 data-tool="mdnice编辑器">总结</h2>

<p data-tool="mdnice编辑器"><strong>GPU的发展，就是数据局部性原理的典型体现，将数据尽量放在靠近计算单元的位置，让计算单元尽可能的发挥缓存低延迟、高带宽的优势。</strong></p>
</section>
</div><script> var loginstr = '<div class="locked">查看本帖全部内容，请<a href="javascript:;" style="color:#e60000" class="loginf">登录</a>或者<a href="https://bbs.eeworld.com.cn/member.php?mod=register_eeworld.php&action=wechat" style="color:#e60000" target="_blank">注册</a></div>';

if(parseInt(discuz_uid)==0){
(function($){
var postHeight = getTextHeight(400);
$(".showpostmsg").html($(".showpostmsg").html());
$(".showpostmsg").after(loginstr);
$(".showpostmsg").css({height:postHeight,overflow:"hidden"});
})(jQuery);
} </script><script type="text/javascript">(function(d,c){var a=d.createElement("script"),m=d.getElementsByTagName("script"),eewurl="//counter.eeworld.com.cn/pv/count/";a.src=eewurl+c;m.parentNode.insertBefore(a,m)})(document,523)</script>

页: [1]

电子工程世界-论坛's Archiver

《大模型时代的基础架构》GPU硬件架构剖析