ltaodream 发表于 2024-9-16 22:45

《大模型时代的基础架构》GPU硬件架构剖析

<div class='showpostmsg'> 本帖最后由 ltaodream 于 2024-9-16 23:00 编辑

<section _blank="" data-tool="mdnice编辑器" data-website="&lt;a target=" id="nice">
<h1 data-tool="mdnice编辑器">GPU的总体设计</h1>

<p data-tool="mdnice编辑器">GPU,本质上是一个PCIE插卡/扣卡,由PCB、GPU芯片、GPU内存以及其它附属电路组成。</p>

<ul data-tool="mdnice编辑器">
        <li>
        <section>PCB:印刷电路板</section>
        </li>
        <li>
        <section>GPU芯片:H100、A100等</section>
        </li>
        <li>
        <section>GPU芯片:GPU显存</section>
        </li>
</ul>

<p data-tool="mdnice编辑器">如下图,Nvidia H100的GPU的核心是Nvidia GH100芯片,它对外的接口包括16个PCI-E5.0通道、18个lane通道(NVLink)和6个HBM3/HBM2e通道。</p>

<ul data-tool="mdnice编辑器">
        <li>
        <section>16个PCI-E5.0通道,CPU发送指令,GPU访问主存,可提供63GBps的理论传输带宽。</section>
        </li>
        <li>
        <section>18个lane通道(NVLink),连接其它GPU,或通过NVLink Switch连接多个GPU,可提供900GBps的理论传输带宽。</section>
        </li>
        <li>
        <section>6个HBM3/HBM2e通道,单个HBM stack可提供800GBps的理论传输带宽,6个可提供4.8TBps。
        <div style="text-align: center;"></div>
        </section>
        </li>
</ul>

<h2 data-tool="mdnice编辑器">芯片架构剖析</h2>

<p data-tool="mdnice编辑器">Nvidia H100采用了Nvidia的Hopper架构,除了以上提到的通道,整个GH100上有8个GPC,每4个GPC共用30MB的L2 Cache,每个GPC都有9个TPC,。换句话来说,一颗GH100芯片集成了144个SM。</p>

<ul data-tool="mdnice编辑器">
        <li>
        <section>GPC:GPU处理集群</section>
        </li>
        <li>
        <section>TPC:纹理处理集群</section>
        </li>
        <li>
        <section>SM:流式多处理器</section>
        </li>
</ul>

<p data-tool="mdnice编辑器">每个SM内部有256KB的L1 Cache,4个Tex,4个Tensor Core,128个Cuda Core,Hopper架构还引入了TMA。</p>

<ul data-tool="mdnice编辑器">
        <li>
        <section>Tex:纹理处理单元</section>
        </li>
        <li>
        <section>Tensor Core:Hopper中是第四代Tensor Core,增加了对Transformer算子的支持</section>
        </li>
        <li>
        <section>TMA:张量存储器,使用张量维度和块坐标指定数据传输</section>
        </li>
</ul>

<h2 data-tool="mdnice编辑器">总结</h2>

<p data-tool="mdnice编辑器"><strong>GPU的发展,就是数据局部性原理的典型体现,将数据尽量放在靠近计算单元的位置,让计算单元尽可能的发挥缓存低延迟、高带宽的优势。</strong></p>
</section>
</div><script>                                        var loginstr = '<div class="locked">查看本帖全部内容,请<a href="javascript:;"   style="color:#e60000" class="loginf">登录</a>或者<a href="https://bbs.eeworld.com.cn/member.php?mod=register_eeworld.php&action=wechat" style="color:#e60000" target="_blank">注册</a></div>';
                                       
                                        if(parseInt(discuz_uid)==0){
                                                                                                (function($){
                                                        var postHeight = getTextHeight(400);
                                                        $(".showpostmsg").html($(".showpostmsg").html());
                                                        $(".showpostmsg").after(loginstr);
                                                        $(".showpostmsg").css({height:postHeight,overflow:"hidden"});
                                                })(jQuery);
                                        }                </script><script type="text/javascript">(function(d,c){var a=d.createElement("script"),m=d.getElementsByTagName("script"),eewurl="//counter.eeworld.com.cn/pv/count/";a.src=eewurl+c;m.parentNode.insertBefore(a,m)})(document,523)</script>
页: [1]
查看完整版本: 《大模型时代的基础架构》GPU硬件架构剖析