本帖最后由 ltaodream 于 2024-9-16 23:00 编辑
GPU的总体设计
GPU,本质上是一个PCIE插卡/扣卡,由PCB、GPU芯片、GPU内存以及其它附属电路组成。
如下图,Nvidia H100的GPU的核心是Nvidia GH100芯片,它对外的接口包括16个PCI-E5.0通道、18个lane通道(NVLink)和6个HBM3/HBM2e通道。
-
16个PCI-E5.0通道,CPU发送指令,GPU访问主存,可提供63GBps的理论传输带宽。
-
18个lane通道(NVLink),连接其它GPU,或通过NVLink Switch连接多个GPU,可提供900GBps的理论传输带宽。
-
6个HBM3/HBM2e通道,单个HBM stack可提供800GBps的理论传输带宽,6个可提供4.8TBps。
芯片架构剖析
Nvidia H100采用了Nvidia的Hopper架构,除了以上提到的通道,整个GH100上有8个GPC,每4个GPC共用30MB的L2 Cache,每个GPC都有9个TPC,。换句话来说,一颗GH100芯片集成了144个SM。
每个SM内部有256KB的L1 Cache,4个Tex,4个Tensor Core,128个Cuda Core,Hopper架构还引入了TMA。
-
-
Tensor Core:Hopper中是第四代Tensor Core,增加了对Transformer算子的支持
-
TMA:张量存储器,使用张量维度和块坐标指定数据传输
总结
GPU的发展,就是数据局部性原理的典型体现,将数据尽量放在靠近计算单元的位置,让计算单元尽可能的发挥缓存低延迟、高带宽的优势。