455|0

60

帖子

0

TA的资源

一粒金砂(中级)

楼主
 

《大模型时代的基础架构》GPU硬件架构剖析 [复制链接]

 

邀请:@tagetage   @littleshrimp   @nmg   @freebsder   参与回复

本帖最后由 ltaodream 于 2024-9-16 23:00 编辑

GPU的总体设计

GPU,本质上是一个PCIE插卡/扣卡,由PCB、GPU芯片、GPU内存以及其它附属电路组成。

  • PCB:印刷电路板
  • GPU芯片:H100、A100等
  • GPU芯片:GPU显存

如下图,Nvidia H100的GPU的核心是Nvidia GH100芯片,它对外的接口包括16个PCI-E5.0通道、18个lane通道(NVLink)和6个HBM3/HBM2e通道。

  • 16个PCI-E5.0通道,CPU发送指令,GPU访问主存,可提供63GBps的理论传输带宽。
  • 18个lane通道(NVLink),连接其它GPU,或通过NVLink Switch连接多个GPU,可提供900GBps的理论传输带宽。
  • 6个HBM3/HBM2e通道,单个HBM stack可提供800GBps的理论传输带宽,6个可提供4.8TBps。

芯片架构剖析

Nvidia H100采用了Nvidia的Hopper架构,除了以上提到的通道,整个GH100上有8个GPC,每4个GPC共用30MB的L2 Cache,每个GPC都有9个TPC,。换句话来说,一颗GH100芯片集成了144个SM。

  • GPC:GPU处理集群
  • TPC:纹理处理集群
  • SM:流式多处理器

每个SM内部有256KB的L1 Cache,4个Tex,4个Tensor Core,128个Cuda Core,Hopper架构还引入了TMA。

  • Tex:纹理处理单元
  • Tensor Core:Hopper中是第四代Tensor Core,增加了对Transformer算子的支持
  • TMA:张量存储器,使用张量维度和块坐标指定数据传输

总结

GPU的发展,就是数据局部性原理的典型体现,将数据尽量放在靠近计算单元的位置,让计算单元尽可能的发挥缓存低延迟、高带宽的优势。

点赞 关注
 
 

回复
举报
您需要登录后才可以回帖 登录 | 注册

随便看看
查找数据手册?

EEWorld Datasheet 技术支持

相关文章 更多>>
关闭
站长推荐上一条 1/6 下一条

 
EEWorld订阅号

 
EEWorld服务号

 
汽车开发圈

About Us 关于我们 客户服务 联系方式 器件索引 网站地图 最新更新 手机版

站点相关: 国产芯 安防电子 汽车电子 手机便携 工业控制 家用电子 医疗电子 测试测量 网络通信 物联网

北京市海淀区中关村大街18号B座15层1530室 电话:(010)82350740 邮编:100190

电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2025 EEWORLD.com.cn, Inc. All rights reserved
快速回复 返回顶部 返回列表