#没读懂#关于Nvidia GH100内部SM架构相关问题

HEU-liukai 发表于 2024-8-5 09:50

本帖最后由 HEU-liukai 于 2024-8-5 09:50 编辑

问题来源：

书籍：《大模型时代的基础架构：大模型算力中心建设指南》

章节：第三章 GPU硬件架构剖析；3.2 Nvidia GH100芯片架构剖析

问题有关书中内容：SM（Streaming Multiprocessor，流式多处理器）是Nvidia GH100芯片的核心部件，其计算核心部件为Tensor Core和CUDA Core。该章节谈到要充分利用时间局部性和空间局部性提升计算机的性能，就首先要充分理解计算单元和缓存。其中：

（1）在Hopper架构下，访问速度最快的是SM中每个象限的1KB Register File。

（2）访问速度次之的是每个象限的1块L0指令缓存，被32个CUDA Core和1个Tensor Core共用。

问题：上述提到“访问速度次之的是每个象限的1块L0指令缓存，被32个CUDA Core和1个Tensor Core共用”，根据SM架构图，每个象限应该是有16个CUDA Core（CUDA Core由1个INT32单元+2个FP32单元+1个FP64单元组成）吗？这里提到每个象限的1块L0指令缓存，被32个CUDA Core不理解，为何是32个？是算上相邻的象限中的CUDA Core共用还是每个象限就是32个CUDA Core？

<div style="text-align: center;"></div>

richiefang 发表于 2024-11-24 20:47

L0缓存只能由象限内共用

页: [1]

电子工程世界-论坛's Archiver

#没读懂#关于Nvidia GH100内部SM架构相关问题