HEU-liukai 发表于 2024-8-5 09:50

#没读懂#关于Nvidia GH100内部SM架构相关问题

本帖最后由 HEU-liukai 于 2024-8-5 09:50 编辑

<p>问题来源:</p>

<p>书籍:《大模型时代的基础架构:大模型算力中心建设指南》</p>

<p>章节:第三章 GPU硬件架构剖析;3.2&nbsp;Nvidia GH100芯片架构剖析</p>

<p>问题有关书中内容:SM(Streaming Multiprocessor,流式多处理器)是Nvidia GH100芯片的核心部件,其计算核心部件为Tensor Core和CUDA Core。该章节谈到要充分利用时间局部性和空间局部性提升计算机的性能,就首先要充分理解计算单元和缓存。其中:</p>

<p>(1)在Hopper架构下,访问速度最快的是SM中每个象限的1KB Register File。</p>

<p><strong>(2)访问速度次之的是每个象限的1块L0指令缓存,被32个CUDA Core和1个Tensor Core共用。</strong></p>

<p><span style="color:#e74c3c;">问题:上述提到&ldquo;访问速度次之的是每个象限的1块L0指令缓存,被32个CUDA Core和1个Tensor Core共用&rdquo;,根据SM架构图,每个象限应该是有16个CUDA Core(CUDA Core由1个INT32单元+2个FP32单元+1个FP64单元组成)吗?这里提到每个象限的1块L0指令缓存,被32个CUDA Core不理解,为何是32个?是算上相邻的象限中的CUDA Core共用还是每个象限就是32个CUDA Core?</span></p>

<div style="text-align: center;"></div>

<p>&nbsp;</p>

richiefang 发表于 2024-11-24 20:47

L0缓存只能由象限内共用
页: [1]
查看完整版本: #没读懂#关于Nvidia GH100内部SM架构相关问题