#没读懂#关于Nvidia GH100内部SM架构相关问题
本帖最后由 HEU-liukai 于 2024-8-5 09:50 编辑<p>问题来源:</p>
<p>书籍:《大模型时代的基础架构:大模型算力中心建设指南》</p>
<p>章节:第三章 GPU硬件架构剖析;3.2 Nvidia GH100芯片架构剖析</p>
<p>问题有关书中内容:SM(Streaming Multiprocessor,流式多处理器)是Nvidia GH100芯片的核心部件,其计算核心部件为Tensor Core和CUDA Core。该章节谈到要充分利用时间局部性和空间局部性提升计算机的性能,就首先要充分理解计算单元和缓存。其中:</p>
<p>(1)在Hopper架构下,访问速度最快的是SM中每个象限的1KB Register File。</p>
<p><strong>(2)访问速度次之的是每个象限的1块L0指令缓存,被32个CUDA Core和1个Tensor Core共用。</strong></p>
<p><span style="color:#e74c3c;">问题:上述提到“访问速度次之的是每个象限的1块L0指令缓存,被32个CUDA Core和1个Tensor Core共用”,根据SM架构图,每个象限应该是有16个CUDA Core(CUDA Core由1个INT32单元+2个FP32单元+1个FP64单元组成)吗?这里提到每个象限的1块L0指令缓存,被32个CUDA Core不理解,为何是32个?是算上相邻的象限中的CUDA Core共用还是每个象限就是32个CUDA Core?</span></p>
<div style="text-align: center;"></div>
<p> </p>
L0缓存只能由象限内共用
页:
[1]