#没读懂#关于Nvidia DGX A100 内部部件的问题
<p>问题来源:</p><p>书籍:《大模型时代的基础架构:大模型算力中心建设指南》</p>
<p>章节:第四章 GPU服务器的设计与实现;4.2 Nvidia DGX A100的总体设计</p>
<p>问题(1)有关书中内容:Nvidia DGX A100的主要部件包括“9+1张Mellanox ConnectX-6双模式网卡”。</p>
<p>问题(2):<strong>文中提到“Nvidia DGX A100整机包含了2台AMD EPYC Rome 7742处理器(每颗64核心,共128核)、8个Nvidia A100 SXM GPU和8张Mellanox CX6 IB 200G HDR/200G RoCE网卡。”</strong><span style="color:#c0392b;">那么这里用“9+1”表示数量又是何意?没有懂。</span></p>
<p> </p>
<p>问题(2)有关书中内容:见图</p>
<p>问题(2):<span style="color:#c0392b;">这里所说的SXM子卡和图上标注的SMX子卡是一个东西吗?</span></p>
<div style="text-align: center;">
<p> </p>
</div>
<p> </p>
<p>DGX A100拥有8个用于集群的单端口Mellanox ConnectX-6 VPI HDR InfiniBand适配器,以及1个用于存储和网络连接的双端口ConnectX-6 VPI以太网适配器,二者的速度均能达到200Gb/s。借助海量GPU加速计算与精尖网络硬件和软件优化的强强联合, DGX A100可扩展至数百乃至数千个节点,从而攻克对话式AI和大规模图像分类等更艰巨的挑战。</p>
<p> </p>
<p><strong>感觉应该是8+1</strong></p>
tagetage 发表于 2024-8-5 19:45
DGX A100拥有8个用于集群的单端口Mellanox ConnectX-6 VPI HDR InfiniBand适配器,以及1个用于存储和网络连 ...
<p>照你这个思路我又查看了一下Nvidia DGX A100的设计图,<br />
我的理解是文中所指的“9+1”应该是没错的,这个“9”表示的就是你说的8+1,而另一个“9+1”中所指的1,其实就是“8+1”中的1,因为Nvidia DGX A100包含两个Rome 7742处理器,所以可以在另一个处理器上再选配一张CX6网卡。</p>
<p>可以当作:8+1+1来看。</p>
<p> </p>
9+1的9是一张业务网卡和8张RDMA网卡。1是可选配的存储网卡
页:
[1]