适合机器学习的多GPU服务器设计--《大模型时代的基础架构》

superleon123

适合机器学习的多GPU服务器设计--《大模型时代的基础架构》 [复制链接]

本帖最后由 superleon123 于 2024-9-30 10:49 编辑

在服务器的市场中，传统的服务器包括有工业标准服务器和关键应用服务器。工业标准服务器一般有以x86、AMD处理器等为主的机型，一般分为2路、4路（两个处理器或者4个处理器）。外形则有1U、2U、4U，甚至10U的刀片服务器，与相应的机柜配套使用。关键服务器以Power、SPARC、IA64等处理器为主，与x86、ARM等指令不兼容。但是可以支持32路或者更多路处理器，体积一般较大，可靠性高，适用于对可靠性要求高的应用场景。

在nVidia尚未推出服务器专用的Tesla系列GPU前，大部分GPU被用于工作站，或者区块链的节点（如俗称矿机的节点）。随着机器学习应用的普及，nVidia为了帮助更多的服务器厂商，重新设计了GPU服务器，包含了新的技术和理念。设计了以nVidia DGX为品牌的A100、H100等型号服务器。

DGX系列服务器采用了Intel和AMD处理器。在PCI-E总线、内存、NVLink、RDMA网卡和NVMe SSD等部件上，专为机器学习计算做了特殊的优化设计，实现了对GPU访问的三种通路。如下所述：

1）在同一台服务器中，GPU与其它GPU如何通过NVlink快速交换数据。

2）在同一台服务器中，GPU读写NVMe接口的SSD（固态硬盘）。

3）与其它服务器的GPU通过RDMA网卡快速交换数据。

通过这些形式，可以满足分布式机器学习计算的需要，如数据并行和模型并行。并能在解决大型训练场景中，PB级别数据的读写与交换。

chejm

机器学习使用的大数据模型需要GpU服务器的强力支持，希望楼主继续分享更多相关技术信息，供大家学习

superleon123

chejm 发表于 2024-10-1 07:06 机器学习使用的大数据模型需要GpU服务器的强力支持，希望楼主继续分享更多相关技术信息，供大家学习

好的，有机会与大家多多交流这方面的内容。

适合机器学习的多GPU服务器设计--《大模型时代的基础架构》 [复制链接]

最新回复

点评