本帖最后由 superleon123 于 2024-8-6 18:37 编辑
本人有幸得到了《大模型时代的基础架构--大模型算力中心建设指南》一书,一直想了解如何构建一个AI算力中心,所以拿到书后翻开就读了第一章 “AI与大模型时代对基础架构的需求”。该章介绍了AI的本质和需求,从最基础的AI加速硬件架构谈起,为读者铺设一个基本的概念框架。本人将书本内容结合自己以前学习机器学习知识的心得,谈谈以下几个方面:
1. AI的本质是什么?
实质上是指机器学习及推理算法。机器学习的算法已经应用到各行各业,业界目前是引领着学术界的发展。机器学习算法包括了许多种,如线性回归、决策树、支持向量机等等。算法的本质是通过多个函数逼近(最优化)来显示世界中事物的数学模型。
2. CPU运行机器学习算法的局限性。
CPU除了具有算数逻辑单元(ALU),它还带有控制单元要负责执行指令。CPU可以执行乘法和加法运算,完成向量卷积运算,但是CPU的算力是有限的,如在执行浮点数的计算时就比较弱。如果要运行深度学习算法时,单纯依靠CPU的计算能力,速度将会很慢。
3. 深度学习算法的主力引擎是GPU。
索尼的游戏机PS和任天堂的游戏机FC都引入了协处理器,这个协处理器就是GPU的前身。英伟达推出了一系列的显示卡,是游戏爱好者和图像处理者的福音,GeForce256、RTX系列等等都是经典的产品。
GPU由远超CPU中核心数量的多核心组成,非常擅长浮点数和矩阵运算,支持并行运算(如英伟达推出的并行计算产品:CUDA)。所以,深度学习主要以深层的神经网络,其计算涉及大量的卷积向量,交给GPU去完成,比单纯在CPU上运行要快得多。打个比方,在加速深度学习上,CPU与GPU,就像骑自行车的与骑摩托车的比。
4. 专门为深度学习设计的加速产品:TPU、NPU等。
传统的GPU,也叫做通用GPU(GP-GPU),既包括了图形渲染设计功能,又包括了矩阵计算功能。还有一类是去掉了图形渲染设计功能,专门为神经网络运算设计的硬件架构,如TPU (Tensor Processing Unit)、NPU(Neural Processing Unit)等,也能实现深度神经网络的加速,且功耗更小,更加专一,用于无人驾驶、图像识别、边缘计算等更具有优势。TPU的计算与CPU、GPU不同,TPU不用把计算结果保存在内存中,而是直接输出给下一步,节省了在内存中读写的时延。但是TPU是谷歌设计的产品,只有在使用谷歌的云计算功能时才有机会使用它。在这一小节,如果书中再添加对NPU的介绍,那就更好了。