社区导航

 

搜索
查看: 258|回复: 0

3种AI芯片之间的争夺,武汉中证通看未来谁可靠是赢家?

[复制链接]

378

TA的帖子

0

TA的资源

一粒金砂(初级)

Rank: 1

发表于 2019-8-16 13:57 | 显示全部楼层 |阅读模式

人工智能(AI)主要包括三大要素,分别是数据、算法和算力。其中数据是基础,正是因为在实际应用当中的数据量越来越大,使得传统计算方式和硬件难以满足要求,才催生了AI应用的落地。而算法是连接软件、数据、应用和硬件的重要桥梁,非常关键。算力方面,主要靠硬件实现,也就是各种实现AI功能的处理器,而随着应用和技术的发展,能实现各种算力、满足不同应用的AI处理器陆续登场,经过不同的发展阶段,发挥着各自的作用。


在比较成熟的AI平台方面,在2012年出现了AlexNet,一直到最近,2018年出现了AlphaGo Zero,在短短的6年内,算力提高了20多万倍,这完全不同于传统计算硬件(如CPU、MCU等)的演进轨迹,速度之惊人令我们难以预测。

来自OpenAI的分析显示,近几年,AI训练所需的算力每3个多月就会翻倍,这比著名的摩尔定律(每18~24个月,芯片的性能翻倍)演进速度快多了。而提升算力的关键是芯片设计,特别是底层的架构设计,目前来看,传统的芯片架构已经难以满足AI应用的需要。包括IC厂商和互联网企业在内,越来越多的厂商开始投入研发或已经推出AI专用芯片。根据Gartner统计,AI芯片在2017年的市场规模约为46亿美元,而到2020年,预计将会达到148亿美元,年均复合增长率为47%。而据麦肯锡预测,未来10年,人工智能和深度学习将成为提升硅片需求的主要因素,2025年,在AI的推动下,全球硅片营收将超过600亿美元,接近全球半导体销售额的20%。

三种AI芯片的对比


从AI芯片的应用场景类别来看,主要分为云端和终端。目前,AI在云端应用的更多,相对成熟,而其在云端应用又可分为训练和推理两种,其中训练的市场规模占比较高。另外,训练需要的数据量和计算量较大,所用的处理器主要是GPU。至于推理,也以GPU为主,此外,还有FPGA,以及专用的AI芯片(ASIC),其中,ASIC还不是很成熟,量产的产品也不多,因此用量有限,还处于发展初期,如果能实现大规模量产,其性能和成本是最优的,主要推进厂商是Google,其标志性产品就是TPU。

综上,目前,行业为实现AI计算,主要采用的芯片有三种,分别是通用型的GPU,可定制的FPGA,以及专用的ASIC。

在计算层面,芯片的晶体管数量和芯片面积决定了算力,面积越大算力越强,但功耗也将随之增加。过去几年,在AI处理器的选择上,可用于通用基础计算且运算速率更快的GPU迅速成为实现AI计算的主流芯片,英伟达也因此占据着数据中心AI芯片的主要市场份额。

FPGA是典型的半定制化芯片,其功能可以通过编程来修改,并行计算能力很强,但是延迟和功耗远低于GPU,而与ASIC相比,FPGA的一次性成本要低很多,但其量产成本很高。因此,在实际应用需求还未成规模,且算法需要不断迭代、改进的情况下,利用FPGA的可重构特性来实现半定制的AI芯片是最佳选择。

AI专用芯片ASIC是面向特定应用需求而定制的芯片,一旦流片,其功能无法更改,因此,必须要有量的保证,且应用需求稳定,不会发生大的变化。专用ASIC芯片的性能高于FPGA,如果出货量可观,其单颗成本可做到远低于FPGA和GPU。

目前来看,由于GPU具备强大的并行计算能力和完善的生态系统,现在云端AI应用方面处于主导地位。FPGA方面,由于是半定制化的,可以通过编程来实现不同的功能电路,因此,其在通用性和性能之间取得了比较好的平衡,但是较高的开发门槛和量产成本,对其应用是个限制。
图:在实现AI功能方面,GPU、FPGA和ASIC的优缺点对比(来源:长城证券研究所)

专用的AI芯片应该是未来的发展趋势,无论是在云端还是在边缘侧,随着应用的逐渐落地,应用场景和各种专用功能会愈加清晰,市场需求也会越来越多。另外,与GPU和FPGA相比,ASIC的专利壁垒要小得多,而且其设计难度也是最小的。随着AI应用场景的落地,专用的ASIC芯片量产成本低、性能高、功耗低的优势会逐渐凸显出来。

AI芯片案例


目前,在AI应用方面,全球数据中心用GPU市场基本被英伟达垄断,这里用到的都是高性能GPU,其门槛很高,又是用于AI,因此,还没有什么竞争对手。


除了GPU芯片本身之外,英伟达还有一个优势,那就是其在AI计算方面,有CUDA软件生态系统的配合。CUDA编程工具包让开发者可以对每一个像素轻松编程,在这之前,对程序员来说,GPU编程是一件很痛苦的事,CUDA成功将Java、C++等高级语言开放给了GPU编程,从而让GPU编程变得简单了许多,研究者也可以更低的成本快速开发他们的深度学习模型。以图形处理器加速卡Tesla V100 PCIe/SXM2为例,其芯片采用台积电的12nm制程工艺,通过与CUDA软件和NVLink快速通道的配合,能达到近125兆次深度学习的浮点运算训练速度,而以16bit的半精度浮点性能来看,可达到31Tera FLO

此帖出自信息发布论坛


回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

关闭

站长推荐上一条 /9 下一条

  • 论坛活动 E手掌握

    扫码关注
    EEWORLD 官方微信

  • EE福利  唾手可得

    扫码关注
    EE福利 唾手可得

Archiver|手机版|小黑屋|电子工程世界 ( 京ICP证 060456 )

GMT+8, 2019-11-21 06:17 , Processed in 0.073238 second(s), 17 queries , Gzip On, MemCache On.

快速回复 返回顶部 返回列表