373|2

18

帖子

0

TA的资源

一粒金砂(中级)

楼主
 

GPU板卡算力调度、虚拟化调度及集群网络虚拟化设计实现--《大模型时代的基础架... [复制链接]

 

一、GPU板卡级算力调度   

    为AI建设的算力平台,不仅仅只用于单一的训练任务,还可以将GPU资源分配给不同的任务及客户使用。GPU调度系统可以基于现有的云计算技术构建,不必要再造一个“轮子”。可用于AI算力调度分配的云计算技术包括两类:

  1. 基于虚拟化技术的GPU调度,如基于业界主流的KVM(Kernel-based Virtual Machine)技术,是Linux系统中的主流虚拟化技术。在KVM配合CPU的I/O虚拟化后,可以为每台虚拟机分配独占的GPU,配合其它硬件就能够在虚拟机上运行基于CUDA、Tensorflow等机器学习应用。

   2. 基于容器技术的GPU调度。云原生是将应用拆分为微服务,将各微服务的可执行文件构建为容器镜像,以容器化方式运行,并接受Kubernetes等容器编排平台及Istio微服务智力组件相互配合进行调度。Kubernetes Device Plugin实际上是将这种特殊的文件设为某一容器独占使用,特殊文件对应的设备不限于GPU。将GPU调度给不同的微服务,能够实现一定程度的GPU复用。

二、GPU的虚拟化调度

    由于GPU算力成本高昂,在提供GPU计算服务的云计算场景中,我们需要将一张GPU卡或者一颗GPU芯片提供给不同的应用甚至租户使用,这就需要GPU的虚拟化调度。

    GPU虚拟化应当实现的需求有三点:

   1) 硬件复用需求。如空分复用和时分复用两种不同的技术路线。

   2) 隔离性需求。应用在使用硬件时,无法感知是独占环境还是虚拟化的环境,也不能越界访问其它虚拟化实例中的硬件资源。

   3) 可运营需求。在多租户的平台上,运营方应当承诺各租户实际可得的资源量,并且可通过技术手段限制租户超量使用。

    nVidia、AMD、Intel都推出了在现有GPU驱动层和硬件上加以改造的方案,如SRIOV、vCUDA、GRID vGPU、MIG等,但这些方案都有一些缺点,如规格受限、性能损耗较高等。腾讯云和阿里云也分别推出了qGPU和cGPU等方案,取得了更好的硬件兼容性、调度实时性和服务质量保障能力。

三、GPU集群的网络虚拟化设计与实现

   运行机器学习业务,对GPU集群网络有一定的要求,就是采用网络隔离技术,通过网络隔离使每个租户都只能看到自己申请的GPU资源。技术手段包括以下方面:

   1. VPC(Virtual Private Cloud)技术--网络虚拟化的基石

     让不同租户的网络地址之间无法路由,可以让不同的租户使用重叠的内部地址,实现在租户的数据包流量的基础上做一层隧道封装,实现租户之间的网络隔离。VPC网络又称为“Overlay网络”。

   2. 云负载平衡--机器学习网络的中流砥柱

    主要使用NFV(Network Functions Virtualization)方式实现负载平衡。NFV指的是使用软件+工业标准服务器来实现负载均衡、防火墙或路由器等网络设备的功能,节约成本,提升扩展性。

   3. 专线接入、对等连接与VPC网关。

   4. NFV网关的实现与部署

    

最新回复

支持一下楼主,分享的技术内容非常有学习价值,希望楼主继续分享更多内容   详情 回复 发表于 2024-10-1 07:20
点赞 关注
 
 

回复
举报

731

帖子

4

TA的资源

纯净的硅(高级)

沙发
 

支持一下楼主,分享的技术内容非常有学习价值,希望楼主继续分享更多内容

点评

多谢支持!大家多交流,共同进步!  详情 回复 发表于 2024-10-1 16:36
 
 
 

回复

18

帖子

0

TA的资源

一粒金砂(中级)

板凳
 
chejm 发表于 2024-10-1 07:20 支持一下楼主,分享的技术内容非常有学习价值,希望楼主继续分享更多内容

多谢支持!大家多交流,共同进步!

 
 
 

回复
您需要登录后才可以回帖 登录 | 注册

随便看看
查找数据手册?

EEWorld Datasheet 技术支持

相关文章 更多>>
关闭
站长推荐上一条 1/10 下一条

 
EEWorld订阅号

 
EEWorld服务号

 
汽车开发圈

About Us 关于我们 客户服务 联系方式 器件索引 网站地图 最新更新 手机版

站点相关: 国产芯 安防电子 汽车电子 手机便携 工业控制 家用电子 医疗电子 测试测量 网络通信 物联网

北京市海淀区中关村大街18号B座15层1530室 电话:(010)82350740 邮编:100190

电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2024 EEWORLD.com.cn, Inc. All rights reserved
快速回复 返回顶部 返回列表