338|1

5

帖子

0

TA的资源

一粒金砂(中级)

楼主
 

《大模型时代的基础架构》阅读心得3—GPU集群 [复制链接]

 
本帖最后由 乐悠刘 于 2024-9-27 17:59 编辑

第九章,GPU集群的网络虚拟化设计与实现,在第八章中阐述了一些GPU虚拟化调度方案,并且讲述了实现所需要的一些硬件复用需求、隔离性需求和可运营需求。第九章介绍了将GPU服务器等计算集群资源分配给不同租户时所需要的网络隔离,网络隔离技术也被称为“网络虚拟化技术",是云计算技术的核心技术。需要解决的技术问题是构建虚拟化网络、网络之间互联、访问物理节点等。在网络隔离方面,我了解到VPC(网络虚拟云),一种云计算服务,VPC网络又被称为“Overlay网络”。该技术基于SDN技术。SDN是一种将网络设备的控制平面与数据平面分离的网络架构,通过软件来实现对网络流量的灵活控制和管理。其核心思想在于通过标准化的接口(如OpenFlow)实现控制平面与转发平面的分离,从而简化网络管理,提高网络资源的利用率和灵活性。基于SDN的VPC技术具有高度灵活性、安全性、高效运维以及可扩展性等其他特点。VPC允许用户在公共云上创建一个独立的虚拟网络环境,该环境在逻辑上与公共云的其他部分隔离。用户可以在这个虚拟网络环境中自由配置IP地址段、子网、安全组等网络元素,以及申请弹性带宽和弹性IP来搭建业务系统,是一种创新的网络解决方案。此外,涉及到防火墙等网关功能书中介绍了SDN(Software Defined Network,软件定义网络)和NFV(Network Function Virtualization,网络功能虚拟化)的网关实现,SDN NFV网关的实现与部署是网络现代化和云化转型的关键步骤。我们要通过合理的技术架构设计和部署策略选择,充分发挥SDN和NFV的技术优势,实现网络资源的灵活调度、新业务的快速部署以及运维的简化。

 

第十章,GPU集群的存储设计与实现,机器学习中少不了持久化存储。在第十章中,作者介绍了三种存储,分别为分布式块存储、分布式对象存储以及分布式并发高性能存储。首先是分布式块存储,在早期的时候是集中式块存储,集中式在大规模集群下存在缺陷,后来发展出了分布式块存储。分布式块存储是一种扩展性的存储架构,它通过网络将多台独立的存储设备连接起来,形成一个统一的虚拟存储资源池,从而实现跨设备的数据分发和共享负载。分布式对象存储是一种先进的数据存储和管理技术,专门用于处理大规模数据集。它通过将数据分散存储在多个节点上,实现了高可用性、高性能和可扩展性,它可以采用基于HTTP的开放接口存取。分布式对象存储将数据切分成小块,并以对象的形式存储在不同的节点上,每个对象都具有唯一的标识符。这种存储方式允许数据在多个位置进行复制和冗余,以确保数据的可靠性和访问速度。分布式并发高性能存储是现代数据存储领域的一个重要发展方向,它结合了分布式系统的优势与高性能存储技术,以满足大数据时代对存储系统的高并发、高可用、可扩展性等需求。该技术将数据分散存储在多个物理节点上,通过网络连接构成一个虚拟的、统一的存储资源池,同时利用分布式技术和高性能存储硬件,实现高并发访问、高吞吐量、低延迟等性能要求。能够解决处理大量并发访问请求,确保系统在高负载下仍能保持稳定的性能。我们可以通过上述各种存储技术设计出高效、可扩展、可靠的GPU集群存储系统,为深度学习或高性能计算提供强有力的支持。

 

第十一章,机器学习应用开发与运行平台的设计与实现,在这一章中介绍了机器学习应用中还需要解决的一系列问题。首先介绍了微服务平台。在这里我认识了DNS,DNS域名系统是互联网的一项核心服务,它可以将域名和IP地址相互映射,能够使人更方便的访问互联网,而不用去记住能够被机器直接读取的IP数串。DNS的可靠性和安全性对互联网的稳定运行至关重要。DNS的故障或攻击可能导致网站无法访问,对互联网用户和企业造成重大影响。第二节介绍了中间件服务,中间件服务是一种介于应用系统和系统软件之间的软件层,它使用系统软件所提供的基础服务(功能),衔接网络上应用系统的各个部分或不同的应用,以达到资源共享、功能共享的目的。中间件服务并没有严格的定义,但普遍接受IDC的定义,即中间件是一种独立的系统软件服务程序,分布式应用软件借助这种软件在不同的技术之间共享资源。书中还介绍了一些常见分类,如消息中间件用来屏蔽不同平台及协议之间的异构特性,实现应用程序之间基于数据交换的通信,支持异步消息传递,适用于系统解耦和跨地域跨组织的消息传递场景。还有数据访问中间件可以对异构环境下的数据库或文件系统实现联接的中间件,提供数据访问和缓存功能,适用于大量数据访问的应用场景。第三节介绍了应用日志服务,它是一种针对日志类数据提供的一站式服务,它涵盖了日志的采集、存储、查询、分析、可视化、告警以及消费投递等多个环节,旨在帮助企业或组织有效地管理和利用日志数据,提升运维和运营效率。应用日志服务可以进行日志采集、日志存储、日志查询与分析等多种功能,企业可以基于日志服务搭建日志平台,实现业务监控、运维与运营等。

 

第十二章,基于云平台的GPU集群的管理与运营,在这一章,作者介绍了GPU集群中运维与运营平台的相关事项。包括云运维平台、云运营平台和云审计平台。云运维平台是指对云计算平台进行管理和维护的系统或平台。它涵盖了云计算平台硬件、软件、网络和安全等方面的监控、维护、优化和升级,以确保云平台的高可用性、稳定性和安全性。云运维平台通过提供一体化、自动化、智能化的全面监控和运维服务,帮助企业应对数字化转型中复杂的IT运维挑战,提升运维效率。具有全面监控,智能告警,资源优化和系统健康检查等功能。云运营平台是在计算环境中管理、交付和使用软件的系统或平台,特别是在对应用程序底层基础架构的可见性有限的情况下。它利用持续集成和持续部署的DevOps原则,通过改进和优化在公共云中运行的业务流程来实现高可用性。有流程创建、工具选择和系统优化等功能,可以通过自动化和配置管理工具以及Docker、Mesos、Kubernetes等容器化技术,优化云平台的性能和资源利用率。云审计平台是一个实现各类审计信息数字化,促进信息交互和共享,使审计资源得到充分优化利用的综合性平台。它基于云计算服务构建,利用互联网审计技术和云计算技术将审计相关的各方联接在一起,实现协同作业。具有全生命周期管理、数据分析与展示、知识库与标准化和移动端应用等功能。云运维平台、云运营平台和云审计平台在云计算领域各自承担着不同的角色和功能,共同为企业数字化转型和业务发展提供有力支持。

 

第十三章,服务机器学习的GPU计算平台落地案例,转眼间就来到了最后一章,在阅读这个书的过程中,我感觉到受益匪浅,非常感谢主办方给我的这个机会,让我学会了许多。服务机器学习的GPU计算平台落地案例广泛存在于多个行业和领域,这些平台通过提供强大的GPU计算能力,加速了机器学习模型的训练和推理过程。在这一章中,介绍了一个世纪部署案例的分析。讲述了自动驾驶模拟训练的案例,当下自动驾驶是热点。有辅助驾驶、部分自动驾驶、条件自动驾驶、高度自我驾驶直至完全自我驾驶。后面讲述了计算需求分析与设计实现、存储需求分析与设计实现以及网络需求分析与设计实现。服务机器学习的GPU计算平台在多个行业和领域中都得到了广泛应用,并取得了显著成效。这些平台通过提供强大的算力支持和高效的工具链,推动了机器学习技术的快速发展和普及。

最新回复

VPC允许用户在公共云上创建一个独立的虚拟网络环境,该环境在逻辑上与公共云的其他部分隔离。这个怎么理解   详情 回复 发表于 2024-9-28 08:01
点赞 关注
 
 

回复
举报

6828

帖子

0

TA的资源

五彩晶圆(高级)

沙发
 

VPC允许用户在公共云上创建一个独立的虚拟网络环境,该环境在逻辑上与公共云的其他部分隔离。这个怎么理解

 
 
 

回复
您需要登录后才可以回帖 登录 | 注册

随便看看
查找数据手册?

EEWorld Datasheet 技术支持

相关文章 更多>>
关闭
站长推荐上一条 1/7 下一条

 
EEWorld订阅号

 
EEWorld服务号

 
汽车开发圈

About Us 关于我们 客户服务 联系方式 器件索引 网站地图 最新更新 手机版

站点相关: 国产芯 安防电子 汽车电子 手机便携 工业控制 家用电子 医疗电子 测试测量 网络通信 物联网

北京市海淀区中关村大街18号B座15层1530室 电话:(010)82350740 邮编:100190

电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2025 EEWORLD.com.cn, Inc. All rights reserved
快速回复 返回顶部 返回列表