302|1

18

帖子

0

TA的资源

一粒金砂(中级)

楼主
 

GPU集群的存储设计实现--《大模型时代的基础架构》 [复制链接]

 
本帖最后由 superleon123 于 2024-9-30 23:57 编辑

    机器学习集群本质上是分布式实现的大型甚至巨型的计算系统。存储化设计决定了系统的数据持久性指标和性能指标。不同的业务需求又决定了不同类型的持久化存储的技术方案。存储方案包括以下方面:

1. 分布式块存储。

    GPU板卡级调度和虚拟化调度技术都依赖于虚拟机。开发部署的机器学习应用及所需的各类运行库也需要被部署在虚拟机上。虚拟机包括两种方案:

1)本地盘:将本地机上的物理硬盘或一部分分配给虚拟机。

2)用整个集群可共享的云上块存储集群提供的块存储服务实例。

    这两种方案还需要解决一些问题,于是业界推出了集中式与分布式块存储两种方案。集中式的方案是较为早期的方案,但存储控制器的数量有限,容量扩展也受限,于是分布式块存储应运而生。分布式块存储主要是使用具备大容量磁盘的工业标准服务器组成集群,通过多副本或纠删码(EC)实现存储的数据冗余备份。也称为云硬盘或云上块存储。分布式块存储还需要考虑故障恢复,如磁盘故障、一个或多个节点故障、集群分裂时,不引起服务中断和数据丢失。故障恢复包括原地恢复和迁移恢复两种方案。

  分块式存储的性能优化,可以采用SSD作为缓冲层,HDD作为主存储介质,提升总体性能,达到性能与成本平衡。这种集群被称为“混闪存储集群”。

2. 分布式对象存储--海量非结构化数据存储。

    一般用于Web静态资源和数据备份归档,数据能直接通过HTTP协议存取,用户可为自己的文件设定权限,自定义元数据,并支持海量数据的快速随机检索存取和冷热数据分层。业界推出了基于S3 (Simple Storage Service,简单存储服务)的产品,如阿里云的OSS,腾讯云的COS等。以及一些支持私有化部署的产品,如Ceph,Swift, MinIO等。

3. 分布式并发高性能存储==AI训练素材存储

    机器学习需要海量数据训练来保证模型的准确性,并且满足海量并发访问的需求。若采用对象存储的方式,难以和深度学习的框架对接。Tensorflow采用标准的POSIX API,与HTTP的API不兼容。业界推出了为AI训练设计的高性能POSIX接口存储方案,如开源大数据鼻祖HDFS,长青松柏Lustre。

  高性能文件存储需要采用全分布式设计,避免任何单节点的性能瓶颈。由于训练素材的特点,存储可以在文件数据冗余方面做适当的妥协,保证性能。

 

 

最新回复

GPU存储方案的选择主要基于什么?     详情 回复 发表于 2024-10-2 11:48
点赞 关注
 
 

回复
举报

6060

帖子

6

TA的资源

版主

沙发
 

GPU存储方案的选择主要基于什么?  

个人签名

在爱好的道路上不断前进,在生活的迷雾中播撒光引

 
 
 

回复
您需要登录后才可以回帖 登录 | 注册

随便看看
查找数据手册?

EEWorld Datasheet 技术支持

相关文章 更多>>
关闭
站长推荐上一条 1/10 下一条

 
EEWorld订阅号

 
EEWorld服务号

 
汽车开发圈

About Us 关于我们 客户服务 联系方式 器件索引 网站地图 最新更新 手机版

站点相关: 国产芯 安防电子 汽车电子 手机便携 工业控制 家用电子 医疗电子 测试测量 网络通信 物联网

北京市海淀区中关村大街18号B座15层1530室 电话:(010)82350740 邮编:100190

电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2024 EEWORLD.com.cn, Inc. All rights reserved
快速回复 返回顶部 返回列表