189|2

202

帖子

2

TA的资源

一粒金砂(高级)

楼主
 

《大规模语言模型:从理论到实践》-LLM预训练数据章节解读 [复制链接]

        本文分享对书中第3章“大语言模型预训练数据”的阅读理解,介绍LLM预训练数据的相关知识和理论成果。
一、引言
        LLM的主要成果和技术核心是预训练大模型,它是LLM发展的平台和支撑。
        预训练大模型的实现,主要包括预训练数据集和集群训练两部分,其中预训练数据关系到大语言模型效果及泛化能力,在训练大语言模型之前,构建一个准备充分的预训练语料库十分重要。
二、数据来源
        当前的研究表明,预训练数据需要涵盖各种类型的文本,也需要覆盖尽可能多的领域、语言、文化和视角,从而提高大语言模型的泛化能力和适应性。
        目前,大语言模型所采用的预训练数据通常包括网络数据、图书、论文、百科和社交媒体等。书中给出了各LLM的数据类型占比情况,如下图:
        
        预训练数据集的特点:数据量庞大、数据资源公开、模型泛化支持。
        大语言模型预训练所需的数据来源大体上分为通用数据和专业数据两大类。
(1)通用数据(General Data)包括网页、图书、新闻、对话文本等内容。
        通用数据在大语言模型训练数据中占比通常非常高,具有规模大、多样性和易获取等特点,支持大语言模型的语言建模和泛化能力,主要包括来自网页、书籍、对话文本等不同类型的数据。
        网页是通用数据中数量最多的一类。
        对话数据可以有效增强语言模型的对话能力,并潜在地提高其在多种问答任务上的表现。
        利用书籍数据进行训练,大语言模型可以接触多样化的词汇,提高其对不同领域和主题的理解能力。
(2)专业数据(Specialized Data)包括多语言数据、科学数据、代码及领域特有资料等。
        专业数据在通用大语言模型中所占比例通常较低,专业数据有非常多的种类,当前大语言模型使用的三类专业数据,包括多语言数据、科学文本数据和代码。
        当前的大语言模型训练除了需要目标语言中的文本,通常还要整合多语言语料库。
        科学文本对于提升大语言模型在理解科学知识方面的能力具有重要作用。
        代码数据是进行程序生成任务所必需的训练数据。近期的研究和ChatGPT 的结果表明,通过在大量代码上进行预训练,大语言模型可以有效提升代码生成的效果。
三、数据处理
        大语言模型的相关研究表明,数据质量对于模型的影响非常大。因此,在收集了各种类型的数据之后,需要对数据进行处理,去除低质量数据、重复数据、有害信息、个人隐私等内容。
        数据处理主要包括质量过滤、冗余去除、隐私消除、词元切分这几个步骤,典型的数据处理流程如下图所示:
        
        词元切分是数据预处理中至关重要的一步,用来缓解未登录词问题。词元分析是将原始文本分割成词元序列的过程。
        字节对编码(BPE)是一种常见的子词词元算法。此外,还有WordPiece词元分析算法、Unigram词元分析算法等。
四、研究成果
        开展预训练数据集对模型训练的影响分析,为数据集的筛选提供了方向。研究者从数据规模、数据质量和数据多样性三个方面分析数据对大语言模型的性能影响。
(1)数据规模
        考虑在同等计算量情况下,训练损失随参数量的变化情况。针对9种不同的训练参数量设置,使用不同词元数量的训练语料,训练不同大小的模型参数量,使得最终训练所需浮点运算数达到预定目标。
        
        图中绿色线表示使用Gopher训练计算量所预测的最佳模型参数量和训练数据词元数量,可以得出存在优化设计的结论。
        研究人员对LLaMA模型分别在TriviaQA、HellaSwag、NaturalQuestions、SIQA、WinoGrande、PIQA这6个数据集上进行测试(如图所示),发现随着训练数据量的不断增加,模型在分属两类任务的6 个数据集上的性能都在稳步提高。通过使用更多的数据和更长的训练时间,较小的模型也可以实现良好的性能。
        
        研究人员对基于不同量级预训练数据的RoBERTa模型进行实验验证和分析,发现仅对模型进行10M∼100M个词元的训练,就可以获得可靠的语法和语义特征。但是需要更多的数据量训练才能获得足够的常识知识和其他技能,并在典型下游自然语言理解任务中取得较好的结果。
(2)数据质量
        Gopher模型使用经过过滤和去重的MassiveWeb 数据训练得到的语言模型在三个下游任务上都远好于使用未经处理的数据训练得到的模型,如下图所示。
        
        构建GLaM语言模型时,使用相同超参数,对通过原始数据集和经过质量筛选后的数据训练得到的模型效果进行对比,实验结果表明高质量数据训练的模型在自然语言生成和理解任务上表现更好,如下图所示。
        
        数据时效性对模型效果的影响研究表明,训练数据和测试数据的时间错配在一定程度上影响模型效果,见下图:
        
        对LLM记忆能力的分析研究表明,重复数据对语言模型建模具有重要影响,会对模型的泛化能力产生影响,见下图:
        
(3)数据多样性
        来自不同领域、使用不同语言、应用于不同场景的训练数据具有不同的语言特征,包含不同语义知识。通过使用不同来源的数据进行训练,大语言模型可以获得广泛的知识。
        
        上图给出了7 种使用不同子集采样权重进行训练的Gopher 模型在下游任务上的性能分析。可以看到,使用不同数量子集采样权重进行训练,所获得的模型效果差别是很大的。
五、开源数据集
        在构建大语言模型时,数据的质量和多样性对于提高模型的性能至关重要,开源数据集为预训练数据集的进一步规范化提供了有力的支撑。
        随着近年来深度学习和预训练语言模型的研究,研究人员构建了多种大规模开源数据集,有:Pile、ROOTS(Responsible Open-science Open-collaboration Text Sources)、RefinedWeb、SlimPajama等。
六、总结与思考
        通过这一章的学习,可以看到预训练数据集的准备和处理,是LLM预训练过程中工程量最大且花费人力最多的地方,LLM预训练数据集关系到LLM的训练成本以及训练成效,开展相关技术的研究以及推进并规范开源数据集是非常有必要的。
 

最新回复

预训练数据集的准备和处理,是LLM预训练过程中工程量最大且花费人力最多的地方,是这样子的   详情 回复 发表于 昨天 07:48
点赞 关注

回复
举报

6749

帖子

0

TA的资源

五彩晶圆(高级)

沙发
 

预训练数据集的准备和处理,是LLM预训练过程中工程量最大且花费人力最多的地方,是这样子的

点评

开源数据集的推出和规范化,会在一定程度上缓解这方面的压力。  详情 回复 发表于 昨天 08:23
 
 

回复

202

帖子

2

TA的资源

一粒金砂(高级)

板凳
 
Jacktang 发表于 2025-1-4 07:48 预训练数据集的准备和处理,是LLM预训练过程中工程量最大且花费人力最多的地方,是这样子的

开源数据集的推出和规范化,会在一定程度上缓解这方面的压力。

 
 
 

回复
您需要登录后才可以回帖 登录 | 注册

随便看看
查找数据手册?

EEWorld Datasheet 技术支持

相关文章 更多>>
关闭
站长推荐上一条 1/5 下一条

 
EEWorld订阅号

 
EEWorld服务号

 
汽车开发圈

About Us 关于我们 客户服务 联系方式 器件索引 网站地图 最新更新 手机版

站点相关: 国产芯 安防电子 汽车电子 手机便携 工业控制 家用电子 医疗电子 测试测量 网络通信 物联网

北京市海淀区中关村大街18号B座15层1530室 电话:(010)82350740 邮编:100190

电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2025 EEWORLD.com.cn, Inc. All rights reserved
快速回复 返回顶部 返回列表