《大语言模型——原理与工程实践》第三章 预训练数据构建
[复制链接]
第三章、预训练数据构建
一、数据来源
常用数据类别与来源
数据类型
|
来源示例
|
网页数据
|
CommonCrawl、C4
|
书籍数据
|
BookCorpus
|
百科数据
|
维基百科、百度百科
|
代码数据
|
The Stack
|
其他
|
学术论文、新闻、多语言、垂直领域数据
|
二、数据的预处理方式
- 从原始格式的数据中提取正文文本
- 对文本进行质量过滤,通常涉及规则过滤和模型过滤两方面
- 对多来源的文档进行去重操作
- 对数据集进行进一步净化
(一)正文提取
以纯文本的形式存储。
(二)质量过滤
规则过滤
(1)格式转换:针对文本进行字符级规范化,确保训练数据的格式统一。
(2)篇章级过滤:删除整体质量偏低的文档。
(3)行级过滤:针对文档进行更细致的筛选,针对文档中的特定片段进行删减。
模型过滤
使用机器学习分类器预期文本的质量,并根据预测得分筛选数据。
(三)文档去重
(1)文档内去重
1、行内去重:针对单行内容进行去重。
2、行间去重:删除整个文档中重复的行或者相似度比较高的行间片段。
(2)文档间去重
按全局去重,关注多个文档之间的整体相似性,而不是完全匹配。
(四)数据净化
(1)数据脱敏:核心目标是保护隐私的安全性并消除潜在的偏见,为大语言模型的安全应用提供保障。
(2)测试集分离:确保模型的泛化能力得到真实的评估。
三、难点和挑战
(一)数据收集的局限性
有限数据下的模型优化方向。
(二)数据质量评估的挑战
- 多样性:数据来源多样性,每种来源都有其独特的质量标准。
- 主观性:目前的质量过滤一启发式规则为主。
- 大规模:随着数据规模的增大,手动评估所有数据已经变得不切实际。
(三)自动生成数据的风险
自动生产的数据缺乏可靠的来源,可能包含非字面错误、偏见或者不准确的统计信息,低质量的数据加入训练集将会使得模型的上限逐渐变低。
|