3814|0

89

帖子

0

TA的资源

一粒金砂(高级)

楼主
 

《大语言模型——原理与工程实践》第三章 预训练数据构建 [复制链接]

​​​​​​第三章、预训练数据构建

一、数据来源

常用数据类别与来源

数据类型

来源示例

网页数据

CommonCrawl、C4

书籍数据

BookCorpus

百科数据

维基百科、百度百科

代码数据

The Stack

其他

学术论文、新闻、多语言、垂直领域数据

 

二、数据的预处理方式

  1. 从原始格式的数据中提取正文文本
  2. 对文本进行质量过滤,通常涉及规则过滤和模型过滤两方面
  3. 对多来源的文档进行去重操作
  4. 对数据集进行进一步净化

 

(一)正文提取

    以纯文本的形式存储。

 

(二)质量过滤

    规则过滤

        (1)格式转换:针对文本进行字符级规范化,确保训练数据的格式统一。

        (2)篇章级过滤:删除整体质量偏低的文档。

        (3)行级过滤:针对文档进行更细致的筛选,针对文档中的特定片段进行删减。

 

    模型过滤

       使用机器学习分类器预期文本的质量,并根据预测得分筛选数据。

 

(三)文档去重

    (1)文档内去重

        1、行内去重:针对单行内容进行去重。

        2、行间去重:删除整个文档中重复的行或者相似度比较高的行间片段。

 

    (2)文档间去重

        按全局去重,关注多个文档之间的整体相似性,而不是完全匹配。

 

(四)数据净化

    (1)数据脱敏:核心目标是保护隐私的安全性并消除潜在的偏见,为大语言模型的安全应用提供保障。

    (2)测试集分离:确保模型的泛化能力得到真实的评估。

 

​​​​​​​三、难点和挑战

(一)数据收集的局限性

        有限数据下的模型优化方向。

 

(二)数据质量评估的挑战

  1. 多样性:数据来源多样性,每种来源都有其独特的质量标准。
  2. 主观性:目前的质量过滤一启发式规则为主。
  3. 大规模:随着数据规模的增大,手动评估所有数据已经变得不切实际。

 

(三)自动生成数据的风险

    自动生产的数据缺乏可靠的来源,可能包含非字面错误、偏见或者不准确的统计信息,低质量的数据加入训练集将会使得模型的上限逐渐变低。

点赞 关注(1)

回复
举报
您需要登录后才可以回帖 登录 | 注册

随便看看
查找数据手册?

EEWorld Datasheet 技术支持

相关文章 更多>>
关闭
站长推荐上一条 1/6 下一条

 
EEWorld订阅号

 
EEWorld服务号

 
汽车开发圈

About Us 关于我们 客户服务 联系方式 器件索引 网站地图 最新更新 手机版

站点相关: 国产芯 安防电子 汽车电子 手机便携 工业控制 家用电子 医疗电子 测试测量 网络通信 物联网

北京市海淀区中关村大街18号B座15层1530室 电话:(010)82350740 邮编:100190

电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2025 EEWORLD.com.cn, Inc. All rights reserved
快速回复 返回顶部 返回列表