136|1

9

帖子

0

TA的资源

一粒金砂(中级)

楼主
 

《大语言模型原理与工程实践》预训练数据构建 [复制链接]

 
# 第三章 预训练数据构建 ## 3.1 数据类别及来源

大语言模型的预训练数据主要包含以下类别:

数据类型 常用数据来源 特点
网页数据 CommonCrawl、C4 规模大、多样性高,需严格清洗
书籍数据 BookCorpus、Books1/Books2 高质量长文本,增强长程依赖能力(受版权限制,获取困难)
百科数据 维基百科、百度百科 权威性强,语言规范,常分配更高训练权重
代码数据 The Stack、GitHub 提升代码生成能力,含注释和文档
其他数据 学术论文、新闻、多语言、垂直领域 增强领域专业性或多语言能力

3.1.1 网页数据

核心来源

  • CommonCrawl:每月抓取约20TB原始数据,含菜单/乱码,需二次清洗。
  • 开源衍生数据集
  • C4:基于CommonCrawl筛选,305GB高质量英文数据。
  • RefinedWeb:6,000亿Token开源数据,用于训练Falcon模型。

处理挑战

  • 需去除低质量内容(广告、乱码),保留正文文本(可用WET格式或自定义解析工具)。

3.1.2 书籍数据

典型数据集

  • BookCorpus:开源书籍语料库。
  • CBooks-150K:复旦大学开源中文书籍数据集,涵盖多领域。

价值

  • 长文本连贯性提升模型长程依赖能力,但版权限制导致数据稀缺。

3.1.3 代码数据

数据构成

开源数据集

  • The Stack:6TB代码数据,覆盖300+语言。
  • StarCoder训练集:882GB(含783GB代码数据+GitHub Issues/提交信息)。

3.2 数据预处理流程

3.2.1 正文提取

  • 网页数据:使用WET格式或工具(如jusText)解析HTML。
  • 书籍数据:转换EPUB/MOBI为TXT,PDF需段落识别和格式修正。

3.2.2 质量过滤

规则过滤

  • 格式统一(标点半角化、去除空白符)。
  • 删除低质量文档(如符号占比过高、句子数<5)。

模型过滤

  • 基于语言模型困惑度筛选高质量文本。

3.2.3 去重

类型 方法 应用案例
文档内去重 ( n-gram )/段落匹配 MassiveText定义重复片段阈值
文档间去重 SimHash/MinHashLSH算法 RefinedWeb使用MinHash全局去重

3.2.4 数据集净化

  • 数据脱敏:正则表达式过滤隐私信息(邮件、电话)。
  • 测试集分离:删除与训练集13-gram重叠的数据(如GPT-3策略)。

3.3 常用数据集构建

3.3.1 C4

  • 来源:CommonCrawl快照。
  • 处理:删除非英文文本、低质量行(如Lorem Ipsum占位符)。
  • 规模:305GB。

3.3.2 RefinedWeb

  • 特点:激进清洗(删除87%原始数据),仅保留高质量网页文本。
  • 效果:纯网页数据训练的模型性能优于混合数据集。

3.3.3 ROOTS(BLOOM训练集)

  • 构成:46种语言,1.6TB(含CommonCrawl、GitHub代码)。
  • 处理
  1. SimHash去重(21.67%冗余)。
  2. 正则过滤隐私信息。
  3. 开源数据处理代码。

3.4 难点与挑战

3.4.1 数据收集局限性

  • 高质量数据耗尽:预计2026年书籍/新闻等公共数据将枯竭(Hoffmann et al., 2022)。

3.4.2 质量评估挑战

  • 主观性:依赖启发式规则(如符号单词比)。
  • 自动化瓶颈:模型过滤易受训练数据偏差影响。

3.4.3 自动生成数据风险

  • 污染模型:含错误/偏见信息,且难与人工数据区分。

附录:实用资源

  • 数据集

  • C4

  • The Stack

  • 工具

  • 正文提取:traflaturajusText

  • 去重:SimHashMinHashLSH

查看精华帖全部内容,请登录或者注册

最新回复

  可以,预训练数据构建清楚明了   详情 回复 发表于 15 小时前
点赞 关注
 
 

回复
举报

6991

帖子

0

TA的资源

五彩晶圆(高级)

沙发
 

 

可以,预训练数据构建清楚明了

 
 
 

回复
您需要登录后才可以回帖 登录 | 注册

随便看看
查找数据手册?

EEWorld Datasheet 技术支持

相关文章 更多>>
关闭
站长推荐上一条 1/10 下一条
报名最后一周!2025 英飞凌消费、计算与通讯创新大会-北京站
会议时间:3月18日(周二)09:30签到
参会奖励:电动螺丝刀套装、户外登山包、京东卡

查看 »

 
EEWorld订阅号

 
EEWorld服务号

 
汽车开发圈

 
机器人开发圈

About Us 关于我们 客户服务 联系方式 器件索引 网站地图 最新更新 手机版

站点相关: 国产芯 安防电子 汽车电子 手机便携 工业控制 家用电子 医疗电子 测试测量 网络通信 物联网

北京市海淀区中关村大街18号B座15层1530室 电话:(010)82350740 邮编:100190

电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2025 EEWORLD.com.cn, Inc. All rights reserved
快速回复 返回顶部 返回列表