《大语言模型——原理与工程实践》第三章预训练数据构建

皓月光兮非自明 发表于 2024-10-10 23:49

第三章、预训练数据构建

一、数据来源

常用数据类别与来源

<table style="border-collapse:collapse; border:none;Times New Roman"">
<tbody>
<tr>
<td style="border-bottom:1px solid black; background-color:#9cc2e5; border-top:1px solid black; border-right:1px solid black; border-left:1px solid black" valign="center">
数据类型
</td>
<td style="border-bottom:1px solid black; background-color:#9cc2e5; border-top:1px solid black; border-right:1px solid black; border-left:1px solid black" valign="center">
来源示例
</td>
</tr>
<tr>
<td style="border-bottom:1px solid black; border-top:none; border-right:1px solid black; border-left:1px solid black" valign="center">
网页数据
</td>
<td style="border-bottom:1px solid black; border-top:none; border-right:1px solid black; border-left:1px solid black" valign="center">
CommonCrawl、C4
</td>
</tr>
<tr>
<td style="border-bottom:1px solid black; border-top:none; border-right:1px solid black; border-left:1px solid black" valign="center">
书籍数据
</td>
<td style="border-bottom:1px solid black; border-top:none; border-right:1px solid black; border-left:1px solid black" valign="center">
BookCorpus
</td>
</tr>
<tr>
<td style="border-bottom:1px solid black; border-top:none; border-right:1px solid black; border-left:1px solid black" valign="center">
百科数据
</td>
<td style="border-bottom:1px solid black; border-top:none; border-right:1px solid black; border-left:1px solid black" valign="center">
维基百科、百度百科
</td>
</tr>
<tr>
<td style="border-bottom:1px solid black; border-top:none; border-right:1px solid black; border-left:1px solid black" valign="center">
代码数据
</td>
<td style="border-bottom:1px solid black; border-top:none; border-right:1px solid black; border-left:1px solid black" valign="center">
The Stack
</td>
</tr>
<tr>
<td style="border-bottom:1px solid black; border-top:none; border-right:1px solid black; border-left:1px solid black" valign="center">
其他
</td>
<td style="border-bottom:1px solid black; border-top:none; border-right:1px solid black; border-left:1px solid black" valign="center">
学术论文、新闻、多语言、垂直领域数据
</td>
</tr>
</tbody>
</table>

 

二、数据的预处理方式

<ol>
<livalue="1">从原始格式的数据中提取正文文本</li>
<li >对文本进行质量过滤，通常涉及规则过滤和模型过滤两方面</li>
<li >对多来源的文档进行去重操作</li>
<li >对数据集进行进一步净化</li>
</ol>

 

（一）正文提取

    以纯文本的形式存储。

 

（二）质量过滤

    规则过滤

        （1）格式转换：针对文本进行字符级规范化，确保训练数据的格式统一。

        （2）篇章级过滤：删除整体质量偏低的文档。

        （3）行级过滤：针对文档进行更细致的筛选，针对文档中的特定片段进行删减。

 

    模型过滤

       使用机器学习分类器预期文本的质量，并根据预测得分筛选数据。

 

（三）文档去重

    （1）文档内去重

        1、行内去重：针对单行内容进行去重。

        2、行间去重：删除整个文档中重复的行或者相似度比较高的行间片段。

 

    （2）文档间去重

        按全局去重，关注多个文档之间的整体相似性，而不是完全匹配。

 

（四）数据净化

    （1）数据脱敏：核心目标是保护隐私的安全性并消除潜在的偏见，为大语言模型的安全应用提供保障。

    （2）测试集分离：确保模型的泛化能力得到真实的评估。

 

三、难点和挑战

（一）数据收集的局限性

        有限数据下的模型优化方向。

 

（二）数据质量评估的挑战

<ol>
<li align="justify" >多样性：数据来源多样性，每种来源都有其独特的质量标准。</li>
<li align="justify" >主观性：目前的质量过滤一启发式规则为主。</li>
<li align="justify" >大规模：随着数据规模的增大，手动评估所有数据已经变得不切实际。</li>
</ol>

 

（三）自动生成数据的风险

    自动生产的数据缺乏可靠的来源，可能包含非字面错误、偏见或者不准确的统计信息，低质量的数据加入训练集将会使得模型的上限逐渐变低。

页: [1]

电子工程世界-论坛's Archiver

《大语言模型——原理与工程实践》第三章 预训练数据构建

《大语言模型——原理与工程实践》第三章预训练数据构建