《大语言模型——原理与工程实践》第三章 预训练数据构建
<p><span style="font-size:24px;"><strong>第三章、预训练数据构建</strong></span></p><p><span style="font-size:18px;"><strong>一、数据来源</strong></span></p>
<p ><b>常用数据类别与来源</b></p>
<table style="border-collapse:collapse; border:none;Times New Roman"">
<tbody>
<tr>
<td style="border-bottom:1px solid black; background-color:#9cc2e5; border-top:1px solid black; border-right:1px solid black; border-left:1px solid black" valign="center">
<p align="center" >数据类型</p>
</td>
<td style="border-bottom:1px solid black; background-color:#9cc2e5; border-top:1px solid black; border-right:1px solid black; border-left:1px solid black" valign="center">
<p align="center" >来源示例</p>
</td>
</tr>
<tr>
<td style="border-bottom:1px solid black; border-top:none; border-right:1px solid black; border-left:1px solid black" valign="center">
<p align="center" >网页数据</p>
</td>
<td style="border-bottom:1px solid black; border-top:none; border-right:1px solid black; border-left:1px solid black" valign="center">
<p align="center" >CommonCrawl、C4</p>
</td>
</tr>
<tr>
<td style="border-bottom:1px solid black; border-top:none; border-right:1px solid black; border-left:1px solid black" valign="center">
<p align="center" >书籍数据</p>
</td>
<td style="border-bottom:1px solid black; border-top:none; border-right:1px solid black; border-left:1px solid black" valign="center">
<p align="center" >BookCorpus</p>
</td>
</tr>
<tr>
<td style="border-bottom:1px solid black; border-top:none; border-right:1px solid black; border-left:1px solid black" valign="center">
<p align="center" >百科数据</p>
</td>
<td style="border-bottom:1px solid black; border-top:none; border-right:1px solid black; border-left:1px solid black" valign="center">
<p align="center" >维基百科、百度百科</p>
</td>
</tr>
<tr>
<td style="border-bottom:1px solid black; border-top:none; border-right:1px solid black; border-left:1px solid black" valign="center">
<p align="center" >代码数据</p>
</td>
<td style="border-bottom:1px solid black; border-top:none; border-right:1px solid black; border-left:1px solid black" valign="center">
<p align="center" >The Stack</p>
</td>
</tr>
<tr>
<td style="border-bottom:1px solid black; border-top:none; border-right:1px solid black; border-left:1px solid black" valign="center">
<p align="center" >其他</p>
</td>
<td style="border-bottom:1px solid black; border-top:none; border-right:1px solid black; border-left:1px solid black" valign="center">
<p align="center" >学术论文、新闻、多语言、垂直领域数据</p>
</td>
</tr>
</tbody>
</table>
<p > </p>
<p style="list-style-type:none"><span style="font-size:18px;"><strong>二、数据的预处理方式</strong></span></p>
<ol>
<livalue="1">从原始格式的数据中提取正文文本</li>
<li >对文本进行质量过滤,通常涉及规则过滤和模型过滤两方面</li>
<li >对多来源的文档进行去重操作</li>
<li >对数据集进行进一步净化</li>
</ol>
<p > </p>
<p ><strong>(一)正文提取</strong></p>
<p > 以纯文本的形式存储。</p>
<p > </p>
<p ><strong>(二)质量过滤</strong></p>
<p ><strong> 规则过滤</strong></p>
<p align="justify" ><strong> </strong><strong> </strong>(1)格式转换:针对文本进行字符级规范化,确保训练数据的格式统一。</p>
<p align="justify" ><strong> </strong><strong> </strong>(2)篇章级过滤:删除整体质量偏低的文档。</p>
<p align="justify" ><strong> </strong><strong> </strong>(3)行级过滤:针对文档进行更细致的筛选,针对文档中的特定片段进行删减。</p>
<p > </p>
<p > <strong>模型过滤</strong></p>
<p align="justify" > <strong> </strong> 使用机器学习分类器预期文本的质量,并根据预测得分筛选数据。</p>
<p align="justify" > </p>
<p align="justify" ><strong>(三)文档去重</strong></p>
<p align="justify" ><strong> (1)文档内去重</strong></p>
<p align="justify" > 1、行内去重:针对单行内容进行去重。</p>
<p align="justify" > 2、行间去重:删除整个文档中重复的行或者相似度比较高的行间片段。</p>
<p align="justify" > </p>
<p align="justify" ><strong> (2)文档间去重</strong></p>
<p align="justify" > 按全局去重,关注多个文档之间的整体相似性,而不是完全匹配。</p>
<p align="justify" > </p>
<p align="justify" ><b>(四)数据净化</b></p>
<p > (1)数据脱敏:核心目标是保护隐私的安全性并消除潜在的偏见,为大语言模型的安全应用提供保障。</p>
<p > (2)测试集分离:确保模型的泛化能力得到真实的评估。</p>
<p align="justify" > </p>
<p style="list-style-type:none"><span style="font-size:18px;">三、<b>难点和挑战</b></span></p>
<p><strong>(一)数据收集的局限性</strong></p>
<p align="justify" > 有限数据下的模型优化方向。</p>
<p align="justify" > </p>
<p><strong>(二)数据质量评估的挑战</strong></p>
<ol>
<li align="justify" >多样性:数据来源多样性,每种来源都有其独特的质量标准。</li>
<li align="justify" >主观性:目前的质量过滤一启发式规则为主。</li>
<li align="justify" >大规模:随着数据规模的增大,手动评估所有数据已经变得不切实际。</li>
</ol>
<p align="justify" > </p>
<p><strong>(三)自动生成数据的风险</strong></p>
<p align="justify" > 自动生产的数据缺乏可靠的来源,可能包含非字面错误、偏见或者不准确的统计信息,低质量的数据加入训练集将会使得模型的上限逐渐变低。</p>
页:
[1]