皓月光兮非自明 发表于 2024-10-10 23:49

《大语言模型——原理与工程实践》第三章 预训练数据构建

<p><span style="font-size:24px;"><strong>​​​​​​第三章、预训练数据构建</strong></span></p>

<p><span style="font-size:18px;"><strong>一、数据来源</strong></span></p>

<p ><b>常用数据类别与来源</b></p>

<table style="border-collapse:collapse; border:none;Times New Roman&quot;">
        <tbody>
                <tr>
                        <td style="border-bottom:1px solid black; background-color:#9cc2e5; border-top:1px solid black; border-right:1px solid black; border-left:1px solid black" valign="center">
                        <p align="center" >数据类型</p>
                        </td>
                        <td style="border-bottom:1px solid black; background-color:#9cc2e5; border-top:1px solid black; border-right:1px solid black; border-left:1px solid black" valign="center">
                        <p align="center" >来源示例</p>
                        </td>
                </tr>
                <tr>
                        <td style="border-bottom:1px solid black; border-top:none; border-right:1px solid black; border-left:1px solid black" valign="center">
                        <p align="center" >网页数据</p>
                        </td>
                        <td style="border-bottom:1px solid black; border-top:none; border-right:1px solid black; border-left:1px solid black" valign="center">
                        <p align="center" >CommonCrawl、C4</p>
                        </td>
                </tr>
                <tr>
                        <td style="border-bottom:1px solid black; border-top:none; border-right:1px solid black; border-left:1px solid black" valign="center">
                        <p align="center" >书籍数据</p>
                        </td>
                        <td style="border-bottom:1px solid black; border-top:none; border-right:1px solid black; border-left:1px solid black" valign="center">
                        <p align="center" >BookCorpus</p>
                        </td>
                </tr>
                <tr>
                        <td style="border-bottom:1px solid black; border-top:none; border-right:1px solid black; border-left:1px solid black" valign="center">
                        <p align="center" >百科数据</p>
                        </td>
                        <td style="border-bottom:1px solid black; border-top:none; border-right:1px solid black; border-left:1px solid black" valign="center">
                        <p align="center" >维基百科、百度百科</p>
                        </td>
                </tr>
                <tr>
                        <td style="border-bottom:1px solid black; border-top:none; border-right:1px solid black; border-left:1px solid black" valign="center">
                        <p align="center" >代码数据</p>
                        </td>
                        <td style="border-bottom:1px solid black; border-top:none; border-right:1px solid black; border-left:1px solid black" valign="center">
                        <p align="center" >The Stack</p>
                        </td>
                </tr>
                <tr>
                        <td style="border-bottom:1px solid black; border-top:none; border-right:1px solid black; border-left:1px solid black" valign="center">
                        <p align="center" >其他</p>
                        </td>
                        <td style="border-bottom:1px solid black; border-top:none; border-right:1px solid black; border-left:1px solid black" valign="center">
                        <p align="center" >学术论文、新闻、多语言、垂直领域数据</p>
                        </td>
                </tr>
        </tbody>
</table>

<p >&nbsp;</p>

<p style="list-style-type:none"><span style="font-size:18px;"><strong>二、数据的预处理方式</strong></span></p>

<ol>
        <livalue="1">从原始格式的数据中提取正文文本</li>
        <li >对文本进行质量过滤,通常涉及规则过滤和模型过滤两方面</li>
        <li >对多来源的文档进行去重操作</li>
        <li >对数据集进行进一步净化</li>
</ol>

<p >&nbsp;</p>

<p ><strong>(一)正文提取</strong></p>

<p >&nbsp; &nbsp; 以纯文本的形式存储。</p>

<p >&nbsp;</p>

<p ><strong>(二)质量过滤</strong></p>

<p ><strong>&nbsp; &nbsp; 规则过滤</strong></p>

<p align="justify" ><strong>&nbsp; &nbsp; </strong><strong>&nbsp; &nbsp; </strong>(1)格式转换:针对文本进行字符级规范化,确保训练数据的格式统一。</p>

<p align="justify" ><strong>&nbsp; &nbsp; </strong><strong>&nbsp; &nbsp; </strong>(2)篇章级过滤:删除整体质量偏低的文档。</p>

<p align="justify" ><strong>&nbsp; &nbsp; </strong><strong>&nbsp; &nbsp; </strong>(3)行级过滤:针对文档进行更细致的筛选,针对文档中的特定片段进行删减。</p>

<p >&nbsp;</p>

<p >&nbsp; &nbsp;&nbsp;<strong>模型过滤</strong></p>

<p align="justify" >&nbsp; &nbsp;<strong>&nbsp; &nbsp; </strong> 使用机器学习分类器预期文本的质量,并根据预测得分筛选数据。</p>

<p align="justify" >&nbsp;</p>

<p align="justify" ><strong>(三)文档去重</strong></p>

<p align="justify" ><strong>&nbsp; &nbsp; (1)文档内去重</strong></p>

<p align="justify" >&nbsp; &nbsp; &nbsp; &nbsp; 1、行内去重:针对单行内容进行去重。</p>

<p align="justify" >&nbsp; &nbsp; &nbsp; &nbsp; 2、行间去重:删除整个文档中重复的行或者相似度比较高的行间片段。</p>

<p align="justify" >&nbsp;</p>

<p align="justify" ><strong>&nbsp; &nbsp; (2)文档间去重</strong></p>

<p align="justify" >&nbsp; &nbsp; &nbsp; &nbsp; 按全局去重,关注多个文档之间的整体相似性,而不是完全匹配。</p>

<p align="justify" >&nbsp;</p>

<p align="justify" ><b>(四)数据净化</b></p>

<p >&nbsp; &nbsp; (1)数据脱敏:核心目标是保护隐私的安全性并消除潜在的偏见,为大语言模型的安全应用提供保障。</p>

<p >&nbsp; &nbsp; (2)测试集分离:确保模型的泛化能力得到真实的评估。</p>

<p align="justify" >&nbsp;</p>

<p style="list-style-type:none"><span style="font-size:18px;">​​​​​​​三、<b>难点和挑战</b></span></p>

<p><strong>(一)数据收集的局限性</strong></p>

<p align="justify" >&nbsp; &nbsp; &nbsp; &nbsp; 有限数据下的模型优化方向。</p>

<p align="justify" >&nbsp;</p>

<p><strong>(二)数据质量评估的挑战</strong></p>

<ol>
        <li align="justify" >多样性:数据来源多样性,每种来源都有其独特的质量标准。</li>
        <li align="justify" >主观性:目前的质量过滤一启发式规则为主。</li>
        <li align="justify" >大规模:随着数据规模的增大,手动评估所有数据已经变得不切实际。</li>
</ol>

<p align="justify" >&nbsp;</p>

<p><strong>(三)自动生成数据的风险</strong></p>

<p align="justify" >&nbsp; &nbsp; 自动生产的数据缺乏可靠的来源,可能包含非字面错误、偏见或者不准确的统计信息,低质量的数据加入训练集将会使得模型的上限逐渐变低。</p>
页: [1]
查看完整版本: 《大语言模型——原理与工程实践》第三章 预训练数据构建