皓月光兮非自明 发表于 2024-10-11 01:10

《大语言模型——原理与工程实践》第七章 大语言模型的测评

<p><span style="font-size:24px;"><b>第七章 大语言模型的测评</b></span></p>

<p><span style="font-size:22px;"><b>一、基座语言模型的评测</b></span></p>

<p ><b>(一)主要的评测维度和评测基准</b></p>

<p><b>&nbsp; &nbsp; 1、语言建模能力</b></p>

<p ><b>&nbsp; &nbsp; </b><b>&nbsp; &nbsp; </b>该维度主要关注模型在文本续写和基础语言建模方面的性能。</p>

<p ><b>&nbsp; &nbsp; </b><b>&nbsp; &nbsp; </b>如:Lambada、the Pile、WikiText-103</p>

<p >&nbsp;</p>

<p><b>&nbsp; &nbsp; 2、综合知识能力</b></p>

<p align="justify" ><b>&nbsp; &nbsp; </b><b>&nbsp; &nbsp; </b>该维度主要关注常识、知识获取和逻辑推理等方面的综合性能。</p>

<ol>
        <li align="justify" >常识推理(Commonsense Reasoning)类</li>
</ol>

<p align="justify" ><b>&nbsp; &nbsp; </b><b>&nbsp; &nbsp; </b>如:PIQA、SIQA、ARC、CommonsenseQA</p>

<p align="justify" >&nbsp;</p>

<ol start="2">
        <li align="justify" >阅读理解(Reading Comprehension)类</li>
</ol>

<p align="justify" ><b>&nbsp; &nbsp; </b><b>&nbsp; &nbsp; </b>如:Natural Questions、TriviaQA</p>

<p align="justify" >&nbsp;</p>

<ol start="3">
        <li align="justify" >世界知识(World Knowledge)类</li>
</ol>

<p align="justify" ><b>&nbsp; &nbsp; </b><b>&nbsp; &nbsp; </b>如:MMLU、AGIEval、Big Bench Hard(BBH)、C-Eval、CMMLU</p>

<p align="justify" >&nbsp;</p>

<p><b>(三)数学计算能力</b></p>

<p align="justify" ><b>&nbsp; &nbsp; </b>数学计算是大语言模型展现的核心能力之一,它涵盖了逻辑推理、数值理解和计算等方面,被认为是衡量模型区分度的关键维度。</p>

<p align="justify" ><b>&nbsp; &nbsp; </b>如:GSM8K、MATH、MathQA</p>

<p align="justify" >&nbsp;</p>

<p><b>(四)代码能力</b></p>

<p align="justify" ><b>&nbsp; &nbsp; </b>该维度主要评估模型在代码补全和代码生成方面的表现。</p>

<p align="justify" ><b>&nbsp; &nbsp; </b>如:HumanEval、MBPP</p>

<p align="justify" >&nbsp;</p>

<p><b>(五)垂直领域</b></p>

<ol>
        <li align="justify" ><b>FinanceIQ</b></li>
</ol>

<p align="justify" ><b>&nbsp; &nbsp; </b><b>&nbsp; &nbsp; </b>涵盖注册会计师、税务师、经济师等多个金融从业资格考试的10个大类和36个小类的测试。</p>

<p align="justify" >&nbsp;</p>

<ol start="2">
        <li align="justify" ><b>DISC-Law-Eval</b></li>
</ol>

<p align="justify" ><b>&nbsp; &nbsp; </b><b>&nbsp; &nbsp; </b>涵盖一系列基于中国法律标准化考试和知识竞赛的问题,根据问题的复杂性和推理难度,分为困难、中等、简单三个层次。</p>

<p align="justify" >&nbsp;</p>

<p><span style="font-size:22px;"><b>二、大语言模型的对话能力评测</b></span></p>

<p><b>(一)测评任务</b></p>

<ol>
        <li align="justify" ><b>生活闲聊类评测任务</b></li>
        <li align="justify" ><b>方法论指导类评测任务</b></li>
        <li align="justify" ><b>特殊指令遵循类评测任务</b></li>
        <li align="justify" ><b>语言理解类评测任务</b></li>
        <li align="justify" ><b>常识百科类评测任务</b></li>
        <li align="justify" ><b>数学计算类评测任务</b></li>
        <li align="justify" ><b>逻辑推理类评测任务</b></li>
        <li align="justify" ><b>摘要生成类评测任务</b></li>
        <li align="justify" ><b>文案创作类评测任务</b></li>
        <li align="justify" ><b>翻译类评测任务</b></li>
        <li align="justify" ><b>代码类评测任务</b></li>
        <li align="justify" ><b>中国特色类评测任务</b></li>
        <li align="justify" ><b>对轮对话类评测任务</b></li>
</ol>

<p align="justify" >&nbsp;</p>

<p><b>(二)评测集的构建标准</b></p>

<p align="justify" ><b>&nbsp; &nbsp; </b>首先,评测集的构建要在每个任务类别下,充分考虑语气和表述方式的多样性。</p>

<p align="justify" ><b>&nbsp; &nbsp; </b>其次,设计问题时应加入多种限制条件以更精准地区分模型性能的高低。</p>

<p><b>&nbsp; &nbsp; </b>第三,尽可能贴近实际应用场景。</p>

<p><b>&nbsp; &nbsp; </b>第四,任务难度要具有多样性。</p>

<p align="justify" >&nbsp;</p>

<p><span style="font-size:24px;"><b>三、大语音模型的安全性评测</b></span></p>

<p><b>(一)评测任务</b></p>

<ol>
        <li align="justify" ><b>政治敏感类问题</b></li>
        <li align="justify" ><b>违法犯罪类问题</b></li>
        <li align="justify" ><b>歧视偏见类问题</b></li>
        <li align="justify" ><b>道德与伦理类问题</b></li>
        <li align="justify" ><b>指令攻击类问题</b></li>
</ol>

Jacktang 发表于 2024-10-13 09:15

<p>怎么评测或阻止大模型&ldquo;胡说八道&rdquo;呢,看评测也不行</p>

皓月光兮非自明 发表于 2024-10-24 13:50

Jacktang 发表于 2024-10-13 09:15
怎么评测或阻止大模型&ldquo;胡说八道&rdquo;呢,看评测也不行

<p>女儿遇到黄毛了肯定完蛋,好在模型可以重构重新训练,除此以外没有其他办法,你不知道喂错什么了,只能重新训练,因为喂下去它和其他训练集已经构合叠加了,分离不出来了,只能重新调</p>
页: [1]
查看完整版本: 《大语言模型——原理与工程实践》第七章 大语言模型的测评