《大语言模型——原理与工程实践》第七章大语言模型的测评

皓月光兮非自明 发表于 2024-10-11 01:10

第七章大语言模型的测评

一、基座语言模型的评测

（一）主要的评测维度和评测基准

    1、语言建模能力

        该维度主要关注模型在文本续写和基础语言建模方面的性能。

        如：Lambada、the Pile、WikiText-103

 

    2、综合知识能力

        该维度主要关注常识、知识获取和逻辑推理等方面的综合性能。

<ol>
<li align="justify" >常识推理（Commonsense Reasoning）类</li>
</ol>

        如：PIQA、SIQA、ARC、CommonsenseQA

 

<ol start="2">
<li align="justify" >阅读理解（Reading Comprehension）类</li>
</ol>

        如：Natural Questions、TriviaQA

 

<ol start="3">
<li align="justify" >世界知识（World Knowledge）类</li>
</ol>

        如：MMLU、AGIEval、Big Bench Hard（BBH）、C-Eval、CMMLU

 

（三）数学计算能力

    数学计算是大语言模型展现的核心能力之一，它涵盖了逻辑推理、数值理解和计算等方面，被认为是衡量模型区分度的关键维度。

    如：GSM8K、MATH、MathQA

 

（四）代码能力

    该维度主要评估模型在代码补全和代码生成方面的表现。

    如：HumanEval、MBPP

 

（五）垂直领域

<ol>
<li align="justify" >FinanceIQ</li>
</ol>

        涵盖注册会计师、税务师、经济师等多个金融从业资格考试的10个大类和36个小类的测试。

 

<ol start="2">
<li align="justify" >DISC-Law-Eval</li>
</ol>

        涵盖一系列基于中国法律标准化考试和知识竞赛的问题，根据问题的复杂性和推理难度，分为困难、中等、简单三个层次。

 

二、大语言模型的对话能力评测

（一）测评任务

<ol>
<li align="justify" >生活闲聊类评测任务</li>
<li align="justify" >方法论指导类评测任务</li>
<li align="justify" >特殊指令遵循类评测任务</li>
<li align="justify" >语言理解类评测任务</li>
<li align="justify" >常识百科类评测任务</li>
<li align="justify" >数学计算类评测任务</li>
<li align="justify" >逻辑推理类评测任务</li>
<li align="justify" >摘要生成类评测任务</li>
<li align="justify" >文案创作类评测任务</li>
<li align="justify" >翻译类评测任务</li>
<li align="justify" >代码类评测任务</li>
<li align="justify" >中国特色类评测任务</li>
<li align="justify" >对轮对话类评测任务</li>
</ol>

 

（二）评测集的构建标准

    首先，评测集的构建要在每个任务类别下，充分考虑语气和表述方式的多样性。

    其次，设计问题时应加入多种限制条件以更精准地区分模型性能的高低。

    第三，尽可能贴近实际应用场景。

    第四，任务难度要具有多样性。

 

三、大语音模型的安全性评测

（一）评测任务

<ol>
<li align="justify" >政治敏感类问题</li>
<li align="justify" >违法犯罪类问题</li>
<li align="justify" >歧视偏见类问题</li>
<li align="justify" >道德与伦理类问题</li>
<li align="justify" >指令攻击类问题</li>
</ol>

Jacktang 发表于 2024-10-13 09:15

怎么评测或阻止大模型“胡说八道”呢，看评测也不行

皓月光兮非自明 发表于 2024-10-24 13:50

Jacktang 发表于 2024-10-13 09:15
怎么评测或阻止大模型“胡说八道”呢，看评测也不行

女儿遇到黄毛了肯定完蛋，好在模型可以重构重新训练，除此以外没有其他办法，你不知道喂错什么了，只能重新训练，因为喂下去它和其他训练集已经构合叠加了，分离不出来了，只能重新调

页: [1]

电子工程世界-论坛's Archiver

《大语言模型——原理与工程实践》第七章 大语言模型的测评

《大语言模型——原理与工程实践》第七章大语言模型的测评