《大语言模型——原理与工程实践》第七章大语言模型的测评

皓月光兮非自明 · 发表于2024-10-11 01:10

《大语言模型——原理与工程实践》第七章大语言模型的测评 [复制链接]

第七章大语言模型的测评

一、基座语言模型的评测

（一）主要的评测维度和评测基准

1、语言建模能力

该维度主要关注模型在文本续写和基础语言建模方面的性能。

如：Lambada、the Pile、WikiText-103

2、综合知识能力

该维度主要关注常识、知识获取和逻辑推理等方面的综合性能。

如：PIQA、SIQA、ARC、CommonsenseQA

如：Natural Questions、TriviaQA

如：MMLU、AGIEval、Big Bench Hard（BBH）、C-Eval、CMMLU

（三）数学计算能力

数学计算是大语言模型展现的核心能力之一，它涵盖了逻辑推理、数值理解和计算等方面，被认为是衡量模型区分度的关键维度。

如：GSM8K、MATH、MathQA

（四）代码能力

该维度主要评估模型在代码补全和代码生成方面的表现。

如：HumanEval、MBPP

（五）垂直领域

涵盖注册会计师、税务师、经济师等多个金融从业资格考试的10个大类和36个小类的测试。

涵盖一系列基于中国法律标准化考试和知识竞赛的问题，根据问题的复杂性和推理难度，分为困难、中等、简单三个层次。

二、大语言模型的对话能力评测

（一）测评任务

（二）评测集的构建标准

首先，评测集的构建要在每个任务类别下，充分考虑语气和表述方式的多样性。

其次，设计问题时应加入多种限制条件以更精准地区分模型性能的高低。

第三，尽可能贴近实际应用场景。

第四，任务难度要具有多样性。

三、大语音模型的安全性评测

（一）评测任务

Jacktang · 发表于2024-10-13 09:15

怎么评测或阻止大模型“胡说八道”呢，看评测也不行

皓月光兮非自明 · 发表于2024-10-24 13:50

Jacktang 发表于 2024-10-13 09:15 怎么评测或阻止大模型“胡说八道”呢，看评测也不行

女儿遇到黄毛了肯定完蛋，好在模型可以重构重新训练，除此以外没有其他办法，你不知道喂错什么了，只能重新训练，因为喂下去它和其他训练集已经构合叠加了，分离不出来了，只能重新调