《大语言模型——原理与工程实践》第七章 大语言模型的测评
[复制链接]
第七章 大语言模型的测评
一、基座语言模型的评测
(一)主要的评测维度和评测基准
1、语言建模能力
该维度主要关注模型在文本续写和基础语言建模方面的性能。
如:Lambada、the Pile、WikiText-103
2、综合知识能力
该维度主要关注常识、知识获取和逻辑推理等方面的综合性能。
- 常识推理(Commonsense Reasoning)类
如:PIQA、SIQA、ARC、CommonsenseQA
- 阅读理解(Reading Comprehension)类
如:Natural Questions、TriviaQA
- 世界知识(World Knowledge)类
如:MMLU、AGIEval、Big Bench Hard(BBH)、C-Eval、CMMLU
(三)数学计算能力
数学计算是大语言模型展现的核心能力之一,它涵盖了逻辑推理、数值理解和计算等方面,被认为是衡量模型区分度的关键维度。
如:GSM8K、MATH、MathQA
(四)代码能力
该维度主要评估模型在代码补全和代码生成方面的表现。
如:HumanEval、MBPP
(五)垂直领域
- FinanceIQ
涵盖注册会计师、税务师、经济师等多个金融从业资格考试的10个大类和36个小类的测试。
- DISC-Law-Eval
涵盖一系列基于中国法律标准化考试和知识竞赛的问题,根据问题的复杂性和推理难度,分为困难、中等、简单三个层次。
二、大语言模型的对话能力评测
(一)测评任务
- 生活闲聊类评测任务
- 方法论指导类评测任务
- 特殊指令遵循类评测任务
- 语言理解类评测任务
- 常识百科类评测任务
- 数学计算类评测任务
- 逻辑推理类评测任务
- 摘要生成类评测任务
- 文案创作类评测任务
- 翻译类评测任务
- 代码类评测任务
- 中国特色类评测任务
- 对轮对话类评测任务
(二)评测集的构建标准
首先,评测集的构建要在每个任务类别下,充分考虑语气和表述方式的多样性。
其次,设计问题时应加入多种限制条件以更精准地区分模型性能的高低。
第三,尽可能贴近实际应用场景。
第四,任务难度要具有多样性。
三、大语音模型的安全性评测
(一)评测任务
- 政治敏感类问题
- 违法犯罪类问题
- 歧视偏见类问题
- 道德与伦理类问题
- 指令攻击类问题
|