3970|2

89

帖子

0

TA的资源

一粒金砂(高级)

楼主
 

《大语言模型——原理与工程实践》第七章 大语言模型的测评 [复制链接]

第七章 大语言模型的测评

一、基座语言模型的评测

(一)主要的评测维度和评测基准

    1、语言建模能力

        该维度主要关注模型在文本续写和基础语言建模方面的性能。

        如:Lambada、the Pile、WikiText-103

 

    2、综合知识能力

        该维度主要关注常识、知识获取和逻辑推理等方面的综合性能。

  1. 常识推理(Commonsense Reasoning)类

        如:PIQA、SIQA、ARC、CommonsenseQA

 

  1. 阅读理解(Reading Comprehension)类

        如:Natural Questions、TriviaQA

 

  1. 世界知识(World Knowledge)类

        如:MMLU、AGIEval、Big Bench Hard(BBH)、C-Eval、CMMLU

 

(三)数学计算能力

    数学计算是大语言模型展现的核心能力之一,它涵盖了逻辑推理、数值理解和计算等方面,被认为是衡量模型区分度的关键维度。

    如:GSM8K、MATH、MathQA

 

(四)代码能力

    该维度主要评估模型在代码补全和代码生成方面的表现。

    如:HumanEval、MBPP

 

(五)垂直领域

  1. FinanceIQ

        涵盖注册会计师、税务师、经济师等多个金融从业资格考试的10个大类和36个小类的测试。

 

  1. DISC-Law-Eval

        涵盖一系列基于中国法律标准化考试和知识竞赛的问题,根据问题的复杂性和推理难度,分为困难、中等、简单三个层次。

 

二、大语言模型的对话能力评测

(一)测评任务

  1. 生活闲聊类评测任务
  2. 方法论指导类评测任务
  3. 特殊指令遵循类评测任务
  4. 语言理解类评测任务
  5. 常识百科类评测任务
  6. 数学计算类评测任务
  7. 逻辑推理类评测任务
  8. 摘要生成类评测任务
  9. 文案创作类评测任务
  10. 翻译类评测任务
  11. 代码类评测任务
  12. 中国特色类评测任务
  13. 对轮对话类评测任务

 

(二)评测集的构建标准

    首先,评测集的构建要在每个任务类别下,充分考虑语气和表述方式的多样性。

    其次,设计问题时应加入多种限制条件以更精准地区分模型性能的高低。

    第三,尽可能贴近实际应用场景。

    第四,任务难度要具有多样性。

 

三、大语音模型的安全性评测

(一)评测任务

  1. 政治敏感类问题
  2. 违法犯罪类问题
  3. 歧视偏见类问题
  4. 道德与伦理类问题
  5. 指令攻击类问题

最新回复

怎么评测或阻止大模型“胡说八道”呢,看评测也不行   详情 回复 发表于 2024-10-13 09:15
点赞 关注

回复
举报

6809

帖子

0

TA的资源

五彩晶圆(高级)

沙发
 

怎么评测或阻止大模型“胡说八道”呢,看评测也不行

点评

女儿遇到黄毛了肯定完蛋,好在模型可以重构重新训练,除此以外没有其他办法,你不知道喂错什么了,只能重新训练,因为喂下去它和其他训练集已经构合叠加了,分离不出来了,只能重新调  详情 回复 发表于 2024-10-24 13:50
 
 

回复

89

帖子

0

TA的资源

一粒金砂(高级)

板凳
 
Jacktang 发表于 2024-10-13 09:15 怎么评测或阻止大模型“胡说八道”呢,看评测也不行

女儿遇到黄毛了肯定完蛋,好在模型可以重构重新训练,除此以外没有其他办法,你不知道喂错什么了,只能重新训练,因为喂下去它和其他训练集已经构合叠加了,分离不出来了,只能重新调

 
 
 

回复
您需要登录后才可以回帖 登录 | 注册

随便看看
查找数据手册?

EEWorld Datasheet 技术支持

相关文章 更多>>
关闭
站长推荐上一条 1/8 下一条

 
EEWorld订阅号

 
EEWorld服务号

 
汽车开发圈

About Us 关于我们 客户服务 联系方式 器件索引 网站地图 最新更新 手机版

站点相关: 国产芯 安防电子 汽车电子 手机便携 工业控制 家用电子 医疗电子 测试测量 网络通信 物联网

北京市海淀区中关村大街18号B座15层1530室 电话:(010)82350740 邮编:100190

电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2025 EEWORLD.com.cn, Inc. All rights reserved
快速回复 返回顶部 返回列表