大规模语言模型从理论到实践目录和个人总体观后感第六章第八章
[复制链接]
## 第六章强化学习
强化学习是将模型输出文本作为一个整体进行考 其优化目标是使模型生成高质量回复。此外,强化学习方法不依赖于人工编写的高质量回复。而是根据指令生成回复,奖励模型针对所生成的回复给出质量判断。模型也可以生成多个答案,同时模型对输出文本质量进行排序。模型通过生成回复并接收反馈进行学习。强化学习方法更适合生成式任务,也是大语言模型构建中必不可少的关键步骤。本章介绍基于人类反馈的强化学习基础概念、奖励模型及近端策略优化方法,并在此基础
强化学习(ReinforcementLearning,RL)研究的是智能体与环境交互的问题,其目标是使智能体在复杂且不确定的环境中最大化奖励。强化学习基本框架主要由两部分组成:智能体和环境。在强化学习过程中,智能体与环境不断交互。智能体在环境中获取某个状态后,会根据该状态输出一个动作,也称为决策(Decision)。动作会在环境中执行,环境会根据智能体采取的动作,给出下一个状态及当前动作带来的奖励。智能体的目标就是尽可能多地从环境中获取奖励。本章讲解了强化学习的基本概念、强化学习与有监督学习的区别,以及在大语言模 型中基于人类反馈的强化学习流程。奖励模型在强化学习中起着至关重要的作用,它决定了智能体如何从与环境的交互中学习并优化策略,以实现预定的任务目标。数据收集、模型训练和开源数据三个方面介绍大语言型奖励模型的实现。
## 第七章大语言模型应用
这章干货太多,代码太多,新知识点太多,我看不太懂。和前面的还是有不小的跳跃性。在此简述概括一下。
语言模型在推理规划、综合应用框架、智能代理及多模态大模型等方面的 有重要意义和不可估量用处。
推理规划方面,随着语言模型规模的不断扩大其也具备了丰富的知识和强大的语境学习能力。然而,仅通过扩大语言模型的规模,并不能显著提升推理(Reasoning)能力,如常识推理、逻辑推理、数 学推理等。通过示例(Demonstrations)或者明确指导模型在面对问题时如何逐步思考,促使模 型在得出最终答案之前生成中间的推理步骤,可以显著提升其在推理任务上的表现。这种方法被 称为**思维链提示**(Chain-of-ThoughtPrompting)。同样地,面对复杂任务或问题时,大语言模型可以展现出良好的规划(Planning)能力。通过引导模型首先将复杂的问题分解为多个较为简单的子问题,然后逐一解决这些子问题,可使模型得出最终解答,这种策略被称为**由少至多提示**
**综合应用框架**则是实现数据感知和环境交互。
实现通用类人智能都是人类不懈追求的目标,智能代理也称为智能体,也是在该背景下被提出的。早期的智能代理主要是基于强化学习实现的,不仅计算成本高,需要用大量的数据训练,而且难以实现知识迁移。随着大语言模型的发展,**智能代理**结合大语言模型实现了巨
大突破,基于大语言模型的智能代理开始占据主导地位。智能代理核心模块组成思考模块、记忆模块、工具调用模块。
多模态大模型方面大规模预训练视觉模型在图像编码、视觉感知等方面也取得了显著的进步,促进了大语言模型和其他模态基础模型的交互融合。探究多模态数据的处理与生成,也是当前的研究热点。24年3月14日,GPT-4的推出增加了对视觉模态输入的支持,这意味着它能够理解图像并进行相应的自然语言生成.
语言模型的推理过程遵循自回归模式(AutoregressivePattern)。例如,针对输入“复旦大学位”,模型预测“于”的概率比“置”的概率高。因此,在第一次迭代后,“于”字被附加到原始输入中,并将“复旦大学位于”作为一个新的整体输入模型以生成下一个词元。这个生成过程持续进行,直到生成表示序列结束的<eos>标志或达到预定义的最大输出长度为止。
大语言模型的推理过程与其他深度学习模型(如BERT、ResNet等)非常不同,BERT的执行时
间通常是确定且高度可预测的。但是,在大语言模型的推理过程中,虽然每次迭代执行的时间仍然具有确定性,但迭代次数(输出长度)是未知的,这使得一个大语言模型推理任务的总执行时间是不可预测的。
## 第八章大语言模型评估
如何评估大语言模型我们需要在技术和任务层面对大语言模型之间的优劣加以判断,也需要在社会层面对大语言模型可能带来的潜在风险进行评估。大语言模型与以往仅能完成单一任务的自然语言处理算法不同,它可以通过单一模型执行多种复杂的自然语言处理任务。因此,之前针对单一任务的自然语言处理算法评估方法并不适用于大语言模型的评估。如何构建大语言模型评估体系和评估方法是一个重要的研究问题。
大语言模型评估的基本概念和难点是基石,并在此基础上从大语言模型评估体系、
大语言模型评估方法,以及大语言模型评估实践三个方面分别展开介绍。
模型评估(ModelEvaluation),也称模型评价,目标是评估模型在未见过的数据(Unseen
Data)上的泛化能力和预测准确性,以便更好地了解模型在真实场景中的表现。模型评估是在模 型开发完成之后的一个必不可少的步骤。目前,针对单一任务的自然语言处理算法,通常需要构造独立于训练数据的评估数据集,使用合适的评估函数对模型在实际应用中的效果进行预测。由于并不能完整了解数据的真实分布,因此简单地采用与训练数据独立同分布的方法构造的评估数据集,在很多情况下并不能完整地反映模型的真实情况。如图8.1所示,针对相同的训练数据,采用不同的算法或者超参数得到4个不同的分类器,可以看到,如果不能获取数据的真实分布,或者测试数据采样不够充分,分类器在真实使用中的效果就不能很好地通过上述方法进行评估。在模型评估的过程中,通常会使用一系列评估指标(EvaluationMetrics)来衡量模型的表现,如准确率、精确率、召回率、F1分数、ROC曲线和AUC等。这些指标根据具体的任务和应用场景可能会有所不同。例如,在分类任务中,常用的评估指标包括准确率、精确率、召回率、F1分数等;而在回归任务中,常用的评估指标包括均方误差和平均绝对误差等。但是对于文本生成类任务(例如机器翻译、文本摘要等),自动评估仍然是亟待解决的问题。
传统的自然语言处理算法通常需要针对不同任务独立设计和训练。而大语言模型则不同,它
采用单一模型,却能够执行多种复杂的自然语言处理任务。例如,同一个大语言模型可以用于机器翻译、文本摘要、情感分析、对话生成等多个任务。因此,在大语言模型评估中,首先需要解决的就是构建评估体系的问题。从整体上可以将大语言模型评估分为三个大的方面:知识与能力、伦理与安全,以及垂直领域评估。
在大语言模型评估体系和数据集构建的基础上,评估方法需要解决如何评估的问题,包括采
用哪些评估指标,以及如何进行评估等。。
大语言模型的评估伴随着大语言模型研究同步飞速发展,大量针对不同任务、采用不同指标
和方法的大语言模型评估不断涌现。本章前面几节分别针对大语言模型评估体系、评估指标和评 估方法从不同方面介绍了当前大语言模型评估面临的问题,试图回答要从哪些方面评估大语言模型,以及如何评估大语言模型这两个核心问题。针对大语言模型构建不同阶段所产生的模型能力的不同,本节将分别介绍当前常见的针对基础模型、SFT模型和RL模型的整体评估方案。本人接触不到,暂不说明。
|