《大规模语言模型：从理论到实践》-LLM生态应用阅读分享

ljg2np

《大规模语言模型：从理论到实践》-LLM生态应用阅读分享 [复制链接]

本文分享对书中“LLM应用”和“LLM评估”两章的阅读理解，介绍LLM生态应用的相关内容。

一、引言
LLM的生态规划与应用在LLM范式中处于下游生态，预训练大模型经过监督微调和强化学习后进入应用领域，书中第7、8章的内容围绕下游生态展开，包括：推理提升、综合应用框架、智能体、多模态大模型、模型评估等内容。

二、推理提升
面对下游LLM生态的多样性，需要对LLM作进一步的推理提升，主要包括推理规划和推理优化。
1、推理规划
LLM的推理能力，需要在下游通过引导和规划来获得提升，主要包括：思维链提示和由少至多提示两种方式。
（1）思维链提示方式将问题连同解题思路和步骤一起输入模型，使模型输出结果和中间步骤以提升模型的推理能力，如下图所示：

实验发现，使用具有良好问题和推理链的范例，可以大幅度提升推理效果；另外，问题和推理链示例的多样性对自动构建范例至关重要。
上海交通大学和Amazon Web Services 的研究人员提出了Auto-CoT方法，通过采集具有多样性的问题和生成推理链来构建范例。
（2）由少至多提示包含问题分解阶段和逐步解决子问题阶段，流程如下图所示：

2、推理优化
模型推理优化的成果主要涉及：键值缓存、迭代调度。
（1）fairseq提出了键值缓存（Key-value Cache），即在迭代中保存键和值，以便重复使用。整个推理过程划分为两个阶段，键值缓存在不同阶段的使用方式如图所示。

（2）针对作业调度进行优化：Orca提出了针对LLM的迭代级（Iteration-level）调度策略。在每个批次上只运行单个迭代，即每个作业仅生成一个词元。
推理优化框架：
（1）FastServe系统是由北京大学研究人员开发的，针对大语言模型的分布式推理服务进行了设计和优化。
（2）vLLM 是由加州大学伯克利分校开发，并在Chatbot Arena 和Vicuna Demo 上部署使用的大语言模型推理服务开源框架。
vLLM 利用PagedAttention 注意力算法，有效地管理注意力的键和值。

三、综合应用框架
ChatGPT的成功带动了下游基于LLM的应用开发，包括：API集成、交互逻辑、数据存储等。2022年以来，大量开源项目被推出，用来帮助开发者快速创建基于LLM的端到端应用程序或流程，LangChain框架是一种利用LLM的能力开发下游应用的开源框架，可以为各种LLM应用提供通用接口，简化开发难度。
LangChain提供了6种标准化、可扩展的接口模块：
（1）模型输入/输出，LLM交互的接口；
（2）数据连接，与应用程序交互的接口；
（3）链，用于复杂应用的调用序列；
（4）记忆，持久化应用程序状态；
（5）智能体，动作序列；
（6）回调，记录和流式传输中间步骤。
LangChain数据连接模块的基本框架，示意如下：

基于LangChain的知识库问答系统框架，见下图：

基于LLM的学习是通过监督微调和强化学习注入模型参数的机制，很难针对本地知识库的内容进行学习，通过LangChain框架，可以有效的融合本地知识库内容与LLM的知识问答能力。

四、智能体
早期的智能体基于强化学习实现，难以实现知识迁移，随着LLM的发展，基于LLM的智能体占据主导地位，引起广泛关注。
智能体主要包括：思考模块、记忆模块、工具调用模块。如下图所示：

智能体的应用实例有：辩论、角色扮演等。

五、多模态大模型
大规模预训练视觉模型在图像编码、视觉感知等方面也取得了显著的进步，促进了LLM和其他模态基础模型的交互融合。多模态大模型能够处理的任务类型大致分为如下几类，见下表：

书中介绍了以MiniGPT-4为代表的新兴多模态大模型应用。
MiniGPT-4 将来自预训练视觉编码器的图像信息与大语言模型的文本信息对齐，主要由三个部分构成：预训练的大语言模型Vicuna、预训练的视觉编码器，和一个单一的线性投影层。模型架构如下图所示：

下面是MiniGPT-4根据手绘草稿创建网页的示例：

六、模型评估
LLM在NLP研究和人们的日常生活中扮演着越来越重要的角色。LLM评估变得愈发关键，既需要在技术和任务层面对LLM的优劣加以判断，也需要在社会层面对LLM可能带来的潜在风险进行评估。
LLM与以往仅能完成单一任务的NLP算法不同，它通过单一模型执行多种复杂的NLP任务。因此，针对单一任务的NLP算法评估方法不适用于LLM的评估。
LLM的评估体系内容，包括：
1、知识与能力评估
知识与能力评估分为以任务为核心和以人为核心的评估。
HELM 根据ACL2022 会议的专题选择了经典任务。
领域是区分文本内容的重要维度，HELM 根据以下三个方面对领域进行进一步细分。
（1）What（文本属性）：文本的类型，涵盖主题和领域的差异，例如维基百科、新闻、社交媒体、科学论文、小说等。
（2）When（时间属性）：文本的创作时间，例如1980 年代、互联网之前、现代等。
（3）Who（人口属性）：创造数据的人或数据涉及的人，例如黑人/白人、男人/女人、儿童/老人等。
对LLM知识能力进行评估的另一种体系是考虑其解决人类所需要解决的任务的普适能力。NLP任务基准评估任务并不能完全代表人类的能力。
AGIEval评估方法采用以人为核心的标准化考试来评估LLM能力的。AGIEval 评估方法在以人为核心的评估体系设计中遵循两个基本原则：
（1）强调人类水平的认知任务。
（2）与现实世界场景相关。
AGIEval的目标是选择与人类认知和问题解决密切相关的任务，从而可以更有意义、更全面地评估基础模型的通用能力。
2、伦理与安全评估
LLM在训练时通常遵循3H 原则：
（1）帮助性（Helpfulness）模型应帮助用户解决问题；
（2）真实性（Honesty）模型不能捏造信息或误导用户；
（3）无害性（Harmless）模型不能对人或环境造成身体、心理或社会性的伤害。
3、垂直领域评估
主要包括复杂推理、环境交互、特定领域等。
（1）复杂推理（Complex Reasoning）是指理解和利用支持性证据或逻辑来得出结论或做出决策的能力。根据推理过程中涉及的证据和逻辑类型，按评估任务分为三个类别：知识推理、符号推理和数学推理。
（2）LLM具有从外部环境接收反馈并根据行为指令执行操作的能力，例如生成用自然语言描述的详细且高度逼真的行动计划，并用来操作智能体。为了测试这种能力，研究人员提出了多个具身人工智能（Embodied AI）环境和标准评估数据集，包括VirtualHome、ALFRED、BEHAVIOR、Voyager、GITM 等。
（3）LLM研究除在通用领域之外，也针对特定领域开展工作，如医疗、法律、财经等。针对特定领域，通常利用LLM完成有针对性的任务。例如，在法律人工智能（Legal Artificial Intelligence，LegalAI）领域，完成合同审查、判决预测、案例检索、法律文书阅读理解等任务。针对不同的领域任务，也需要构建不同的评估数据集和方法。
总体来说，由于LLM本身涉及语言模型训练、有监督微调、强化学习等多个阶段，每个阶段所产出的模型目标并不相同，因此，对于不同阶段的大语言模型也需要采用不同的评估体系和方法，并且对于不同阶段的模型应该独立进行评估。
此外，LLM评估同样也涉及数据集选择问题，如何构造LLM的评估数据集也是需要研究的问题。

七、结语

书中对LLM的下游生态规划和研究内容进行了讲解，指出为适配下游应用，在下游各个环节要对LLM作进一步的推理和优化；介绍了下游开发工具LangChain框架的核心模块并搭建了知识库问答系统；介绍了多模态大模型应用的融合发展态势，讲解了智能体的构成及以MiniGPT-4为代表的新兴多模态大模型应用；对LLM评估体系用一章的幅度进行了系统介绍。