rtyu789 发表于 2024-9-27 00:20

《大语言模型:原理与工程实践》-有监督微调和强化对齐

本帖最后由 rtyu789 于 2024-9-27 00:21 编辑

# 一、有监督微调
在预训练中,通常使用大规模的无监督数据进行训练,但是这不能解决特定的任务,所以需要收集符合人类需求的有监督数据进一步微调模型
其中有监督微调的主要作用有:
1. 定制化任务适应能力
2. 提升泛化能力
3. 减少数据需求
4. 灵活性和可迁移性

对于使用有监督微调,主要的应用场景有以下类型:
1. 问答系统
2. 信息检索和推荐系统
3. 机器翻译
4. 文本生成和摘要
5. 文本分类和情感分析

# 二、指令微调方法

大语言模型中主要使用的微调方法有以下:
## 2.1 全参数微调(Full Fine-tuning,FFT)
描述:最直接的微调方法,模型中的所有参数都会被更新,会修改模型的权重
优点:充分适应新的任务
缺点:需要较多的计算资源
## 2.2 适配器微调
描述:在前馈层和多头注意力层之间添加了适配器层,只对适配器层进行参数优化,减少计算资源需求
优点:是一种易于扩展的解决方案,通过适配器层解决全微调和灾难性遗忘的问题

!(/data/attachment/forum/202409/27/001701siz5szyys0bg77tw.jpg.thumb.jpg?rand=4697.321736604745)


## 2.3 前缀微调(Prefix Tuning)
描述:在输入序列中添加提示作为前缀来引导模型完成特定任务
优点:只需要存储大语言模型以及已知任务特定前缀的副本,降低了计算和存储的开销

!(/data/attachment/forum/202409/27/001702rfpbzn6wczuiizv8.jpg.thumb.jpg?rand=1501.2538140463082)


## 2.4 提示微调(Prompt Tuning)
描述:轻量级的微调技术,仅仅修改提示词信息来提高生成质量
优点:主需要修改模型的输入,无需对整个模型进行微调,节约了时间和成本
## 2.5 低秩微调(LoRA)
描述:在原始大语言模型的权重旁添加一个旁路镜像降维和升维的操作,只需要要对降维和升维矩阵B进行训
优点:参数量小,对算力和存储的需求小;LoRA微调会生成单独的模块,可以和其他微调方法

!(/data/attachment/forum/202409/27/001703m80nkqpkta9oqlwk.jpg.thumb.jpg?rand=3798.066671405329)

接下来,文章还介绍了大模型的微调和推理策略,主要有以下几种:
1. 混合微调策略
2. 基于上下文学习的推理策略
3. 基于思维连的推理策略
!(/data/attachment/forum/202409/27/001840abaegmzt4bztkeep.jpg.thumb.jpg?rand=4167.769168931867)

但在大模型的微调中,也存在一些问题,比如会产生的模型的幻觉,大模型微调的幻觉问题的解决方式主要有以下几种:
1. 数据多样性
2. 对抗训练
3. 多任务学习
4. 模型结构设计


# 三、大语言模型强化对齐

# 3.1 强化学习的基础

强化学习可以看做是智能体和环境交互学习的过程,指的是智能体在面对环境的不同状态时,能采集合理的动作进行回应,以获得最大的回报

强化学习一般分为两个阶段:
1)智能体按照策略和环境进行多次交互,形成经验,这个过程被称为**探索**,这个阶段形成的策略称为行为策略
2)智能体按照某些算法从经验中学习,优化自己的策略,这个过程称为**学习**,这个阶段形成的策略称为目标策略

强化学习中主要有两类方法:
1. DQN方法
2. 策略梯度方法

# 3.2 大语言中的强化模型

大语言中的强化模型主要有以下几类:
1. (词令级别)Token-level强化模型
2. (句子级别)Sentence-level强化建模

# 3.2 RLHF算法

主要分为以下三个步骤
1. 预训练一个语言模型
!(/data/attachment/forum/202409/27/001837po0m15secomcg13d.jpg.thumb.jpg?rand=6203.436354484553)

2. 聚合问答数据并训练一个奖励模型
!(/data/attachment/forum/202409/27/001847dnadynzbzzsfnfnf.jpg.thumb.jpg?rand=2610.305206283954)

3. 用强化学习方式微调语言模型
!(/data/attachment/forum/202409/27/001847amnptpenthw9fshv.jpg.thumb.jpg?rand=8946.007756036504)



# 四、总结
在学习这两章内容的同时,自己也在互联网上进行了搜索,发现互联网上的确有很多扩展的资料,可能对某一方面的论述更加的充分,但是无法展现整个内容的全貌,但是从书籍中可以更加全貌的了解


# 参考资料
[大模型LLM-微调 Adapter Tuning](https://blog.csdn.net/leah126/article/details/140877949)
[大模型微调实战:基于 LLaMAFactory 通过 LoRA 微调修改模型自我认知](https://www.lixueduan.com/posts/ai/05-finetune-llamafactory)
(https://arxiv.org/abs/2106.09685)



Jacktang 发表于 2024-9-28 07:51

<p>太难了,需要较多的计算资源的</p>
页: [1]
查看完整版本: 《大语言模型:原理与工程实践》-有监督微调和强化对齐