- 2024-10-27
-
发表了日志:
《大语言模型——原理与工程实践》第二章 大语言模型基础技术
-
发表了主题帖:
《大语言模型——原理与工程实践》第二章 大语言模型基础技术
第二章 大语言模型基础技术
一、语言表示介绍
(一)词表示技术
文本一般由词序列组成,词通常是自然语言处理的最小单元。
词表示方式:
词的独热表示(One-hot)
词表V含有所有词,独热是每个长度为|V|的词向量。在该向量中,词表里的第i个词在第i维上被设置为1,其余维均为0。
词的分布式表示
利用大规模的未标注数据,根据每个词的上下文分布对其进行表示。
常规是先构造各类共现矩阵,例如词-文档矩阵和词-上下文矩阵;然后对共现矩阵进行降维操作从而得到词的表示,例如潜在语义索引(Latent Semantic Indexing,LSI)和隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)。
基于预训练的词嵌入表示
词嵌入表示同样将每个词映射为一个低维稠密的实值向量。
基于预训练的词嵌入表示是先在语料库中利用某种语言模型进行预训练,然后将其应用到下游任务,词向量是可以随着任务更新、调整的。
(二)分词技术
词表示技术的总体思路是用数值表示每个词单元。将文本划分为一系列更小、更具代表性的单元,这些单元被称为Token。将文本划为Token的过程称为分词,执行此操作的工具或算法称为Tokenizer。
从分割粒度的角度出发的Tokenizer算法和模型:
word粒度分词技术
词粒度分词技术,如Word2vec、GloVe。
优点:word粒度能够完整地保留语言的语义信息,尤其是包含特定文化、历史 或地区背景的词。
缺点:无法处理不在词表的词(Out Of Vocabulary,OOV)或者新增的词。因 为word粒度无法无限制地扩大词表。
character粒度分词技术
字符粒度分词技术
优点:
1、词表简洁
2、避免出现OOV
缺点:
1、损失语义的丰富性
2、增加输入序列的长度
subword粒度分词技术
子词粒度分词技术,是word粒度和character粒度之间的折中策略。
1、可有效处理OOV
2、允许学习词缀关系
3、具有灵活性
4、具有跨语言一致性
二、经典结构Transformer
Transformer是一种基于自主义力机制的编码器-解码器结构,其主要由编码器(Encoder)和解码器(Decoder)组成,每个部分都由多个堆叠在一起的相同层组成。自注意力机制使得Transformer有效避免了卷积神经网络中梯度消失和梯度爆炸的问题,且更加高效和易于并行化,因此Transformer能够处理更长的文本序列。同时,模型编码器可以使用更多的层,进而捕获输入序列中元素间更深的关系,并学习更加全面的感知上下文的向量表示。
三、预训练语言模型
基于Transformer结构预训练语音模型可以分为
1、Encoder-Only预训练语言模型
专注于捕获输入文本中的双向关系,为下游任务提供丰富的文本表示。
2、Decoder-Only预训练语言模型
更擅长生成任务。
3、Encoder-Decoder预训练语言模型
将各种自然语言处理任务统一为一个序列到序列的框架,提供更加通用和灵活的结构。
- 2024-10-24
-
回复了主题帖:
《大语言模型——原理与工程实践》第七章 大语言模型的测评
Jacktang 发表于 2024-10-13 09:15
怎么评测或阻止大模型“胡说八道”呢,看评测也不行
女儿遇到黄毛了肯定完蛋,好在模型可以重构重新训练,除此以外没有其他办法,你不知道喂错什么了,只能重新训练,因为喂下去它和其他训练集已经构合叠加了,分离不出来了,只能重新调
- 2024-10-11
-
发表了主题帖:
《大语言模型——原理与工程实践》第七章 大语言模型的测评
第七章 大语言模型的测评
一、基座语言模型的评测
(一)主要的评测维度和评测基准
1、语言建模能力
该维度主要关注模型在文本续写和基础语言建模方面的性能。
如:Lambada、the Pile、WikiText-103
2、综合知识能力
该维度主要关注常识、知识获取和逻辑推理等方面的综合性能。
常识推理(Commonsense Reasoning)类
如:PIQA、SIQA、ARC、CommonsenseQA
阅读理解(Reading Comprehension)类
如:Natural Questions、TriviaQA
世界知识(World Knowledge)类
如:MMLU、AGIEval、Big Bench Hard(BBH)、C-Eval、CMMLU
(三)数学计算能力
数学计算是大语言模型展现的核心能力之一,它涵盖了逻辑推理、数值理解和计算等方面,被认为是衡量模型区分度的关键维度。
如:GSM8K、MATH、MathQA
(四)代码能力
该维度主要评估模型在代码补全和代码生成方面的表现。
如:HumanEval、MBPP
(五)垂直领域
FinanceIQ
涵盖注册会计师、税务师、经济师等多个金融从业资格考试的10个大类和36个小类的测试。
DISC-Law-Eval
涵盖一系列基于中国法律标准化考试和知识竞赛的问题,根据问题的复杂性和推理难度,分为困难、中等、简单三个层次。
二、大语言模型的对话能力评测
(一)测评任务
生活闲聊类评测任务
方法论指导类评测任务
特殊指令遵循类评测任务
语言理解类评测任务
常识百科类评测任务
数学计算类评测任务
逻辑推理类评测任务
摘要生成类评测任务
文案创作类评测任务
翻译类评测任务
代码类评测任务
中国特色类评测任务
对轮对话类评测任务
(二)评测集的构建标准
首先,评测集的构建要在每个任务类别下,充分考虑语气和表述方式的多样性。
其次,设计问题时应加入多种限制条件以更精准地区分模型性能的高低。
第三,尽可能贴近实际应用场景。
第四,任务难度要具有多样性。
三、大语音模型的安全性评测
(一)评测任务
政治敏感类问题
违法犯罪类问题
歧视偏见类问题
道德与伦理类问题
指令攻击类问题
-
发表了主题帖:
《大语言模型——原理与工程实践》第五章 挖掘大预言模型潜能:有监督微调
第五章、挖掘大预言模型潜能:有监督微调
一、监督微调
(一)监督微调
预训练阶段常使用大规模无监督的数据使模型获得丰富的知识和语言表示,但是无监督预训练模型不能直接用于解决特定任务或与人交流,这需要收集或构建符合人类需求的有监督数据进一步微调模型,模型可以从优监督的数据中学到如何完成特定任务,以及如何根据上下文以人类习惯的对话风格进行交流。
(二)有监督微调的作用与意义
定制化任务适应能力
通过有监督微调,可以学习任务特定的语言规则和上下文,将通用的预训练语言模型转化为针对特定任务的定制化模型,从而提高模型在特定任务上的性能,并更好地适应特定的任务需求。
提升泛化能力
通过有监督微调,可以在微调过程中引入特定语言格式的指令样本,使模型能够学习到更广泛的语言规律和结构,从而显著提升语言模型在未见过任务上的泛化能力,使得语言模型能够更加灵活地适应不同领域和任务的需求。
减少数据需求
有监督微调可以在一定程度上减少对大模型标准数据的依赖,有监督微调利用预训练模型已经学习到的语言表达能力,通过有限的指令样本就能实现模型的调整和优化,从而减少训练所需的标注数据量,降低了训练成本和时间成本。
灵活性和可迁移性
有监督微调使语言模型具备灵活性和可迁移性,在微调中可以将已经在上一个任务上进行优化的模型迁移到其他相关任务上,从而快速实现模型的迭代扩展,从而节省训练时间和资源,并且在不同任务之间实现知识的共享和传递。
二、有监督微调的应用场景
问答系统
有监督微调可以用于提高模型对问题的理解和答案生成能力,模型可以更好地理解问题的语义和上下文,为用户提供准确和详细的答案。
信息检索和推荐系统
有监督微调可以用于改进信息检索和推荐系统的性能,模型可以更好地理解用户查询和文档内容,提高相关性和推荐准确性。
机器翻译
有监督微调可以用于改进机器翻译系统的性能,模型可以更好地在源语言和目标语言之间建立更准确和流程的语义映射,从而提高翻译质量和自然度。
文本生成和摘要
有监督微调可以用于生成更句逻辑和连贯性的文本,满足特定任务的要求。
文本分类和情感分析
有监督微调可以用于文本分类任务,模型可以学习到特定领域或情感的语义表示,从而提高分类和情感分析的准确性。
- 2024-10-10
-
发表了主题帖:
《大语言模型——原理与工程实践》第三章 预训练数据构建
第三章、预训练数据构建
一、数据来源
常用数据类别与来源
数据类型
来源示例
网页数据
CommonCrawl、C4
书籍数据
BookCorpus
百科数据
维基百科、百度百科
代码数据
The Stack
其他
学术论文、新闻、多语言、垂直领域数据
二、数据的预处理方式
从原始格式的数据中提取正文文本
对文本进行质量过滤,通常涉及规则过滤和模型过滤两方面
对多来源的文档进行去重操作
对数据集进行进一步净化
(一)正文提取
以纯文本的形式存储。
(二)质量过滤
规则过滤
(1)格式转换:针对文本进行字符级规范化,确保训练数据的格式统一。
(2)篇章级过滤:删除整体质量偏低的文档。
(3)行级过滤:针对文档进行更细致的筛选,针对文档中的特定片段进行删减。
模型过滤
使用机器学习分类器预期文本的质量,并根据预测得分筛选数据。
(三)文档去重
(1)文档内去重
1、行内去重:针对单行内容进行去重。
2、行间去重:删除整个文档中重复的行或者相似度比较高的行间片段。
(2)文档间去重
按全局去重,关注多个文档之间的整体相似性,而不是完全匹配。
(四)数据净化
(1)数据脱敏:核心目标是保护隐私的安全性并消除潜在的偏见,为大语言模型的安全应用提供保障。
(2)测试集分离:确保模型的泛化能力得到真实的评估。
三、难点和挑战
(一)数据收集的局限性
有限数据下的模型优化方向。
(二)数据质量评估的挑战
多样性:数据来源多样性,每种来源都有其独特的质量标准。
主观性:目前的质量过滤一启发式规则为主。
大规模:随着数据规模的增大,手动评估所有数据已经变得不切实际。
(三)自动生成数据的风险
自动生产的数据缺乏可靠的来源,可能包含非字面错误、偏见或者不准确的统计信息,低质量的数据加入训练集将会使得模型的上限逐渐变低。
-
发表了主题帖:
《拥抱AIGC》四、OpenAI与GPT
本帖最后由 皓月光兮非自明 于 2024-10-11 15:44 编辑
OpenAI
2015年,由Elon Musk、Sam Altman、Greg Brockman、Ilya Sutskever、Wojciech Zaremba、John Schulman成立的研究机构。专注研究深度强化学习(Deep Reindorcement Learning,DRL)
机构信条
To Ensure That Artificial General Intelligence Benefits All Of Humanity(确保通用人工智能造福全人类)
深度强化学习
深度强化学习DRL是强化学习(Reinforcement Learning,RL)与深度神经网络的结合,是机器学习的子集。
研究成果
时间
成果
描述
2016年
OpenAI Gym
开发测试强化学习的工具包
2018年
GPT - 1
生成式模型架构
2019年
GPT - 2
12亿参考参数
2020年
GPT - 3
1750亿参考参数
2023年
GPT - 4
通过图灵测试
2024年
GPT - 4o
部署跨文本、音视频推理模型
模型意义
节省训练时间、节约训练成本
便于不具备数据科学或者机器学习技能的工程师使用
模型背后的数学原理
RNN的结构(循环神经网络,Recurrent Neural Network)
RNN层在时间步骤t-n的输出,会被作为输入传递给下一个时间步骤。RNN的隐藏状态也会作为输入传递到下一个时间步骤,使得网络能够在输入序列的不同部分保存和传播。
x为t时间的输入
U为隐藏层h的加权输入
h为t时间的隐藏层
V为隐藏层h的加权输出
y为t时间的输出
RNN的主要局限
(1)梯度消失和梯度爆炸
在梯度反向传播过程中被多次相乘,导致梯度变得非常小或者非常大。
(2)有限的上下文
一次只能处理一个元素的输入序列,所以只能捕捉到有限的上下文。
(3)并行化方面均在困难
RNN本质是顺序执行,导致计算难以并行化,因此无法很好的利用GPU并行加速(图形处理单元,Graphical Processing Unit)
- 2024-09-23
-
加入了学习《ROS趣味入门教程》,观看 DWA规划器 DWA Planner ROS导航 Navigation
- 2024-09-12
-
加入了学习《ROS趣味入门教程》,观看 局部规划器 Local Planner ROS导航 Navigation
-
加入了学习《ROS趣味入门教程》,观看 恢复行为的参数设置 Recovery Behaviors ROS导航 Navigation
-
加入了学习《ROS趣味入门教程》,观看 恢复行为 Recovery Behavoirs ROS导航 Navigation
-
加入了学习《ROS趣味入门教程》,观看 Costmap 代价地图的参数设置 ROS导航系统 Navigation
-
加入了学习《ROS趣味入门教程》,观看 代价地图 Costmap 机器人操作系统 ROS 导航 Navigation.
-
加入了学习《ROS趣味入门教程》,观看 AMCL 蒙特卡洛定位算法 ROS 机器人操作系统 Navigation 导航
-
加入了学习《ROS趣味入门教程》,观看 全局规划器 Global Planner 机器人操作系统 ROS 导航 Navigation
-
加入了学习《ROS趣味入门教程》,观看 在ROS中使用move_base实现自主导航
-
加入了学习《ROS趣味入门教程》,观看 机器人操作系统ROS的导航架构
-
加入了学习《ROS趣味入门教程》,观看 如何在 ROS 中保存和加载地图
-
加入了学习《ROS趣味入门教程》,观看 Gmapping建图的参数设置
-
加入了学习《ROS趣味入门教程》,观看 使用launch文件启动Gmapping建图