3558|2

89

帖子

0

TA的资源

一粒金砂(高级)

楼主
 

《大语言模型——原理与工程实践》第二章 大语言模型基础技术 [复制链接]

 

第二章 大语言模型基础技术

一、语言表示介绍

    (一)词表示技术

        文本一般由词序列组成,词通常是自然语言处理的最小单元。

 

        词表示方式:

  1. 词的独热表示(One-hot)

        词表V含有所有词,独热是每个长度为|V|的词向量。在该向量中,词表里的第i个词在第i维上被设置为1,其余维均为0。

  1. 词的分布式表示

        利用大规模的未标注数据,根据每个词的上下文分布对其进行表示。

        常规是先构造各类共现矩阵,例如词-文档矩阵和词-上下文矩阵;然后对共现矩阵进行降维操作从而得到词的表示,例如潜在语义索引(Latent Semantic Indexing,LSI)和隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)。

  1. 基于预训练的词嵌入表示

        词嵌入表示同样将每个词映射为一个低维稠密的实值向量。

        基于预训练的词嵌入表示是先在语料库中利用某种语言模型进行预训练,然后将其应用到下游任务,词向量是可以随着任务更新、调整的。

 

    (二)分词技术

        词表示技术的总体思路是用数值表示每个词单元。将文本划分为一系列更小、更具代表性的单元,这些单元被称为Token。将文本划为Token的过程称为分词,执行此操作的工具或算法称为Tokenizer。

 

        从分割粒度的角度出发的Tokenizer算法和模型:

  1. word粒度分词技术

        词粒度分词技术,如Word2vec、GloVe。

        优点:word粒度能够完整地保留语言的语义信息,尤其是包含特定文化、历史 或地区背景的词。

        缺点:无法处理不在词表的词(Out Of Vocabulary,OOV)或者新增的词。因 为word粒度无法无限制地扩大词表。

  1. character粒度分词技术

        字符粒度分词技术

        优点:

            1、词表简洁

            2、避免出现OOV

        缺点:

            1、损失语义的丰富性

            2、增加输入序列的长度

  1. subword粒度分词技术

        子词粒度分词技术,是word粒度和character粒度之间的折中策略。

        1、可有效处理OOV

        2、允许学习词缀关系

        3、具有灵活性

        4、具有跨语言一致性

 

二、经典结构Transformer

    Transformer是一种基于自主义力机制的编码器-解码器结构,其主要由编码器(Encoder)和解码器(Decoder)组成,每个部分都由多个堆叠在一起的相同层组成。自注意力机制使得Transformer有效避免了卷积神经网络中梯度消失和梯度爆炸的问题,且更加高效和易于并行化,因此Transformer能够处理更长的文本序列。同时,模型编码器可以使用更多的层,进而捕获输入序列中元素间更深的关系,并学习更加全面的感知上下文的向量表示。

 

​​​​​​​三、预训练语言模型

    基于Transformer结构预训练语音模型可以分为

    1、Encoder-Only预训练语言模型

        专注于捕获输入文本中的双向关系,为下游任务提供丰富的文本表示。

    2、Decoder-Only预训练语言模型

        更擅长生成任务。

    3、Encoder-Decoder预训练语言模型

        将各种自然语言处理任务统一为一个序列到序列的框架,提供更加通用和灵活的结构。                                                              

最新回复

谢谢分享,我找原书读一读。   详情 回复 发表于 2024-10-28 15:58
点赞(1) 关注(1)

回复
举报

6822

帖子

0

TA的资源

五彩晶圆(高级)

沙发
 

打语言模型的分词技术是个什么技术

 
 

回复

77

帖子

0

TA的资源

一粒金砂(中级)

板凳
 

谢谢分享,我找原书读一读。

 
 
 

回复
您需要登录后才可以回帖 登录 | 注册

随便看看
查找数据手册?

EEWorld Datasheet 技术支持

相关文章 更多>>
关闭
站长推荐上一条 1/7 下一条

 
EEWorld订阅号

 
EEWorld服务号

 
汽车开发圈

About Us 关于我们 客户服务 联系方式 器件索引 网站地图 最新更新 手机版

站点相关: 国产芯 安防电子 汽车电子 手机便携 工业控制 家用电子 医疗电子 测试测量 网络通信 物联网

北京市海淀区中关村大街18号B座15层1530室 电话:(010)82350740 邮编:100190

电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2025 EEWORLD.com.cn, Inc. All rights reserved
快速回复 返回顶部 返回列表