350|1

164

帖子

0

TA的资源

一粒金砂(高级)

楼主
 

Transformer是做什么的?长什么样子 [复制链接]

Transformer是做什么的

transformer是起源于 NLP领域,然后在图像、视频、声音等领域都得到了广泛应用的基础架构,是继MLP、CNN、RNN’后的公认的第四大基础模型结构。

而且在Transformer 的基础上,大家看到了 ChatGPT这个撬动全球热情的AIGC应用,随后就像是点燃了这个世界一样,只要是在创业或者是IT相关的公司,不谈ChatGPT,不谈AIGC,就像没有了未来。所以,Transformer是什么呢?在我看来它是一切,既是现在,也是未来,是现阶段能看到的构建 AGI 的最大可能。

Transformer长什么样子

在任何时候大家可以先记住下面这个结构,它是一个完整的Transformer。

 

 

Transformer解决了什么问题

Transformer主要解决了序列到序列(Seq2Seq)任务中的长序列依赖问题。

在自然语言处理等任务中,循环神经网络(RNN)及其变体如长短期记忆网络(LSTM)和门控循环单元(GRU)存在一些局限。例如,处理长序列时,信息在序列中传递会出现梯度消失或梯度爆炸的情况,导致难以有效学习长距离的依赖关系。

Transformer架构使用自注意力机制(Self - Attention)。这种机制能让模型直接计算序列中任意两个位置之间的关联程度,无论它们的距离有多远,使模型在处理长文本等序列数据时,可以更好地捕捉语义信息。比如在机器翻译任务中,Transformer能够更准确地理解句子的完整语义结构,生成更符合语境的翻译结果。它还被广泛应用于文本生成、情感分析等诸多自然语言处理任务中。

最新回复

感觉transformer使用word2vec技术,把序列中的词元映射到了低维的向量空间,从而把对序列的分析用量化手段来处理变成了可能。   详情 回复 发表于 2024-12-9 19:40
点赞 关注
 
 

回复
举报

161

帖子

2

TA的资源

一粒金砂(高级)

沙发
 

感觉transformer使用word2vec技术,把序列中的词元映射到了低维的向量空间,从而把对序列的分析用量化手段来处理变成了可能。

 
 
 

回复
您需要登录后才可以回帖 登录 | 注册

随便看看
查找数据手册?

EEWorld Datasheet 技术支持

关闭
站长推荐上一条 1/7 下一条

 
EEWorld订阅号

 
EEWorld服务号

 
汽车开发圈

About Us 关于我们 客户服务 联系方式 器件索引 网站地图 最新更新 手机版

站点相关: 国产芯 安防电子 汽车电子 手机便携 工业控制 家用电子 医疗电子 测试测量 网络通信 物联网

北京市海淀区中关村大街18号B座15层1530室 电话:(010)82350740 邮编:100190

电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2024 EEWORLD.com.cn, Inc. All rights reserved
快速回复 返回顶部 返回列表