Transformer是做什么的？长什么样子

huaqingyuanjian

Transformer是做什么的？长什么样子 [复制链接]

Transformer是做什么的

transformer是起源于 NLP领域，然后在图像、视频、声音等领域都得到了广泛应用的基础架构，是继MLP、CNN、RNN’后的公认的第四大基础模型结构。

而且在Transformer 的基础上，大家看到了 ChatGPT这个撬动全球热情的AIGC应用，随后就像是点燃了这个世界一样，只要是在创业或者是IT相关的公司，不谈ChatGPT，不谈AIGC，就像没有了未来。所以，Transformer是什么呢?在我看来它是一切，既是现在，也是未来，是现阶段能看到的构建 AGI 的最大可能。

Transformer长什么样子

在任何时候大家可以先记住下面这个结构，它是一个完整的Transformer。

Transformer解决了什么问题

Transformer主要解决了序列到序列（Seq2Seq）任务中的长序列依赖问题。

在自然语言处理等任务中，循环神经网络（RNN）及其变体如长短期记忆网络（LSTM）和门控循环单元（GRU）存在一些局限。例如，处理长序列时，信息在序列中传递会出现梯度消失或梯度爆炸的情况，导致难以有效学习长距离的依赖关系。

Transformer架构使用自注意力机制（Self - Attention）。这种机制能让模型直接计算序列中任意两个位置之间的关联程度，无论它们的距离有多远，使模型在处理长文本等序列数据时，可以更好地捕捉语义信息。比如在机器翻译任务中，Transformer能够更准确地理解句子的完整语义结构，生成更符合语境的翻译结果。它还被广泛应用于文本生成、情感分析等诸多自然语言处理任务中。

ljg2np

感觉transformer使用word2vec技术，把序列中的词元映射到了低维的向量空间，从而把对序列的分析用量化手段来处理变成了可能。

Transformer是做什么的？长什么样子 [复制链接]

最新回复

浏览过的版块