本帖最后由 Aclicee 于 2024-12-7 12:28 编辑
我们于在11月24日收到的《大语言模型开发:用开源模型开发本地系统》一书,书籍包装完整,印刷清晰,装帧精美,给人以良好的第一印象。
按照既定计划,我们今天向各位老师汇报对书本第一部分的阅读报告,这部分内容聚焦于Transformer模型的详细构成。由于时间限制,我们尚未将Transformer模型应用于具体任务的操作实践,敬请期待我们在后续报告中对实际操作的深入探讨。
在深入剖析Transformer模型之前,本书对Pytorch和深度学习的基础方法进行了全面的介绍。鉴于我们在之前的《人工智能实践教程》测评中已经详细汇报过这部分内容,并且论坛中已有众多专家老师的宝贵分享,我们将不再对此进行重复讨论。
Transformer架构以其独特的设计在自然语言处理领域占据着举足轻重的地位。一个典型的Transformer模型由以下几个核心部分组成:自注意力机制、多头自注意力、位置编码、前馈神经网络、归一化层以及残差连接。接下来的报告中,我们将按照Transformer的工作流程,逐一深入学习这些组成部分。
在这些组件中,位置编码和注意力机制尤为关键。位置编码的引入是为了使Transformer能够理解输入序列中各元素之间的前后关系,而注意力机制则赋予模型聚焦于更为重要的信息维度的能力,从而深刻理解输入数据的相关性和影响。这两个模块是Transformer模型能够准确捕捉序列特征并进行有效预测的关键。
1. 词嵌入
词嵌入是自然语言处理领域中的一项关键技术,它通过无监督学习算法从大规模文本数据中提取词汇的向量表示。这种表示能够捕捉词汇之间的语义和句法关系,为后续的模型训练和语言理解任务提供基础。
在Transformer模型中,词嵌入是与模型参数一同训练得到的,这样可以在特定任务的上下文中优化词嵌入,以更好地适应任务需求。
Transformer模型的词嵌入由两部分组成:标记嵌入(Token Embeddings)和位置编码(Positional Encoding)。
Transformer模型中的位置编码通常采用正弦和余弦函数的组合来实现。这种方法利用了三角函数的周期性特性,为每个位置生成唯一的编码,从而蕴含位置信息。具体公式如下:
其中,pos表示位置, i表示维度,d_model表示模型的维度。这种编码方式确保了不同位置的编码向量具有不同的值,且随着位置的变化,编码向量呈现出周期性变化。
以下是实现正弦位置编码的参考代码:
import torch
import torch.nn as nn
def precompute_freq_cis(dim, seqlen, theta=10000.0):
freqs = 1.0 / (theta**(torch.arange(0, dim, 2)[:(dim//2)].float() / dim))
t = torch.arange(seqlen)
freqs = torch.outer(t, freqs).float()
return freqs
embedding_dim = 8
sequence_length = 5
embeddings = torch.randn(sequence_length * embedding_dim).view(sequence_length, embedding_dim)
freqs = precompute_freq_cis(embedding_dim, sequence_length)
pe = torch.zeros((sequence_length, embedding_dim))
pe[:,0::2] = torch.sin(freqs)
pe[:,1::2] = torch.cos(freqs)
pe_out = token_embedding + pe
这段代码首先创建了一个位置编码矩阵,然后通过正弦和余弦函数为每个位置生成了一个唯一的编码。这样,即使是相同的词,在句子中不同位置的编码也会有所不同,从而帮助模型理解词序的重要性。
2. 自注意力机制
自注意力机制(Self-Attention Mechanism),也称为内部注意力机制,是一种允许输入序列中的每个元素根据其与其他元素的相似度动态分配权重的技术。这种机制对于处理长序列数据尤为重要,因为它能够捕捉序列内部的长距离依赖关系,同时提高了模型的计算效率和可解释性。
自注意力机制的计算过程涉及以下步骤:
-
映射到查询(Q)、键(K)和值(V)向量:输入序列首先被映射到查询向量(Q)、键向量(K)和值向量(V)。这一步骤通常通过线性变换实现,其中权重是可学习的。
-
计算注意力分数:通过计算Q和K的点积来衡量序列中各元素之间的相似度,得到一个原始的注意力分数矩阵。
-
Softmax归一化:对原始注意力分数应用Softmax函数进行归一化,使得每一行的和为1。这一步骤确保了模型在计算加权平均时,能够根据元素间的相似度合理分配权重。
-
加权平均:将归一化后的注意力分数与值向量V相乘,得到加权平均的结果。这一步骤反映了每个输入元素根据其与其他元素的相似度关系,调整其嵌入表示。
公式可以表示为:
其中d_k表示值向量的维度。以下是自注意力机制的初步实现代码:
query_matrix = nn.Linear(embedding_dim, embedding_dim)
key_matrix = nn.Linear(embedding_dim, embedding_dim)
value_matrix = nn.Linear(embedding_dim, embedding_dim)
query_vectors = query_matrix(embeddings)
key_vectors = key_matrix(embeddings)
value_vectors = value_matrix(embeddings)
scores = torch.matmul(query_vectors, key_vectors.transpose(-2,-1)) / torch.sqrt(torch.tensor(embedding_dim, dtype=torch.float32))
softmax = nn.Softmax(dim=-1)
attention_weights = softmax(scores)
output = torch.matmul(attention_weights, value_vectors)
在实际应用中,Transformer模型通常采用多头自注意力机制,即同一输入序列被分割成多个Q、K、V的组合,每个“头”独立计算注意力,最后将所有头的输出拼接起来。这种设计增强了模型对不同子空间信息的捕捉能力。
num_attention_heads = 2
output_copy = output.clone()
m_output = torch.concat((output, output_copy), dim=1)
output_matrix = nn.Linear(num_attention_heads*embedding_dim, num_attention_heads*embedding_dim)
out_vectors = output_matrix(m_output)
print(embeddings)
print(out_vectors)
为了加速自注意力机制的计算过程,可以采用ColumnParallelLinear和RowParallelLinear等方法进行并行运算。这些技术通过将矩阵分解为多个较小的子矩阵,利用现代硬件的并行处理能力,从而提高计算效率。
3. 残差连接和归一化
在深度学习中,随着网络层数的增加,梯度消失或梯度爆炸的问题会导致训练深层网络变得困难。残差连接(Residual Connection)和层归一化(Layer Normalization)是解决这些问题的两种有效机制,它们在Transformer模型中发挥着重要作用。
残差连接最初在ResNet中提出,用于缓解深层网络训练中的梯度消失问题。其核心思想是将输入直接添加到网络中某一层的输出上,这样网络就可以学习到恒等映射(Identity Mapping),从而使得深层网络的训练变得更加容易。在Transformer中,残差连接用于将多头自注意力层或前馈网络层的输入与输出相加,然后再进行后续的层归一化和下一层的计算。
公式表示为:
其中,FeedForward(X)表示经过一层或多层网络的变换。
层归一化(Layer Normalization)是一种归一化技术,它对每个样本的每个层的输出进行归一化处理,使得输出的分布具有稳定的均值和方差。与批量归一化(Batch Normalization)不同,层归一化是在单个样本的层级上进行归一化,而不是在整个批次上。这使得层归一化对于小批量大小或非独立同分布的数据更加鲁棒。
层归一化的计算公式为:
其中,x_i是第个i样本的输出,μ_i和σ_i分别是该样本输出的均值和方差,ε是一个很小的常数,防止分母为零,γ和β是可学习的参数,用于对归一化后的输出进行缩放和平移。
在Transformer中,层归一化通常在残差连接之后进行,用于减少层与层之间数据分布的差异,加速训练过程,并保持数据的分布稳定性。
4. 前馈网络
前馈网络(Feed-Forward Network,FFN)是Transformer模型中的关键组件之一,主要用于对自注意力模块的输出进行深度特征提取和非线性变换。这一步骤对于模型学习和表示复杂的语义信息至关重要,能够有效提升模型的性能。
在Transformer中,每个前馈网络由两个线性变换组成,中间夹着一个ReLU激活函数。具体来说,前馈网络的结构可以描述为:
-
第一个线性变换:输入序列首先通过一个线性层进行变换,这个线性层通常具有较多的神经元,允许模型捕捉更丰富的特征表示。
-
非线性激活:第一个线性变换的输出通过ReLU激活函数进行非线性映射,这有助于引入非线性因素,使模型能够学习和表示更复杂的函数。
-
第二个线性变换:经过非线性激活的输出再通过另一个线性层进行变换,最终产生前馈网络的输出。
数学上,前馈网络的计算可以表示为:
其中,W_1和W_2是可学习的权重矩阵,b_1和b_2是可学习的偏置项,激活函数为ReLU。
前馈网络在Transformer中的作用主要体现在以下几个方面:
-
特征提取:通过线性变换,前馈网络能够从自注意力模块的输出中提取更深层次的特征表示。
-
非线性建模:ReLU激活函数的引入使得模型能够捕捉输入数据中的非线性关系,增强模型的表达能力。
-
性能提升:前馈网络通过增加模型的深度和复杂度,有助于提升模型在各种自然语言处理任务上的性能。
-
适应性:前馈网络的两个可学习的线性变换使得模型能够根据不同的任务和数据特性进行适应性调整。
5. 损失函数
在Transformer模型中,损失函数的设计对于衡量模型预测的准确性和优化模型参数至关重要。交叉熵损失函数因其在处理分类问题中的有效性而被广泛采用。
交叉熵损失函数衡量的是模型预测的概率分布与真实标签分布之间的差异。在自然语言处理任务中,如语言模型或机器翻译,交叉熵损失函数用于计算模型输出的 logits 与真实标签之间的差异。损失函数定义如下:
其中,p(x)是真实标签的分布(通常是 one-hot 编码),q(x)是模型预测的概率分布。
为了评估模型对未来信息的预测能力,特别是在自回归任务中,我们使用上三角掩码(Mask)来屏蔽未来位置的信息。这种掩码确保模型在预测当前位置的输出时,只能依赖于当前位置和之前位置的信息,而不能利用未来位置的信息。
在实际的前向计算中,上三角掩码应用于注意力分数矩阵,将未来位置的分数设置为一个非常大的负数(例如,通过添加一个负无穷大的值),这样在应用 Softmax 函数时,这些位置的权重将接近于零,从而不会对模型的预测产生影响。
掩码的应用不仅局限于自回归任务,它还可以用于处理填充(Padding)问题,确保模型在处理不同长度的序列时不会将填充位置的无意义信息纳入考虑。此外,掩码还可以用于防止在序列生成任务中的信息泄露,例如在机器翻译中,掩码可以确保模型在生成当前词时不会看到未来的词。
6. Llama2对原始Transformer架构的改造
Llama2模型是由Meta AI开发的一系列大型语言模型,旨在通过大规模数据训练和复杂的模型结构提升自然语言处理任务的性能。
Llama2模型对原始Transformer架构进行了一些改造,我们根据书中的介绍总结如下:
- 分组查询机制(Group Query Attention): Llama2模型在注意力机制上采用了分组查询机制。这种机制通过将输入序列分成若干组,并对每组进行独立的自注意力计算,提高了模型对序列中不同部分的关注度。同时,GQA技术还引入了查询(Query)的概念,通过将输入序列中的每个元素与查询进行匹配,使模型能够更好地理解输入序列中的重要信息。这种技术提高了Llama2模型在长序列处理任务中的性能和准确性。
-
预归一化(Pre-normalization): 与原始Transformer中的后置归一化不同,Llama2模型采用了前置层归一化策略,即在每个子层(自注意力层和前馈网络)的输入之前进行层归一化。这种策略有助于提高训练过程中的稳定性,尤其是在模型参数初始化阶段,可以降低梯度爆炸的风险。
-
SwiGLU激活函数: Llama2模型在前馈网络的激活函数上进行了创新,将原始的ReLU替换为SwiGLU。SwiGLU是基于Swish激活函数的GLU变体,它提供了更好的梯度流动和可能的性能提升。SwiGLU激活函数的公式为SwiGLU(x, W, V) = Swish_β(xW) ⊗ (xV),其中Swish_β(x) = x * sigmoid(βx),⊗为逐元素乘。SwiGLU的优势在于其处处可微的非线性特性,以及通过门机制控制信息通过的比例,来让模型自适应地选择哪些特征对预测下一个词有帮助。
这些改造使得Llama2模型在处理复杂的自然语言任务时,具有更高的效率和更好的性能。