欢迎来到尧图网

客户服务关于我们

您的位置：首页 > 财经 > 创投人物 > 如何理解transformer中的残差连接

如何理解transformer中的残差连接

2025/5/23 13:14:02 来源：https://blog.csdn.net/zmhzmhzm/article/details/147395902 浏览: 次关键词：如何理解transformer中的残差连接

残差连接（Residual Connection）是Transformer中的一个关键设计，用于解决深层网络训练时的梯度消失问题，同时帮助模型保留原始输入信息。它的操作非常简单，但效果显著。以下是通俗易懂的解释：

1. 残差连接的核心操作

一句话总结：
把当前层的输入直接加到当前层的输出上，形成“输入 + 输出”的短路路径。

数学公式：
$\text{输出} = \text{输入} \ x \ + \ \text{当前层的变换}(x)$
（其中“当前层的变换”可能是自注意力、交叉注意力或前馈网络）

2. 具体步骤（以解码器的自注意力层为例）

假设输入是一个向量 ( x )（已包含词嵌入和位置编码），经过自注意力层后的输出为 $\text{SelfAttn}(x)$

保留原始输入：将输入 ( x ) 复制一份。
叠加变换结果：将自注意力的输出 $\text{SelfAttn}(x)$ 与原始输入 ( x ) 逐元素相加。
$\text{残差输出} = x + \text{SelfAttn}(x)$
层归一化：对相加后的结果做归一化（LayerNorm）。
$\text{最终输出} = \text{LayerNorm}(x + \text{SelfAttn}(x))$

3. 直观类比

想象你正在修改一篇文章：

原始输入（x）：初稿的文本。
当前层的变换（SelfAttn(x)）：你写的修改建议（比如添加一些描述）。
残差连接：把修改建议直接“贴”到初稿上（初稿 + 修改），而不是完全重写。
层归一化：调整合并后的格式，使其更规范。

关键点：无论你修改多少遍，初稿的内容始终保留，避免彻底丢失原始信息。

4. 为什么需要残差连接？

解决的问题

梯度消失：深层网络中，反向传播时梯度可能逐层衰减，导致浅层参数无法更新。残差连接提供了直通路径，让梯度能直接回传。
信息丢失：传统网络可能过度修改输入，残差连接强制模型只学习“需要补充或调整的部分”（即残差）。

对比实验

不带残差连接：Transformer在6层以上时，训练损失难以收敛。
带残差连接：即使堆叠100层，模型仍能稳定训练（如GPT-3）。

5. 代码示例（PyTorch风格）

import torch
import torch.nn as nnclass DecoderLayer(nn.Module):def __init__(self, d_model):super().__init__()self.self_attn = MultiHeadAttention(d_model)  # 自注意力层self.norm = nn.LayerNorm(d_model)           # 层归一化def forward(self, x):# 残差连接：输入x + 自注意力输出residual = xx = self.self_attn(x)x = self.norm(residual + x)  # 先相加，再归一化return x

6. 残差连接的变体

经典残差：输出 = 输入 + 变换(输入)（Transformer采用）。
预激活残差：先归一化再变换（如ResNet v2）。
自适应残差：动态调整残差权重（如门控机制）。

7. 总结

操作：输入与输出直接相加。
目的：保留原始信息，缓解梯度消失，稳定深层训练。
效果：让Transformer可以堆叠数十层甚至上百层，仍能高效学习。

类比记忆：
残差连接就像“写论文时保留初稿，每次修改只添加批注”——既避免推倒重来，又能逐步完善。

版权声明:

本网仅为发布的内容提供存储空间，不对发表、转载的内容提供任何形式的保证。凡本网注明“来源：XXX网络”的作品，均转载自其它媒体，著作权归作者所有，商业转载请联系作者获得授权，非商业转载请注明出处。

我们尊重并感谢每一位作者，均已注明文章来源和作者。如因作品内容、版权或其它问题，请及时与我们联系，联系邮箱：809451989@qq.com，投稿邮箱：809451989@qq.com

相关资讯

热文排行

最新新闻

推荐新闻

热搜词