【Token系列】05 | 位置编码不是位置信息：Transformer如何建立语言顺序感？

2025/12/6 12:26:43 来源：https://blog.csdn.net/qingdaoyin/article/details/147530786 浏览: 次关键词：【Token系列】05 | 位置编码不是位置信息：Transformer如何建立语言顺序感？

05 | 位置编码不是位置信息：Transformer如何建立语言顺序感？

副标题：PE机制、绝对/相对位置编码的差异与演化

Transformer架构不具备天然的顺序处理能力，不像RNN或LSTM按时间步递进，而是一次性接收所有token向量并进行并行计算。

这会导致一个问题：

模型无法知道哪些词在前，哪些词在后。

例如：

位置编码是将序列中每个token的位置注入其embedding中的一种机制，确保模型能够处理顺序。

在原始Transformer中采用了基于正余弦函数的不可训练位置编码：

PE(pos, 2i)   = sin(pos / 10000^{2i / d_model})
PE(pos, 2i+1) = cos(pos / 10000^{2i / d_model})

类型	描述	特点
绝对位置编码	每个位置都有固定向量	可外推，但不关注词与词之间距离
相对位置编码	编码的是词与词之间的相对距离（如+2，-1）	贴近语言结构，表现更优，结构复杂

相对位置编码示例（来自Transformer-XL）：

虽然词语顺序不同，但“他”与“高兴”距离类似 → 相对位置编码可捕捉这种稳定性。

除了固定函数形式，也可使用 Learnable Position Embedding：

position_table = nn.Embedding(max_len, d_model)
position_embedding = position_table[position_id]

BERT、GPT-2 等模型初期版本采用该机制。

为提升长文本建模能力，近年出现了多种新型PE方式：

RoPE（Rotary Position Embedding） - LLaMA 使用
- 用复数旋转方式对embedding进行位移；
- 保持方向与幅度，支持无限长输入。
ALiBi（Attention with Linear Biases）
- 不再构造位置向量，而是在 attention 分数中直接加入距离 bias。
T5 relative bias
- 将不同距离编码为“距离桶”，并作为 attention bias 输入。