Attention Is All You Need - Page 1
Paper thumbnail

Attention Is All You Need

Authors: Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin
Affiliations: Google Brain, Google Research, University of Toronto
arXiv: 1706.03762 · June 2017
NIPS 2017

Attention Is All You Need

注意力机制如何重塑深度学习

Vaswani et al., 2017

序列建模的挑战

  • 长距离依赖难捕捉
  • 串行计算无法并行
  • 固定向量信息瓶颈

RNN 的瓶颈

x₁ x₂ x₃ x₄ h₁ h₂ h₃ h₄ 必须逐步等待

核心洞察

"完全基于注意力,抛弃循环与卷积"
--- Vaswani et al., 2017

Transformer 架构

Input Embedding Output Embedding Encoder Multi-Head Attn Feed Forward N=6 Decoder Masked Attn Cross Attn Feed Forward N=6 Linear + Softmax

缩放点积注意力

Step 1: 计算相似度

$$QK^T$$

Step 2: 缩放 + 归一化

$$\text{softmax}\!\left(\frac{QK^T}{\sqrt{d_k}}\right)$$

Step 3: 加权求和

$$\text{Attention}(Q,K,V) = \text{softmax}\!\left(\frac{QK^T}{\sqrt{d_k}}\right)V$$

注意力直觉

注意力可视化

注意力 = 动态聚焦

多头注意力

Q, K, V Head 1 Head 2 ... Head h Attention Attention Attention Concat + Linear Output

三种注意力用法

编码器自注意力

每个位置关注输入序列的所有位置

解码器掩码自注意力

每个位置只关注已生成的前序位置

交叉注意力

解码器关注编码器的全部输出

位置编码

偶数维度

$$PE_{(pos,2i)} = \sin\!\left(\frac{pos}{10000^{2i/d_{model}}}\right)$$

奇数维度

$$PE_{(pos,2i+1)} = \cos\!\left(\frac{pos}{10000^{2i/d_{model}}}\right)$$

正弦函数编码相对位置信息

编码器模块

Input Multi-Head Attention Add & Norm Feed Forward Network Add & Norm Output
28.4 BLEU
WMT 2014 EN-DE
+2 BLEU 超越前沿

Transformer Big · 213M 参数 · 训练 3.5 天

翻译结果对比

Model EN-DE BLEU EN-FR BLEU FLOPs
GNMT+RL 24.6 39.9 --
ConvS2S 25.2 40.5 --
Transformer Base 27.3 -- 3.3×10¹&sup8;
Transformer Big 28.4 41.8 2.3×10¹&sup9;

训练效率

传统模型

数周

大规模集群训练

Transformer Big

3.5 天

8×P100 GPU

消融实验

  • 注意力头数影响质量
  • 维度越大效果越好
  • 残差与归一化不可或缺

深远影响

2017 Transformer 2018 BERT GPT 2020 GPT-3 ViT 2022+ ChatGPT
130,000+
Google Scholar 引用
深度学习史上引用最高的论文之一

局限性

  • 自注意力 O(n²) 复杂度
  • 缺少递归归纳偏置
  • 固定位置编码有上限

未来展望

Transformer 高效注意力 Linear / Sparse 视觉 Transformer ViT / DeiT / Swin 多模态 GPT-4V / Gemini
Paper

核心贡献

  • 1. 纯注意力序列建模
  • 2. 多头注意力机制
  • 3. 完全并行化训练
  • 4. 机器翻译新基准

总结

架构创新

纯注意力,无循环卷积

训练高效

8×P100, 3.5 天达前沿

效果卓越

EN-DE 28.4, EN-FR 41.8

🌐

影响深远

开启大模型时代

谢谢

Attention Is All You Need

Vaswani et al., NIPS 2017