Attention Is All You Need

Authors: Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin

Affiliations: Google Brain, Google Research, University of Toronto

arXiv: 1706.03762 · June 2017

NIPS 2017

Transformer 论文精读

Attention Is All You Need

注意力机制如何重塑深度学习

Vaswani et al., 2017

背景

序列建模的挑战

长距离依赖难捕捉
串行计算无法并行
固定向量信息瓶颈

背景

RNN 的瓶颈

背景

核心洞察

"完全基于注意力，抛弃循环与卷积"
--- Vaswani et al., 2017

方法与创新

Transformer 架构

方法与创新

缩放点积注意力

Step 1: 计算相似度

$$QK^T$$

Step 2: 缩放 + 归一化

$$\text{softmax}\!\left(\frac{QK^T}{\sqrt{d_k}}\right)$$

Step 3: 加权求和

$$\text{Attention}(Q,K,V) = \text{softmax}\!\left(\frac{QK^T}{\sqrt{d_k}}\right)V$$

方法与创新

注意力直觉

注意力 = 动态聚焦

方法与创新

多头注意力

方法与创新

三种注意力用法

编码器自注意力

每个位置关注输入序列的所有位置

解码器掩码自注意力

每个位置只关注已生成的前序位置

交叉注意力

解码器关注编码器的全部输出

方法与创新

位置编码

偶数维度

$$PE_{(pos,2i)} = \sin\!\left(\frac{pos}{10000^{2i/d_{model}}}\right)$$

奇数维度

$$PE_{(pos,2i+1)} = \cos\!\left(\frac{pos}{10000^{2i/d_{model}}}\right)$$

正弦函数编码相对位置信息

方法与创新

编码器模块

实验结果

28.4 BLEU

WMT 2014 EN-DE

+2 BLEU 超越前沿

Transformer Big · 213M 参数 · 训练 3.5 天

实验结果

翻译结果对比

Model	EN-DE BLEU	EN-FR BLEU	FLOPs
GNMT+RL	24.6	39.9	--
ConvS2S	25.2	40.5	--
Transformer Base	27.3	--	3.3×10¹&sup8;
Transformer Big	28.4	41.8	2.3×10¹&sup9;

实验结果

训练效率

传统模型

数周

大规模集群训练

Transformer Big

3.5 天

8×P100 GPU

实验结果

消融实验

注意力头数影响质量
维度越大效果越好
残差与归一化不可或缺

影响与局限

深远影响

影响与局限

130,000+

Google Scholar 引用

深度学习史上引用最高的论文之一

影响与局限

局限性

自注意力 O(n²) 复杂度
缺少递归归纳偏置
固定位置编码有上限

影响与局限

未来展望

核心贡献

1. 纯注意力序列建模
2. 多头注意力机制
3. 完全并行化训练
4. 机器翻译新基准

总结

⚙

架构创新

纯注意力，无循环卷积

⚡

训练高效

8×P100, 3.5 天达前沿

★

效果卓越

EN-DE 28.4, EN-FR 41.8

🌐

影响深远

开启大模型时代

谢谢

Attention Is All You Need

Vaswani et al., NIPS 2017