注意力机制如何重塑深度学习
Vaswani et al., 2017
"完全基于注意力,抛弃循环与卷积"--- Vaswani et al., 2017
$$QK^T$$
$$\text{softmax}\!\left(\frac{QK^T}{\sqrt{d_k}}\right)$$
$$\text{Attention}(Q,K,V) = \text{softmax}\!\left(\frac{QK^T}{\sqrt{d_k}}\right)V$$
注意力 = 动态聚焦
每个位置关注输入序列的所有位置
每个位置只关注已生成的前序位置
解码器关注编码器的全部输出
$$PE_{(pos,2i)} = \sin\!\left(\frac{pos}{10000^{2i/d_{model}}}\right)$$
$$PE_{(pos,2i+1)} = \cos\!\left(\frac{pos}{10000^{2i/d_{model}}}\right)$$
正弦函数编码相对位置信息
Transformer Big · 213M 参数 · 训练 3.5 天
| Model | EN-DE BLEU | EN-FR BLEU | FLOPs |
|---|---|---|---|
| GNMT+RL | 24.6 | 39.9 | -- |
| ConvS2S | 25.2 | 40.5 | -- |
| Transformer Base | 27.3 | -- | 3.3×10¹&sup8; |
| Transformer Big | 28.4 | 41.8 | 2.3×10¹&sup9; |
大规模集群训练
8×P100 GPU
纯注意力,无循环卷积
8×P100, 3.5 天达前沿
EN-DE 28.4, EN-FR 41.8
开启大模型时代
Attention Is All You Need
Vaswani et al., NIPS 2017