什么是Attention机制?
Attention(注意力)机制最初源于人类视觉注意力的启发,用于让神经网络在处理信息时“聚焦”于最重要的部分。 它最早在机器翻译任务中被提出(Bahdanau et al., 2015),随后成为Transformer架构(Vaswani et al., 2017)的核心组件, 推动了BERT、GPT等大模型的发展。
核心思想:不是对所有输入一视同仁,而是根据上下文动态分配权重,突出关键信息。
Attention的发展历程
- 2014–2015年: RNN + Attention 在机器翻译中取得突破
- 2017年: Transformer 模型完全基于Attention,摒弃RNN/CNN
- 2018年至今: BERT、GPT、T5 等预训练模型广泛应用Self-Attention
- 多模态扩展: Vision Transformer (ViT) 将Attention用于图像识别
Self-Attention工作原理(简化版)
Self-Attention 让序列中的每个元素与其他所有元素进行交互,计算相关性得分。 其过程可概括为三步:
- 为每个词生成 Query (Q)、Key (K)、Value (V) 向量
- 计算 Q 与 K 的点积,得到注意力分数
- 用分数对 V 加权求和,得到输出表示
公式简化表示为:Attention(Q, K, V) = softmax(QKᵀ / √dₖ) V
为什么Attention如此重要?
- ✅ 解决长距离依赖问题(RNN难以处理)
- ✅ 支持高度并行化,训练速度更快
- ✅ 可解释性强:可视化注意力权重揭示模型关注点
- ✅ 通用性强:适用于文本、语音、图像、代码等多种模态
互动小演示:模拟Attention打分
点击下方按钮,查看一个简化的Attention权重分配示例: