Question 1

Transformer 架构解决了 RNN 的什么问题？

Accepted Answer

RNN 按顺序处理 token，难以处理长程依赖. RNN 一次处理一个 token，并存在"梯度消失"问题，使其难以记住长序列中较早的上下文。Transformer 通过注意力并行处理所有 token。

Question 2

为什么将模型的上下文窗口翻倍会显著增加计算成本？

Accepted Answer

自注意力随序列长度呈二次方扩展. 每个 token 必须关注其他每个 token。如果将 token 翻倍，注意力计算次数就会平方——2 倍 token → 4 倍计算。

Question 3

"She went to the river bank to fish"——自注意力如何帮助模型理解"bank"？

Accepted Answer

关注"river"和"fish"等附近的词来确定上下文适当的含义. 自注意力让"bank"强烈关注"river"和"fish"，对这些 token 给予高权重。这创建了一个上下文敏感的表示，正确映射到"河岸"而不是"银行"。

Transformer 架构基础

深度阅读