AI 架构高级
Transformer 架构基础
Transformer 是每个现代 LLM 背后的神经网络架构。自注意力机制让模型权衡每个词对其他每个词的相关性——实现长程理解。
TL;DR: Transformer 是每个现代 LLM 背后的神经网络架构。自注意力机制让模型权衡每个词对其他每个词的相关性——实现长程理解。
Transformer 为何取代 RNN
在 Transformer(2017年)之前,语言模型使用循环神经网络逐个处理 token,在长序列中丢失上下文。Transformer 同时处理所有 token,并使用注意力机制直接关联远距离的词。
RNNattentionparallel processingcontext
自注意力:核心机制
"Attention is All You Need"(2017)引入了自注意力:对于每个 token,模型计算它应该"关注"其他每个 token 的程度。这创建了上下文敏感的表示——"bank"在"river"附近和"money"附近的含义不同。
self-attentionattention headscontext-sensitiveQ/K/V
规模是秘诀
GPT-3 有 1750 亿参数;GPT-4 估计在混合专家设计中约 1.8 万亿。更多参数 + 更多数据 + 更多计算 = 显著更好的性能。这个"扩展定律"解释了为什么 LLM 随规模增大而持续改善。
parametersscaling lawsmixture of expertstraining compute
这对 AI 工具意味着什么
上下文窗口限制来自注意力的二次方复杂度(更长 = 指数级更多计算)。模型质量差异(GPT-4 vs GPT-3.5)来自架构改进和训练规模。较小的模型(GPT-4o-mini)以一些质量换取速度和成本。