Skip to main content
AI 架构高级

Transformer 架构基础

Transformer 是每个现代 LLM 背后的神经网络架构。自注意力机制让模型权衡每个词对其他每个词的相关性——实现长程理解。

TL;DR: Transformer 是每个现代 LLM 背后的神经网络架构。自注意力机制让模型权衡每个词对其他每个词的相关性——实现长程理解。

Transformer 为何取代 RNN

在 Transformer(2017年)之前,语言模型使用循环神经网络逐个处理 token,在长序列中丢失上下文。Transformer 同时处理所有 token,并使用注意力机制直接关联远距离的词。

RNNattentionparallel processingcontext