AI 基础入门
上下文窗口详解——LLM 能"记住"什么
上下文窗口是 LLM 一次能看到的总文本量——包括你的输入和它的输出。理解它有助于避免"遗忘"问题,更有效地使用 AI 工具。
TL;DR: 上下文窗口是 LLM 一次能看到的总文本量——包括你的输入和它的输出。理解它有助于避免"遗忘"问题,更有效地使用 AI 工具。
什么是上下文窗口?
把上下文窗口想象成 AI 的工作记忆。模型在对话中能"看到"的一切——你的消息、它的回复、系统指令——都必须在这个以 token 为单位的窗口内。一旦超出,模型就会失去对早期内容的访问。
context windowtokensworking memorycontext limit
各模型的上下文窗口(2026年)
GPT-4o:128,000 个 token(约 96,000 个单词)。Claude 3.5 Sonnet:200,000 个 token(约 150,000 个单词)。Gemini 1.5 Pro:1,000,000 个 token(约 750,000 个单词)。Gemini 1.5 Flash:1,000,000 个 token。GPT-4o-mini:128,000 个 token。
128K200K1M context
"迷失在中间"问题
研究表明,LLM 在上下文窗口非常开始和非常末尾的内容上表现最好,而在埋藏在中间的内容上表现最差。这种"迷失在中间"效应意味着非常长的上下文并不总是比例地表现更好。
lost in the middleattention degradationposition bias
实用上下文窗口策略
将最重要的指令放在提示词的开头和结尾。对大型文档集使用 RAG,而不是将所有内容填入上下文。对全新话题开始新对话,而不是延伸旧对话。