AI 基础入门

上下文窗口详解——LLM 能"记住"什么

上下文窗口是 LLM 一次能看到的总文本量——包括你的输入和它的输出。理解它有助于避免"遗忘"问题，更有效地使用 AI 工具。

TL;DR: 上下文窗口是 LLM 一次能看到的总文本量——包括你的输入和它的输出。理解它有助于避免"遗忘"问题，更有效地使用 AI 工具。

什么是上下文窗口？

把上下文窗口想象成 AI 的工作记忆。模型在对话中能"看到"的一切——你的消息、它的回复、系统指令——都必须在这个以 token 为单位的窗口内。一旦超出，模型就会失去对早期内容的访问。

context windowtokensworking memorycontext limit

各模型的上下文窗口（2026年）

GPT-4o：128,000 个 token（约 96,000 个单词）。Claude 3.5 Sonnet：200,000 个 token（约 150,000 个单词）。Gemini 1.5 Pro：1,000,000 个 token（约 750,000 个单词）。Gemini 1.5 Flash：1,000,000 个 token。GPT-4o-mini：128,000 个 token。

128K200K1M context

"迷失在中间"问题

研究表明，LLM 在上下文窗口非常开始和非常末尾的内容上表现最好，而在埋藏在中间的内容上表现最差。这种"迷失在中间"效应意味着非常长的上下文并不总是比例地表现更好。

lost in the middleattention degradationposition bias

实用上下文窗口策略

将最重要的指令放在提示词的开头和结尾。对大型文档集使用 RAG，而不是将所有内容填入上下文。对全新话题开始新对话，而不是延伸旧对话。

深度阅读

📖Chatgpt Plus Vs Claude Pro→📖Claude Opus 4 6 Review→