RAG 流水线的正确步骤顺序是什么？

索引 → 检索 → 生成. RAG 首先将文档索引到向量存储中，然后在查询时检索相关块，再将它们传递给 LLM 生成最终答案。

RAG 相比微调的核心优势是什么？

无需重训练即可更新知识. RAG 将知识外部存储在向量数据库中，因此可以在不进行昂贵的模型重训练的情况下添加、删除或更新文档。

向量相似度搜索. RAG 将文档和查询都转换为向量嵌入，然后使用余弦或点积相似度找到语义上最相关的块。

AI 架构进阶

RAG 将语言模型与检索系统结合，让 AI 在回答前先搜索知识库，从而减少幻觉并保持内容时效性。

TL;DR: RAG 将语言模型与检索系统结合，让 AI 在回答前先搜索知识库，从而减少幻觉并保持内容时效性。

标准 LLM 有固定的训练截止日期。问 ChatGPT 上周的新闻，它要么编造答案要么说不知道。RAG 通过在查询时检索真实文档来解决这个问题。

training cutoffconfabulationretrieval

1. 索引：文档被分块并转换为向量嵌入，存储在向量数据库中。2. 检索：你的问题也被嵌入，最相近的文档块被提取出来。3. 生成：LLM 收到你的问题 + 检索到的文档块作为上下文，然后生成答案。

vector embeddingsvector databasechunkscontext

微调将知识烘焙到模型权重中——昂贵且静态。RAG 将知识保持在外部且可更新。当数据频繁变化时使用 RAG；当需要模型稳定产生特定风格或格式时使用微调。

fine-tuningmodel weightsstaticupdatable

Perplexity.ai 在回答前使用 RAG 搜索网络。GitHub Copilot Enterprise 在公司私有代码库上使用 RAG。Notion AI 在你的工作区文档上使用 RAG。