AI 架构进阶
什么是 RAG(检索增强生成)?
RAG 将语言模型与检索系统结合,让 AI 在回答前先搜索知识库,从而减少幻觉并保持内容时效性。
TL;DR: RAG 将语言模型与检索系统结合,让 AI 在回答前先搜索知识库,从而减少幻觉并保持内容时效性。
RAG 解决的问题
标准 LLM 有固定的训练截止日期。问 ChatGPT 上周的新闻,它要么编造答案要么说不知道。RAG 通过在查询时检索真实文档来解决这个问题。
training cutoffconfabulationretrieval
RAG 工作原理(3 步)
1. 索引:文档被分块并转换为向量嵌入,存储在向量数据库中。2. 检索:你的问题也被嵌入,最相近的文档块被提取出来。3. 生成:LLM 收到你的问题 + 检索到的文档块作为上下文,然后生成答案。
vector embeddingsvector databasechunkscontext
RAG 与微调对比
微调将知识烘焙到模型权重中——昂贵且静态。RAG 将知识保持在外部且可更新。当数据频繁变化时使用 RAG;当需要模型稳定产生特定风格或格式时使用微调。
fine-tuningmodel weightsstaticupdatable
RAG 真实应用案例
Perplexity.ai 在回答前使用 RAG 搜索网络。GitHub Copilot Enterprise 在公司私有代码库上使用 RAG。Notion AI 在你的工作区文档上使用 RAG。