AI 基础进阶
什么是向量嵌入(Embeddings)?
嵌入将文本、图像或音频转换为捕捉语义含义的数字列表。它们驱动语义搜索、推荐系统和 RAG 系统。
TL;DR: 嵌入将文本、图像或音频转换为捕捉语义含义的数字列表。它们驱动语义搜索、推荐系统和 RAG 系统。
核心概念:用数字表达含义
嵌入模型将任何文本转换为向量——数百或数千个浮点数的列表。相似的含义产生相似的向量。"猫"和"小猫"在向量空间中很近;"猫"和"民主"则相距很远。
vectorsemantic similaritycosine similarityembedding model
相似度搜索的工作原理
找到与查询相似的文档:嵌入查询 → 使用余弦相似度将其与所有文档嵌入进行比较 → 返回最近的前 K 个匹配项。这比关键词匹配更快且更具语义性。
cosine similaritysemantic searchnearest neighborvector database
嵌入 vs LLM
嵌入模型(text-embedding-3-large、sentence-transformers)只进行编码——输出固定大小的向量。LLM 生成文本。在 RAG 系统中,嵌入模型检索正确的文档,然后 LLM 综合答案。
嵌入驱动你使用的产品
Spotify 推荐、Netflix 建议、谷歌语义搜索、Notion AI 搜索、GitHub Copilot 代码补全——所有这些都在幕后使用嵌入来查找语义相似的内容。