Skip to main content
AI 基础入门

LLM 分词(Tokenization)详解

Token 是 LLM 处理的原子单位——不是完整单词,而是子词片段。理解 token 有助于编写更好的提示词并控制 API 成本。

TL;DR: Token 是 LLM 处理的原子单位——不是完整单词,而是子词片段。理解 token 有助于编写更好的提示词并控制 API 成本。

什么是 Token?

Token 是一段文字——英文中大约 3-4 个字符。"ChatGPT" 是 3 个 token:"Chat"、"G"、"PT"。像 "the" 这样的常见词是 1 个 token;生僻词可能被分割成多个。大多数 LLM 按 token 计费。

tokentokenizerBPE