Question 1

1,000 个英语单词大约有多少个 token？

Accepted Answer

1,333 个 token. 英语中 1,000 个单词 ≈ 1,333 个 token（因为 1 个 token ≈ 0.75 个单词，所以 1 个单词 ≈ 1.33 个 token）。

Question 2

子词分词相比词级分词的主要优势是什么？

Accepted Answer

能优雅处理未见过的词、拼写错误和多种语言. 像 BPE 这样的子词方法可以通过组合已知子词片段来表示任何字符串，使其对生僻词和多语言文本具有鲁棒性。

Question 3

如果你向 GPT-4o 发送 10,000 个 token 的提示，这会如何影响可用的输出 token？

Accepted Answer

减少了响应可用的剩余上下文窗口 10,000 个 token. 输入和输出 token 共享同一个上下文窗口预算。10,000 个 token 的提示在 GPT-4o 的 128K 窗口中剩余 118,000 个 token 用于响应。

LLM 分词（Tokenization）详解

深度阅读