Question 1

以下哪个是多模态 AI 使用的例子？

Accepted Answer

上传数学题照片并要求 AI 解答. 上传图像（视觉输入）结合文本问题是多模态的——模型必须同时理解图像和文本才能做出响应。

Question 2

DALL-E 3 和 Midjourney 最好被描述为哪种类型的 AI？

Accepted Answer

文本到图像生成模型. DALL-E 3 和 Midjourney 接受文本提示并生成新图像——它们是生成模型，而不是理解/分析模型。

Question 3

你想从手写收据照片中提取总金额。你需要哪种 AI 能力？

Accepted Answer

视觉/图像理解（多模态输入）. 阅读手写图像需要视觉/图像理解——你需要像 GPT-4o 或 Claude 3.5 Sonnet 这样接受图像输入的多模态模型。

什么是多模态 AI？

深度阅读