Skip to main content
AI 基础入门

什么是多模态 AI?

多模态 AI 在单个模型中处理多种类型的输入——文本、图像、音频和视频。GPT-4o 和 Gemini 1.5 Pro 是典型代表。

TL;DR: 多模态 AI 在单个模型中处理多种类型的输入——文本、图像、音频和视频。GPT-4o 和 Gemini 1.5 Pro 是典型代表。

单模态 vs 多模态

早期 AI 是单模态的——文本模型只处理文本,图像模型只处理图像。多模态模型统一了这些,允许单个模型跨文本 + 图像 + 音频一起推理,就像人类自然做的那样。

unimodalmultimodalcross-modal reasoning