译者批注: 本文为 AI 辅助翻译, Jim Liu 本人 (悉尼独立开发者) 已审校术语和关键句的流畅度. 如发现术语错误或表达不自然, 欢迎邮件指正. 原英文版: English.

好的，作为一名资深国际化翻译与 SEO 专家，我已为您完成这篇文章的高质量本地化翻译。

在翻译过程中，我针对中文技术语境进行了深度优化，确保术语准确（如 ELO 等级分、多模态、局部重绘等），并调整了句式使其更符合中文阅读逻辑，同时保留了所有的 Markdown 结构、SEO 关键词和外链。

OpenAI gpt-image-1 对标 DALL-E 3 —— 图像生成模型全方位评测 (12 组提示词，ELO 1264 vs 1100)

2026 年 3 月 17 日 • 阅读时长约 14 分钟

DALL-E 曾是 OpenAI 唯一的图像生成工具。然而，OpenAI 随后悄无声息地在 ChatGPT 内部将其替换为名为 GPT Image 的新模型——该模型目前在 LM Arena 图像模型榜单中位列第一，ELO 分数高达 1264。我们使用相同的提示词对这两款模型进行了多轮测试，旨在揭示 GPT Image 带来了哪些进步、失去了哪些功能，以及 DALL-E 3 API 是否仍然值得开发者使用。

TL;DR —— 核心要点：

GPT Image 1.5 已在 ChatGPT 中全面取代 DALL-E：不再需要单独调用工具，它原生集成在对话流中，能够理解先前的对话语境。
LM Arena 排名第一 (ELO 1264)：在约 5 万次盲测对比中，其排名超越了 Midjourney、Flux 和 Stable Diffusion。
文字渲染迎来质的飞跃：GPT Image 能够稳定渲染图像中可阅读的文字，而这曾是 DALL-E 3 的致命短板。
DALL-E 3 API 依然可用且价格更低：每张图仅需 $0.04–$0.08，适合不需要对话式微调的批量工作流。
并非完美：GPT Image 存在频率限制（Rate Limits）和偶发的过度平滑问题；而 DALL-E 3 则缺乏对话感知和图像编辑能力。

1. DALL-E 怎么了？

在过去约两年的时间里，DALL-E 一直是 ChatGPT 生成图像的核心引擎。当你输入“创作一张猫看报纸的水彩画”时，ChatGPT 会在后台调用 DALL-E 3 模型。虽然好用，但总让人觉得它是“外挂”上去的——ChatGPT 在文本模式和图像模式之间切换时会有明显的停顿，且模型无法在后续对话中参考或修改刚刚生成的图像。

2025 年底，OpenAI 开始在 ChatGPT 中推出其所谓的“原生图像生成”功能，由 GPT Image 模型驱动（内部版本为 gpt-image-1，1.5 版本于 2026 年初发布）。关键区别在于： 图像生成不再是 ChatGPT 调用的外部工具，而是像文本生成一样，直接内置在模型输出能力中。

这种转变的影响比听起来更大。由于 GPT Image 是原生集成的，它能理解你三条消息前讨论的内容，能参考你上传的图像元素，并能在不丢失上下文的情况下对输出结果进行迭代修改。而 ChatGPT 内部的 DALL-E 3 无法做到这一点——每一次图像生成本质上都是一次孤立的、全新的调用。

目前，DALL-E 3 已悄然从 ChatGPT 界面中移除。没有落幕公告，没有弃用时间表，它就这么消失了。对于 API 用户，DALL-E 3 依然有效；但对于 3 亿 ChatGPT 用户来说，GPT Image 已经是唯一的选择。

2. 我们是如何测试的

测试方法论

提示词集： 30 组相同的提示词，涵盖 6 大类别：文字渲染、照片级写实、插画、抽象艺术、产品原型和多元素构图。
GPT Image 测试： 使用 ChatGPT Plus 账号，通过默认的 GPT-4o 模型进行原生图像生成。所有提示词均作为普通对话消息发送。
DALL-E 3 测试： 通过 OpenAI API 调用 dall-e-3 模型端点。标准质量，1024x1024 分辨率，使用完全相同的提示词文本。
评估标准： 针对准确性（是否符合提示词要求）、视觉质量、文字清晰度（适用时）以及复杂场景的连贯性进行评分。
时间线： 测试于 2026 年 3 月进行，GPT Image 版本确认为 1.5。
局限说明： 我们仅测试了 ChatGPT Plus 订阅版（非免费版或团队版）。免费用户可能会遇到质量下降或更高的压缩率。

值得注意的是：ChatGPT 内部的 GPT Image 有时会在生成前重写你的提示词，增加细节或调整构图。DALL-E 3 API 默认也会重写提示词，但你可以通过 style: "natural" 参数禁用。这意味着直接的提示词级对比并不完美——两款模型都会通过自己的逻辑来解读你的需求。

3. 强强对决：核心参数对比

功能特性	GPT Image 1.5	DALL-E 3
LM Arena 排名	第 1 名 (ELO 1264)	未上榜 (已退出竞技场)
ChatGPT 集成度	原生集成 (内置于模型)	已从 ChatGPT 中移除
文字渲染能力	稳定可靠，小字号依然清晰	频繁拼写错误和伪影
照片写实感	极强，光影与肤色非常自然	优秀但仍有明显的“AI 感”
图像编辑	对话式编辑，支持上传修改	仅限 API 局部重绘 (Inpainting)
语境感知	拥有完整的对话上下文	无 (单次调用完全独立)
API 可用性	`gpt-image-1` 端点	`dall-e-3` 端点 (依然活跃)
API 成本 (1k)	约 $0.04–$0.17 (取决于质量)	约 $0.04–$0.08
最高分辨率	最高支持 2048x2048	1024x1024 或 1024x1792
独立使用	需要 ChatGPT 或 API	仅限 API (可独立工作)

对比表展现了一个清晰的事实：GPT Image 1.5 在几乎所有维度上都是更强大的 AI 绘图模型。但“更强大”并不总是意味着“唯一的正确选择”。

4. 哪款 AI 图像生成器的文字渲染效果更好？

如果说 GPT Image 1.5 有一个绝对碾压 DALL-E 3 的领域，那就是文字渲染。这曾是 DALL-E 3 最明显的软肋——如果你让它在蛋糕上写“Happy Birthday Sarah”，你可能会得到“Hpapy Brithday Sahra”或其他乱码。

GPT Image 1.5 处理文字的可靠性令人惊讶。在我们的测试中，30 组包含文字的提示词中，有 26 组在第一次尝试时就生成了完全正确且清晰的文字。

文字渲染结果 (30 组提示词)

GPT Image 1.5

完全正确：26/30 (87%)
轻微瑕疵：4/30 (13%)
无法阅读：0/30 (0%)
完美处理多行文本
小字号字体依然可辨

DALL-E 3

完全正确：11/30 (37%)
轻微瑕疵：9/30 (30%)
无法阅读：10/30 (33%)
多行文本经常错乱
小字号文字完全不可信

这在实际应用中非常关键。如果你需要生成社交媒体贴图、演示文稿、信息图表或营销素材，使用 DALL-E 3 往往需要在 Canva 或 Figma 中手动补字，而 GPT Image 1.5 通常能一步到位。

5. GPT Image 与 DALL-E 在创意工作中的表现

DALL-E 3 提供了简单的 style 参数（“vivid” 生动 vs “natural” 自然），工作流非常直接：输入提示词，得到图像。

GPT Image 1.5 则更具“主见”。因为它与 GPT-4o 深度集成，它能从更深层次“理解”你的提示词，并在构图、光影和情绪上做出创意决策。这是一把双刃剑：表现好时，你会得到更有设计感的图像；表现不好时，模型会自作主张加入你没要求的元素。

在插画和概念设计方面，GPT Image 1.5 倾向于一种精致的、商业化审美。如果你想要那种粗粝、原始或刻意不完美的效果，你需要非常明确地在提示词中强调。相比之下，DALL-E 3 的风格更为中性。

6. 价格对比

获取方式	价格	包含内容
ChatGPT 免费版	$0/月	GPT Image (每日限制约 2–3 张)
ChatGPT Plus	$20/月	GPT Image (更高限制，优先访问)
ChatGPT Pro	$200/月	无限制使用 GPT Image (理论上限极高)
GPT Image API	约 $0.04–$0.17/张	编程访问，按质量/尺寸计费
DALL-E 3 API	约 $0.04–$0.08/张	编程访问，标准/高清质量

对于需要大规模生成图像的开发者和企业来说，成本计算逻辑会有所不同。DALL-E 3 API 的标准图像单价仅为 $0.04，大约是 GPT Image API 高质量模式价格的一半。如果你只是需要生成数千张产品缩略图，且不需要对话式微调，DALL-E 3 依然是更具性价比的选择。

7. 开发者 API 对比

API 核心差异

GPT Image API (gpt-image-1)

支持文本和图像双重输入（多模态）
支持通过自然语言进行图像编辑
图像质量上限更高
最高分辨率可达 2048x2048
生成速度较慢 (~8–15 秒)
高质量模式下成本较高

DALL-E 3 API (dall-e-3)

仅支持文本提示词输入
支持使用显式 Mask 图像进行局部重绘
输出风格高度一致且可预测
分辨率限制在 1024x1024 或 1024x1792
生成速度较快 (~4–8 秒)
适合批量使用的成本效益更高

8. 各自的局限性

GPT Image 1.5 的短板

频率限制（Rate Limits）： 即使是 ChatGPT Plus 用户，在频繁使用时也会触发封顶限制。
过度平滑倾向： 照片级输出有时显得过于“完美”，皮肤缺乏毛孔细节。
提示词重写不透明： 模型会在内部修改你的描述词，导致结果难以精确复现。
内容审核严厉： 艺术性裸露或医学插图更容易被拦截。
ChatGPT 中缺乏种子控制（Seed Control）： 在网页版中无法像 API 那样通过 Seed 复现完全相同的图像。

DALL-E 3 的短板

已从 ChatGPT 移除： 仅限 API 访问，抬高了普通用户的使用门槛。
文字渲染极差： 如果图像里必须有字，千万别选它。
缺乏语境迭代： 每次 API 调用都是孤立的，无法针对已有图像进行修正。
分辨率上限较低： 最高仅支持 1024x1792。
前景不明： 可能在不久的将来被彻底停用。

9. 常见问题 (FAQ)

DALL-E 3 停用了吗？ DALL-E 3 已从 ChatGPT 界面移除，被 GPT Image 取代。但面向开发者的 DALL-E 3 API 端点目前依然活跃。

GPT Image 1.5 的 ELO 分数是多少？ GPT Image 1.5 在 LM Arena 上的 ELO 为 1264，在所有已测图像生成模型中排名第一。

我可以不订阅 ChatGPT Plus 使用 GPT Image 吗？ 可以。免费版 ChatGPT 用户可以使用 GPT Image，但有每日配额限制（通常每天只能生成 2–3 张）。

GPT Image 比 Midjourney 更好吗？ 在 LM Arena 的盲测排名中，GPT Image 1.5 得分更高。它在遵循复杂指令和文字渲染方面更胜一筹。但在艺术风格化和独特的审美表现力上，Midjourney 依然具有优势。

GPT Image 能编辑现有照片吗？ 可以。你可以将照片上传到 ChatGPT，然后通过自然语言要求 GPT Image 进行修改（如更换背景或添加文字）。

10. 最终结论：你该选哪个？

如果你是 ChatGPT 用户，你其实没得选——GPT Image 是你的默认配置，而这确实是一次巨大的升级。

快速决策指南

图像中需要文字： 选 GPT Image。差距巨大。
大规模批量生成： 选 DALL-E 3 API。更便宜、更快、更稳定。
交互式/迭代式创作： 选 ChatGPT 里的 GPT Image。
参考原图进行修改： 选 GPT Image。多模态输入是其核心优势。
未来兼容性： 选 GPT Image。DALL-E 3 API 随时可能下线。

大趋势已经非常明显：OpenAI 正在将图像生成从一个独立工具转变为语言模型的原生能力。GPT Image 1.5 正是这一战略的产物，而 DALL-E 品牌未来很可能会被完全整合进 GPT 产品线中。

来源说明： 本评测基于对 GPT Image 1.5 (通过 ChatGPT Plus) 和 DALL-E 3 (通过 OpenAI API) 的深度实测，共使用 30 组涵盖 6 个类别的提示词。LM Arena 排名数据参考自 lmarena.ai（截至 2026 年 3 月）。

OpenAI 工具中心相关阅读：

特别优惠：

GamsGo 平台 —— 通过共享账号以 3-4 折的价格订阅 ChatGPT Plus (支持 GPT Image)。使用优惠码 WK2NU 享受额外折扣。查看 GamsGo 价格详情

作者： Jim Liu 坐标悉尼的全栈开发工程师。专注于 AI 工具评测、订阅服务优化及开发者工作流分享。

给中国大陆开发者的本地视角

国内开发者上手 GPT Image 还是有门槛。网络环境和账号风控是老生常谈，生产环境建议走 Azure 或可靠中转。虽然国内通义万相、文心一格在访问上更友好，但逻辑一致性和文字渲染能力确实仍有断层。目前圈内多是“双持”策略：外贸电商或推文配图等对质量有硬要求的走 GPT Image，国内业务则更多用 FLUX 配合 LoRA 甚至私有化部署，以规避合规和成本风险。GPT Image 强在理解力，但落地国内业务，还是得留个合规“备胎”。

OpenAI gpt-image-1 vs DALL-E 3：图像生成模型深度评测 (12 组提示词，ELO 1264 vs 1100)