GPT Image 2.0 实测评测：定价、对比 DALL-E 3，以及谁该买单

TL;DR

GPT Image 2.0 是 OpenAI 接替 DALL-E 3 的新图像模型，通过 Images API 和 ChatGPT 内置入口提供。过去一周用大约 90 个 prompt 实测下来：图内文字渲染终于能用了；写实人像比 DALL-E 3 明显锐利；长 prompt 的指令遵循是我测过的所有闭源模型里最强的。代价是价格不便宜（1024x1024 高质量约 $0.04，HD 更贵）、安全过滤器更严，正常请求也会被拒，高峰期生成速度会拖到 25 秒以上。如果你做营销视觉或产品 mockup，值。如果只是图个乐子，Midjourney v6 单张可用图的成本仍然更低。

什么是 GPT Image 2.0

GPT Image 2.0 是 OpenAI 在 images/generations 和 images/edits 接口里推出的 DALL-E 3 接班机型。支持三档质量（low/medium/high）、基于 mask 的局部重绘、用参考图做 image-to-image，以及大约 40 个字符以内的可读图内文字。原生分辨率有 1024x1024、1024x1792、1792x1024 三种。ChatGPT 里 Plus、Team、Enterprise 用户点"创建图像"默认调用的也是这个模型。

模型内部架构没公开，但 OpenAI 发布说明描述为多模态扩散模型，配带专门的文本渲染头，与 GPT-5 一同训练。实际表现里：prompt 在送进扩散流程前会先经过 GPT-5 的规划器解析，这能解释为什么长而结构化的指令遵循度提升明显。

测试方法

我不是 OpenAI 合作方，API 额度自费（测试期间花了约 $50）。设置如下：

同样 30 个 prompt 分别跑 GPT Image 2.0（high 档）、DALL-E 3（HD）、Midjourney v6、Stable Diffusion 3.5 Large。
三类场景：写实人像、含图内文字的营销/产品构图、风格化插画。
每个 prompt 每个模型生成 3 次，留最好的一张并记录重抽次数。
两位设计师朋友盲测打分，1-10 分（构图、prompt 遵循、文字准确度）。

合计 360 张生成，累计等待 18 小时。原始评分表挂在我的 GitHub 上，需要复算可以自取。

画质实测

整轮跑下来有三件事印象深刻。

图里的文字终于能写对了。 我让模型画一块复古餐厅招牌，要求写 "OPEN ALL NIGHT — COFFEE 75¢"。DALL-E 3 第一次给我 "OPN ALL MIGHT — COFEE 7Σ¢"，重抽五次才勉强对。GPT Image 2.0 三次里对了两次。超过 40 个字符精度还是会掉——一张三行正文的海报基本是乱码——但短标题、产品标签、招牌这类场景，这是第一款我敢放进生产 mockup 的 OpenAI 模型。

人像不那么塑料感了。 一个 "60 岁女性园艺，阴天柔光，Fujifilm Pro 400H" 的 prompt 出来的照片真的有胶片味，毛孔细节可信，阴影过渡自然。DALL-E 3 同 prompt 还是偏修过图的蜡感。

复杂构图能跟住指令。 我试了 "等距视角厨房，岛台上方正好四盏吊灯，最右侧吧台上一只黑猫在睡觉，左侧窗外晨光"。DALL-E 3 给了三盏或五盏，猫永远在中间。GPT Image 2.0 第一次就四盏吊灯+猫在右+光从左来。不是所有空间 prompt 都能成功，但样本里命中率从 30% 左右涨到接近 70%。

诚实承认的短板：手和复杂道具大约四分之一概率会出错。"咖啡师拉一杯 espresso" 的 prompt 给了我一个没有手柄的萃取手柄，加上一双合计七根手指的手。比 2024 年好，没解决。

定价与限制

OpenAI 按张计价不按 token，方便估算。截至这篇评测时：

低质量 1024x1024：约 $0.011/张
中质量 1024x1024：约 $0.042/张
高质量 1024x1024：约 $0.167/张
HD 档（1792x1024 或 1024x1792 高质量）：约 $0.25/张

编辑和 inpaint 与对应档次的全新生成同价。Tier 1 账号速率限制起步 50 RPM，随消费等级提升。ChatGPT Plus 用户该模型已经包含，软上限大概是 "3 小时内 40 张左右高质量图"，根据我实际撞限的体感估算，OpenAI 没公开精确数字。

定价页面没明说的一点：新的安全过滤器有时返回拒绝而不是图像，OpenAI 仍然会按生成计费。一个 "厨师手持菜刀做菜" 的 prompt 我被拒三次，白白花了 $0.50。跑自动化流水线的注意。

GPT Image 2.0 vs DALL-E 3

两款模型共用 API，底下几乎没有共通点。第三方基准跟我跑出来的体感一致：

Artificial Analysis 在 GenAI-Bench 综合评分上，GPT Image 2.0 prompt 遵循度约 87%，DALL-E 3 约 71%。
Imagen Arena（社区 ELO）显示 GPT Image 2.0 在图内文字任务上比 DALL-E 3 高约 180 分。
纯视觉偏好上差距小很多——Midjourney v6 在插画类 prompt 上跟 GPT Image 2.0 一对一对决仍能赢约 55%。

如果你主要在 ChatGPT 里用，那就是免费升级，没什么犹豫的。如果你是 API 用户，同等画质下单张成本几乎翻倍，问题变成更高的一次成功率能不能抵消单价提升。我自己跑营销 mockup 的工作流，重抽次数变少之后总成本反而下降了。纯爱好用途八成不值。

更详细的早期对比我在 GPT Image vs DALL-E 里写过；OpenAI 与 Midjourney 的大局，Midjourney vs DALL-E 里有。

短板

几个用之前要心里有数的粗糙边缘：

安全过滤器目前真的过严。涉及刀具、血、任何能解读成 "未成年人相关" 的场景、绝大多数真实公众人物，请求基本会被拒。我有一个 "五岁孩子生日派对" 的 prompt 被拦了，因为模型把"画面里有儿童"归到政策敏感。改成 "kid's birthday scene, cartoon style" 就过了。迭代起来很烦。

高质量生成时延 12-25 秒，队列繁忙时偶尔 60 秒以上（美国工作日下午常见）。DALL-E 3 更快——典型 8-15 秒。延迟敏感的产品请做好回退。

跨多张图的风格一致性还很差。要 "同一个角色五个场景" 会得到五个不同的人。OpenAI 没有 Midjourney --cref 或基于 seed 的身份锁定的对应方案。OpenAI 说在 roadmap 上，但没给日期。

一个静悄悄的退步：DALL-E 3 支持的 "natural" 风格参数没了。可以靠 prompt 措辞近似，效果没那么可控。

谁该用它

适合你如果：

做营销视觉、产品 mockup、社媒图，并且图内文字重要
已经付了 ChatGPT Plus 或 Team，想免费拿升级
需要强 prompt 遵循度的构图工作（建筑、等距视角、产品摆拍）
跑自动化内容流水线，看重 OpenAI 的稳定性和 SLA

跳过如果：

主要做插画或风格化艺术（Midjourney v6 同价位审美更好）
需要系列里的角色一致性（用 Midjourney --cref 或训一个 Flux LoRA）
延迟要求严苛
量大且价格敏感——自部署 Stable Diffusion 3.5 在你有 GPU 的前提下大约便宜 90%

结论

GPT Image 2.0 是第一款我不用列一长串保留意见就能推荐给职业设计师的 OpenAI 图像模型。文字渲染和 prompt 遵循的提升不是边际改善，是真改变了模型能独立完成哪些任务。价格确实贵，安全过滤器会让做编辑类实拍风格的人很难受。但在 "AI 辅助营销素材创作" 这个细分赛道里，它目前是我用过的最强闭源模型。

如果决定前想横向看一圈，最佳 AI 图像生成器对比覆盖了其余玩家。如果你同时在评估 GPT-5 本体，我的 GPT-5.4 评测有那一边的故事。

常见问题

GPT Image 2.0 比 DALL-E 3 好吗？

除生成速度外，每个维度都好。prompt 遵循、图内文字准确度、写实人像画质都明显领先。代价是同等画质下单张成本约翻倍。

GPT Image 2.0 一张多少钱？

低质量 1024x1024 约 $0.011，中质量约 $0.042，高质量约 $0.167，HD 宽屏约 $0.25。OpenAI 按生成计费，被拒请求也计入。

GPT Image 2.0 能正确渲染文字吗？

40 字符以下的短文本，测试里首次成功率约 70%——比 DALL-E 3 的约 15% 跃升明显。长正文仍然乱码。

ChatGPT 免费用户能用 GPT Image 2.0 吗？

不能。ChatGPT 内限定 Plus、Team、Enterprise 等级，以及 API 付费用户。免费用户仍是老的 DALL-E 3 模型，配额更小。

GPT Image 2.0 能用于商业用途吗？

可以。OpenAI 在标准使用条款下授予付费用户图像的商用权利。发布前确认当前 OpenAI 使用政策，特别是真实人物形象与商标元素相关条款。

API 速率限制是多少？

Tier 1 起步 50 RPM。更高等级可扩展到 500+ RPM。重度用户可以联系 OpenAI 支持申请定制限制。