Skip to main content

OpenAI Codex 评测:与 Claude Code 和 Cursor 的真实对比

作者: Jim Liu10 分钟阅读

深度测评 OpenAI Codex 2025 版编程智能体 — 值得升级 Pro 订阅吗?真实测试数据、基准跑分与不加掩饰的缺点分析。

概要速览

  • OpenAI Codex(2025 版)是基于 codex-1 模型的云端自主编程智能体,与 2021 年已废弃的旧版 Codex 模型完全不同
  • 运行于沙箱云环境,可处理多文件任务、执行测试、创建分支,全程无需你盯着屏幕
  • 需要 ChatGPT Pro($20/月)、Team($30/用户/月)或 Enterprise 订阅,暂无独立套餐
  • SWE-bench Verified 得分 72.9%(OpenAI,2025),微超 Claude Code 的 72.5%
  • 最大限制:沙箱环境无法联网——任务执行中无法获取文档、安装新包或调用外部 API
  • 适合:希望后台执行任务、无需实时协作的开发者
  • 总结:异步、自包含任务场景下表现亮眼。它不是 Cursor 的替代品,而是完全不同的工作流。

前言

过去八个月,我一直在实际项目中使用各类 AI 编程工具。最近三个月,Claude Code 是我的主力工具。2025 年 5 月 OpenAI 向 Pro 用户低调上线新版 Codex 智能体后,我花了一周时间认真测试——不是那种演示用的玩具任务,而是真实 sprint 里那些文档残缺、"千万别搞崩 staging"的实际工作。

测试前的预期:一个打磨得更好的 Copilot。实际体验到的是一个结构上截然不同的东西——某些地方比我预想的有意思,某些地方的失败也超出了我的预判。


OpenAI Codex 是什么(新版的)?

先说清楚:这不是 2021 年那个 Codex。最初的 OpenAI Codex 是一个为 GitHub Copilot 早期自动补全提供支持的微调 GPT 模型,已于 2023 年 3 月废弃。

2025 年的 Codex 是基于全新模型 codex-1 打造的云端编程智能体,架构上有根本性差异:

  • 智能体,而非补全:你用自然语言描述任务,它读取代码库、规划步骤、编写代码、运行测试,最后提交 Pull Request。
  • 沙箱云环境:Codex 会为你的仓库启动一个隔离容器,可以读取文件、执行代码、跑测试套件、创建分支。
  • 异步设计:你提交任务,然后去做别的事,回来看结果。它不是坐在你旁边实时协作的。

把它想象成一个可以分配工单的初级开发者——在无菌室里工作,完成后给你看 diff。

从行业数据来看,这种异步模式的需求正在快速增长:68% 的专业开发者每周都在使用 AI 编程工具(Stack Overflow 开发者调查 2024),对于"能完整处理子任务、而不仅仅是补全代码"的智能体需求持续上升。


Codex 定价与访问方式

Codex 目前没有独立产品,需要以下订阅之一:

套餐 价格 Codex 权限
ChatGPT Pro $20/月
ChatGPT Team $30/用户/月
ChatGPT Enterprise 定制
ChatGPT Plus $20/月 暂无(截至 2026 年 5 月)
API(独立) 暂无

如果你已经在用 ChatGPT Pro,Codex 不需要额外付费。如果还没订阅,你需要为整个 Pro 套餐付 $20/月,Codex 只是其中一项功能。

对于不需要完整 ChatGPT Pro 订阅的开发者和爱好者,这个定价门槛是真实的摩擦点。相比之下,Cursor AI 定价提供专门面向编程的 $20/月 Pro 套餐,GitHub Copilot 则是 $10/月。


Codex 能做什么,不能做什么

表现出色的场景

Codex 在以下任务类型中表现得确实不错:

  • 有明确范围的重构:"把这个模块全部改成 async/await" — Codex 追踪了依赖关系,更新了调用方,同步调整了测试。
  • 为已有代码补充测试:给一个没有测试的模块,它生成了覆盖合理的测试套件,包含几个我没有特别指定的边界条件。
  • 有复现步骤的 bug 修复:"当输入 dict 不含 'config' 键时这个函数会抛 KeyError" — 它找到了问题,修复了它,还加了一个防卫判断。
  • 文档生成:docstring、README 章节、行内注释——质量一贯稳定。

不足之处

  • 任务执行中无法联网:沙箱环境意味着 Codex 无法获取外部文档、安装环境中不存在的包,或在任务中途调用 API。测试中这一点对我影响最大——遇到冷门库时,Codex 会凭空捏造方法签名,而不是去查实际文档。
  • 大型代码库会超出上下文限制:在超过约 5 万行的仓库中,Codex 明显存在跨文件丢失上下文的问题。它能正确更新一个模块,然后在另一处引入不一致。
  • 没有实时协作:和 Cursor 不同,你无法边看 Codex 工作边中途纠偏。提交、等待、审查——如果任务理解有偏差,只能重来。
  • 仅限 ChatGPT 订阅访问:没有 API 可以程序化地提交任务。

OpenAI Codex vs Claude Code vs Cursor

特性 OpenAI Codex Claude Code Cursor
底层模型 codex-1 Claude 3.7 Sonnet GPT-4o / Claude
交互界面 Web(异步) 终端 IDE 插件
执行模式 后台智能体 交互式终端 实时 IDE
SWE-bench 72.9% 72.5%
价格 $20/月(Pro) $20/月(Claude Pro) $20/月(Pro)
任务中可联网 否(沙箱)
可操作电脑
最适合 异步批量任务 深度交互式会话 IDE 原生工作流

在基准数字上,Codex 与 Claude Code 几乎持平。OpenAI 报告 Codex 在 SWE-bench Verified 上得分 72.9%(OpenAI,2025),Anthropic 报告 Claude Code 得分 72.5%(Anthropic,2025)。实际使用中,差距体现在工作流匹配度上,而不是跑分差值上。

和使用了三个月的 Claude Code 相比,Codex 的感觉更像是"放手不管"——有时这正是你想要的,有时候任务跑偏了又无法实时纠正就很令人抓狂。Claude Code 的终端模式让你可以随时打断、重新引导、迭代。Codex 更接近"提交后等审核"。


真实测试:我给 Codex 布置了一个生产任务

任务:重构一个 400 行的 Python 模块,负责 webhook 解析。这个模块是有机增长的产物——职责混杂、没有测试、错误处理前后不一致。我写了一段期望结果的描述,提交了任务。

结果:大约 12 分钟后,Codex 返回了一个 diff。它正确地把模块拆分成三个职责明确的类,加了基础的错误处理,写了 14 个单元测试。测试还覆盖了两个我没有指定的边界条件,同时全面补充了类型注解。

失败在哪里:有两个测试引用了另一个模块中的工具函数——但 Codex 从错误的路径导入了它。这些测试在新环境下克隆仓库后会立即失败。这就是上下文窗口问题的体现:它知道这个函数存在,但记错了位置。

修复:我在后续消息中指出了导入错误,Codex 在第二轮中纠正了它们。

综合评估:作为一个无人值守的异步智能体,它完成了 90%。剩下 10% 需要一轮修正。与手动完成相比节省了大量时间。与用 Claude Code 交互式完成相比——我可能更早发现导入错误,但总用时大致相当。

我还测试了 Codex 处理一个更小的任务:为 Postgres schema 变更编写迁移脚本。这个任务更干净——输入明确、输出明确、可测试。Codex 一次通过,没有问题。

沙箱环境既是 Codex 的优势,也是它最大的限制。我发现当我需要它引用某个第三方库的最新 API 变更——训练截止日期之后的变更——它会自信地使用已废弃的方法。它没有任何办法去核对实时文档。


我的测试方法

  • 通过 ChatGPT Pro 网页界面使用 Codex,历时 5 天
  • 在两个代码库(Python 后端、TypeScript 前端)中提交了 11 个独立任务
  • 同周使用 Claude Code 完成了对等任务用于横向对比
  • 评估维度:任务完成率、生成代码正确性、测试通过率、需要修正的轮次
  • 没有使用玩具示例——所有任务均来自真实工作积压

谁适合使用 OpenAI Codex?

适合:

  • 已经订阅 ChatGPT Pro、希望后台执行任务的开发者
  • 拥有文档完善的代码库和清晰工单描述的团队
  • 希望排队分配工作、审查 diff 而不是与 AI 实时配对编程的独立开发者
  • 需要可测试输出而非持续对话的场景

不适合:

  • 希望 IDE 内实时辅助的开发者——请用 Cursor
  • 任务依赖安装新包或实时获取外部文档的项目
  • 大型 monorepo 中上下文限制频繁触发的场景
  • 不希望为整个 ChatGPT Pro 订阅付 $20/月的开发者

常见问题

OpenAI Codex 和 GitHub Copilot 是同一个东西吗?

不是。Copilot 是提供实时自动补全和对话的 IDE 插件。Codex 是一个自主智能体,接受任务描述后在云端沙箱中运行,返回完整的代码 diff。底层模型不同,工作流也完全不同。

Codex 在任务执行中可以联网吗?

不可以。Codex 运行在没有网络访问权限的沙箱环境中。它可以读取你的仓库文件并运行现有测试套件,但无法在任务执行中获取外部文档、安装新包或调用实时 API。

OpenAI Codex 可以替代 Cursor 吗?

不能直接替代。它们解决的是不同问题。Cursor 专为实时 IDE 内协作设计——你全程参与。Codex 专为异步任务执行设计——你可以放手去做别的。很多开发者会发现两者在不同场景下各有用武之地。

新版 Codex 使用的是什么模型?

2025 年的 Codex 智能体基于 codex-1 模型,专门针对软件工程任务训练。这与 2021 年的原始 Codex 模型(驱动早期 GitHub Copilot、已于 2023 年废弃)完全不同。

OpenAI Codex 有免费套餐吗?

截至 2026 年 5 月,Codex 需要 ChatGPT Pro、Team 或 Enterprise 订阅。没有免费套餐,也没有独立 API 访问渠道。

Codex 和 Claude Code 的基准测试对比怎么样?

OpenAI 报告 Codex 在 SWE-bench Verified 上达到 72.9%,Anthropic 报告 Claude Code 达到 72.5%。差距小到实际使用中可以视为噪声——工作流的匹配程度比基准排名更重要。


总结

OpenAI Codex(2025 版智能体)是一个解决真实问题的真实产品。它不是 2021 年的自动补全工具——更接近一个你可以分配明确工单的云端初级开发者。

基准成绩扎实。异步执行模式在特定工作流中确实有用。如果你已经在付 ChatGPT Pro,边际成本为零。

但沙箱环境是把双刃剑。让它安全、可复现的隔离,同时也意味着它无法在任务中途从外部学习。缺乏实时交互意味着你在提交时就需要给出清晰的任务描述——描述模糊,输出就会模糊。

总体评价:如果你需要后台任务执行,且工作在文档相对完善的自包含代码库上,Codex 值得加入你的工具箱。如果你想要实时配对编程体验,请选 Cursor 或 Claude Code。大多数认真的开发者最终会同时用上不止一款这类工具——它们占据的是工作流的不同位置,而不是同一个槽位。