OpenAI Codex 评测:与 Claude Code 和 Cursor 的真实对比
深度测评 OpenAI Codex 2025 版编程智能体 — 值得升级 Pro 订阅吗?真实测试数据、基准跑分与不加掩饰的缺点分析。
概要速览
- OpenAI Codex(2025 版)是基于 codex-1 模型的云端自主编程智能体,与 2021 年已废弃的旧版 Codex 模型完全不同
- 运行于沙箱云环境,可处理多文件任务、执行测试、创建分支,全程无需你盯着屏幕
- 需要 ChatGPT Pro($20/月)、Team($30/用户/月)或 Enterprise 订阅,暂无独立套餐
- SWE-bench Verified 得分 72.9%(OpenAI,2025),微超 Claude Code 的 72.5%
- 最大限制:沙箱环境无法联网——任务执行中无法获取文档、安装新包或调用外部 API
- 适合:希望后台执行任务、无需实时协作的开发者
- 总结:异步、自包含任务场景下表现亮眼。它不是 Cursor 的替代品,而是完全不同的工作流。
前言
过去八个月,我一直在实际项目中使用各类 AI 编程工具。最近三个月,Claude Code 是我的主力工具。2025 年 5 月 OpenAI 向 Pro 用户低调上线新版 Codex 智能体后,我花了一周时间认真测试——不是那种演示用的玩具任务,而是真实 sprint 里那些文档残缺、"千万别搞崩 staging"的实际工作。
测试前的预期:一个打磨得更好的 Copilot。实际体验到的是一个结构上截然不同的东西——某些地方比我预想的有意思,某些地方的失败也超出了我的预判。
OpenAI Codex 是什么(新版的)?
先说清楚:这不是 2021 年那个 Codex。最初的 OpenAI Codex 是一个为 GitHub Copilot 早期自动补全提供支持的微调 GPT 模型,已于 2023 年 3 月废弃。
2025 年的 Codex 是基于全新模型 codex-1 打造的云端编程智能体,架构上有根本性差异:
- 智能体,而非补全:你用自然语言描述任务,它读取代码库、规划步骤、编写代码、运行测试,最后提交 Pull Request。
- 沙箱云环境:Codex 会为你的仓库启动一个隔离容器,可以读取文件、执行代码、跑测试套件、创建分支。
- 异步设计:你提交任务,然后去做别的事,回来看结果。它不是坐在你旁边实时协作的。
把它想象成一个可以分配工单的初级开发者——在无菌室里工作,完成后给你看 diff。
从行业数据来看,这种异步模式的需求正在快速增长:68% 的专业开发者每周都在使用 AI 编程工具(Stack Overflow 开发者调查 2024),对于"能完整处理子任务、而不仅仅是补全代码"的智能体需求持续上升。
Codex 定价与访问方式
Codex 目前没有独立产品,需要以下订阅之一:
| 套餐 | 价格 | Codex 权限 |
|---|---|---|
| ChatGPT Pro | $20/月 | 有 |
| ChatGPT Team | $30/用户/月 | 有 |
| ChatGPT Enterprise | 定制 | 有 |
| ChatGPT Plus | $20/月 | 暂无(截至 2026 年 5 月) |
| API(独立) | — | 暂无 |
如果你已经在用 ChatGPT Pro,Codex 不需要额外付费。如果还没订阅,你需要为整个 Pro 套餐付 $20/月,Codex 只是其中一项功能。
对于不需要完整 ChatGPT Pro 订阅的开发者和爱好者,这个定价门槛是真实的摩擦点。相比之下,Cursor AI 定价提供专门面向编程的 $20/月 Pro 套餐,GitHub Copilot 则是 $10/月。
Codex 能做什么,不能做什么
表现出色的场景
Codex 在以下任务类型中表现得确实不错:
- 有明确范围的重构:"把这个模块全部改成 async/await" — Codex 追踪了依赖关系,更新了调用方,同步调整了测试。
- 为已有代码补充测试:给一个没有测试的模块,它生成了覆盖合理的测试套件,包含几个我没有特别指定的边界条件。
- 有复现步骤的 bug 修复:"当输入 dict 不含 'config' 键时这个函数会抛 KeyError" — 它找到了问题,修复了它,还加了一个防卫判断。
- 文档生成:docstring、README 章节、行内注释——质量一贯稳定。
不足之处
- 任务执行中无法联网:沙箱环境意味着 Codex 无法获取外部文档、安装环境中不存在的包,或在任务中途调用 API。测试中这一点对我影响最大——遇到冷门库时,Codex 会凭空捏造方法签名,而不是去查实际文档。
- 大型代码库会超出上下文限制:在超过约 5 万行的仓库中,Codex 明显存在跨文件丢失上下文的问题。它能正确更新一个模块,然后在另一处引入不一致。
- 没有实时协作:和 Cursor 不同,你无法边看 Codex 工作边中途纠偏。提交、等待、审查——如果任务理解有偏差,只能重来。
- 仅限 ChatGPT 订阅访问:没有 API 可以程序化地提交任务。
OpenAI Codex vs Claude Code vs Cursor
| 特性 | OpenAI Codex | Claude Code | Cursor |
|---|---|---|---|
| 底层模型 | codex-1 | Claude 3.7 Sonnet | GPT-4o / Claude |
| 交互界面 | Web(异步) | 终端 | IDE 插件 |
| 执行模式 | 后台智能体 | 交互式终端 | 实时 IDE |
| SWE-bench | 72.9% | 72.5% | — |
| 价格 | $20/月(Pro) | $20/月(Claude Pro) | $20/月(Pro) |
| 任务中可联网 | 否(沙箱) | 是 | 是 |
| 可操作电脑 | 否 | 是 | 否 |
| 最适合 | 异步批量任务 | 深度交互式会话 | IDE 原生工作流 |
在基准数字上,Codex 与 Claude Code 几乎持平。OpenAI 报告 Codex 在 SWE-bench Verified 上得分 72.9%(OpenAI,2025),Anthropic 报告 Claude Code 得分 72.5%(Anthropic,2025)。实际使用中,差距体现在工作流匹配度上,而不是跑分差值上。
和使用了三个月的 Claude Code 相比,Codex 的感觉更像是"放手不管"——有时这正是你想要的,有时候任务跑偏了又无法实时纠正就很令人抓狂。Claude Code 的终端模式让你可以随时打断、重新引导、迭代。Codex 更接近"提交后等审核"。
真实测试:我给 Codex 布置了一个生产任务
任务:重构一个 400 行的 Python 模块,负责 webhook 解析。这个模块是有机增长的产物——职责混杂、没有测试、错误处理前后不一致。我写了一段期望结果的描述,提交了任务。
结果:大约 12 分钟后,Codex 返回了一个 diff。它正确地把模块拆分成三个职责明确的类,加了基础的错误处理,写了 14 个单元测试。测试还覆盖了两个我没有指定的边界条件,同时全面补充了类型注解。
失败在哪里:有两个测试引用了另一个模块中的工具函数——但 Codex 从错误的路径导入了它。这些测试在新环境下克隆仓库后会立即失败。这就是上下文窗口问题的体现:它知道这个函数存在,但记错了位置。
修复:我在后续消息中指出了导入错误,Codex 在第二轮中纠正了它们。
综合评估:作为一个无人值守的异步智能体,它完成了 90%。剩下 10% 需要一轮修正。与手动完成相比节省了大量时间。与用 Claude Code 交互式完成相比——我可能更早发现导入错误,但总用时大致相当。
我还测试了 Codex 处理一个更小的任务:为 Postgres schema 变更编写迁移脚本。这个任务更干净——输入明确、输出明确、可测试。Codex 一次通过,没有问题。
沙箱环境既是 Codex 的优势,也是它最大的限制。我发现当我需要它引用某个第三方库的最新 API 变更——训练截止日期之后的变更——它会自信地使用已废弃的方法。它没有任何办法去核对实时文档。
我的测试方法
- 通过 ChatGPT Pro 网页界面使用 Codex,历时 5 天
- 在两个代码库(Python 后端、TypeScript 前端)中提交了 11 个独立任务
- 同周使用 Claude Code 完成了对等任务用于横向对比
- 评估维度:任务完成率、生成代码正确性、测试通过率、需要修正的轮次
- 没有使用玩具示例——所有任务均来自真实工作积压
谁适合使用 OpenAI Codex?
适合:
- 已经订阅 ChatGPT Pro、希望后台执行任务的开发者
- 拥有文档完善的代码库和清晰工单描述的团队
- 希望排队分配工作、审查 diff 而不是与 AI 实时配对编程的独立开发者
- 需要可测试输出而非持续对话的场景
不适合:
- 希望 IDE 内实时辅助的开发者——请用 Cursor
- 任务依赖安装新包或实时获取外部文档的项目
- 大型 monorepo 中上下文限制频繁触发的场景
- 不希望为整个 ChatGPT Pro 订阅付 $20/月的开发者
常见问题
OpenAI Codex 和 GitHub Copilot 是同一个东西吗?
不是。Copilot 是提供实时自动补全和对话的 IDE 插件。Codex 是一个自主智能体,接受任务描述后在云端沙箱中运行,返回完整的代码 diff。底层模型不同,工作流也完全不同。
Codex 在任务执行中可以联网吗?
不可以。Codex 运行在没有网络访问权限的沙箱环境中。它可以读取你的仓库文件并运行现有测试套件,但无法在任务执行中获取外部文档、安装新包或调用实时 API。
OpenAI Codex 可以替代 Cursor 吗?
不能直接替代。它们解决的是不同问题。Cursor 专为实时 IDE 内协作设计——你全程参与。Codex 专为异步任务执行设计——你可以放手去做别的。很多开发者会发现两者在不同场景下各有用武之地。
新版 Codex 使用的是什么模型?
2025 年的 Codex 智能体基于 codex-1 模型,专门针对软件工程任务训练。这与 2021 年的原始 Codex 模型(驱动早期 GitHub Copilot、已于 2023 年废弃)完全不同。
OpenAI Codex 有免费套餐吗?
截至 2026 年 5 月,Codex 需要 ChatGPT Pro、Team 或 Enterprise 订阅。没有免费套餐,也没有独立 API 访问渠道。
Codex 和 Claude Code 的基准测试对比怎么样?
OpenAI 报告 Codex 在 SWE-bench Verified 上达到 72.9%,Anthropic 报告 Claude Code 达到 72.5%。差距小到实际使用中可以视为噪声——工作流的匹配程度比基准排名更重要。
总结
OpenAI Codex(2025 版智能体)是一个解决真实问题的真实产品。它不是 2021 年的自动补全工具——更接近一个你可以分配明确工单的云端初级开发者。
基准成绩扎实。异步执行模式在特定工作流中确实有用。如果你已经在付 ChatGPT Pro,边际成本为零。
但沙箱环境是把双刃剑。让它安全、可复现的隔离,同时也意味着它无法在任务中途从外部学习。缺乏实时交互意味着你在提交时就需要给出清晰的任务描述——描述模糊,输出就会模糊。
总体评价:如果你需要后台任务执行,且工作在文档相对完善的自包含代码库上,Codex 值得加入你的工具箱。如果你想要实时配对编程体验,请选 Cursor 或 Claude Code。大多数认真的开发者最终会同时用上不止一款这类工具——它们占据的是工作流的不同位置,而不是同一个槽位。