OpenAI Codex 评测：与 Claude Code 和 Cursor 的真实对比

概要速览

OpenAI Codex（2025 版）是基于 codex-1 模型的云端自主编程智能体，与 2021 年已废弃的旧版 Codex 模型完全不同
运行于沙箱云环境，可处理多文件任务、执行测试、创建分支，全程无需你盯着屏幕
需要 ChatGPT Pro（$20/月）、Team（$30/用户/月）或 Enterprise 订阅，暂无独立套餐
SWE-bench Verified 得分 72.9%（OpenAI，2025），微超 Claude Code 的 72.5%
最大限制：沙箱环境无法联网——任务执行中无法获取文档、安装新包或调用外部 API
适合：希望后台执行任务、无需实时协作的开发者
总结：异步、自包含任务场景下表现亮眼。它不是 Cursor 的替代品，而是完全不同的工作流。

前言

过去八个月，我一直在实际项目中使用各类 AI 编程工具。最近三个月，Claude Code 是我的主力工具。2025 年 5 月 OpenAI 向 Pro 用户低调上线新版 Codex 智能体后，我花了一周时间认真测试——不是那种演示用的玩具任务，而是真实 sprint 里那些文档残缺、"千万别搞崩 staging"的实际工作。

测试前的预期：一个打磨得更好的 Copilot。实际体验到的是一个结构上截然不同的东西——某些地方比我预想的有意思，某些地方的失败也超出了我的预判。

OpenAI Codex 是什么（新版的）？

先说清楚：这不是 2021 年那个 Codex。最初的 OpenAI Codex 是一个为 GitHub Copilot 早期自动补全提供支持的微调 GPT 模型，已于 2023 年 3 月废弃。

2025 年的 Codex 是基于全新模型 codex-1 打造的云端编程智能体，架构上有根本性差异：

智能体，而非补全：你用自然语言描述任务，它读取代码库、规划步骤、编写代码、运行测试，最后提交 Pull Request。
沙箱云环境：Codex 会为你的仓库启动一个隔离容器，可以读取文件、执行代码、跑测试套件、创建分支。
异步设计：你提交任务，然后去做别的事，回来看结果。它不是坐在你旁边实时协作的。

把它想象成一个可以分配工单的初级开发者——在无菌室里工作，完成后给你看 diff。

从行业数据来看，这种异步模式的需求正在快速增长：68% 的专业开发者每周都在使用 AI 编程工具（Stack Overflow 开发者调查 2024），对于"能完整处理子任务、而不仅仅是补全代码"的智能体需求持续上升。

Codex 定价与访问方式

Codex 目前没有独立产品，需要以下订阅之一：

套餐	价格	Codex 权限
ChatGPT Pro	$20/月	有
ChatGPT Team	$30/用户/月	有
ChatGPT Enterprise	定制	有
ChatGPT Plus	$20/月	暂无（截至 2026 年 5 月）
API（独立）	—	暂无

如果你已经在用 ChatGPT Pro，Codex 不需要额外付费。如果还没订阅，你需要为整个 Pro 套餐付 $20/月，Codex 只是其中一项功能。

对于不需要完整 ChatGPT Pro 订阅的开发者和爱好者，这个定价门槛是真实的摩擦点。相比之下，Cursor AI 定价提供专门面向编程的 $20/月 Pro 套餐，GitHub Copilot 则是 $10/月。

Codex 能做什么，不能做什么

表现出色的场景

Codex 在以下任务类型中表现得确实不错：

有明确范围的重构："把这个模块全部改成 async/await" — Codex 追踪了依赖关系，更新了调用方，同步调整了测试。
为已有代码补充测试：给一个没有测试的模块，它生成了覆盖合理的测试套件，包含几个我没有特别指定的边界条件。
有复现步骤的 bug 修复："当输入 dict 不含 'config' 键时这个函数会抛 KeyError" — 它找到了问题，修复了它，还加了一个防卫判断。
文档生成：docstring、README 章节、行内注释——质量一贯稳定。

不足之处

任务执行中无法联网：沙箱环境意味着 Codex 无法获取外部文档、安装环境中不存在的包，或在任务中途调用 API。测试中这一点对我影响最大——遇到冷门库时，Codex 会凭空捏造方法签名，而不是去查实际文档。
大型代码库会超出上下文限制：在超过约 5 万行的仓库中，Codex 明显存在跨文件丢失上下文的问题。它能正确更新一个模块，然后在另一处引入不一致。
没有实时协作：和 Cursor 不同，你无法边看 Codex 工作边中途纠偏。提交、等待、审查——如果任务理解有偏差，只能重来。
仅限 ChatGPT 订阅访问：没有 API 可以程序化地提交任务。

OpenAI Codex vs Claude Code vs Cursor

特性	OpenAI Codex	Claude Code	Cursor
底层模型	codex-1	Claude 3.7 Sonnet	GPT-4o / Claude
交互界面	Web（异步）	终端	IDE 插件
执行模式	后台智能体	交互式终端	实时 IDE
SWE-bench	72.9%	72.5%	—
价格	$20/月（Pro）	$20/月（Claude Pro）	$20/月（Pro）
任务中可联网	否（沙箱）	是	是
可操作电脑	否	是	否
最适合	异步批量任务	深度交互式会话	IDE 原生工作流

在基准数字上，Codex 与 Claude Code 几乎持平。OpenAI 报告 Codex 在 SWE-bench Verified 上得分 72.9%（OpenAI，2025），Anthropic 报告 Claude Code 得分 72.5%（Anthropic，2025）。实际使用中，差距体现在工作流匹配度上，而不是跑分差值上。

和使用了三个月的 Claude Code 相比，Codex 的感觉更像是"放手不管"——有时这正是你想要的，有时候任务跑偏了又无法实时纠正就很令人抓狂。Claude Code 的终端模式让你可以随时打断、重新引导、迭代。Codex 更接近"提交后等审核"。

真实测试：我给 Codex 布置了一个生产任务

任务：重构一个 400 行的 Python 模块，负责 webhook 解析。这个模块是有机增长的产物——职责混杂、没有测试、错误处理前后不一致。我写了一段期望结果的描述，提交了任务。

结果：大约 12 分钟后，Codex 返回了一个 diff。它正确地把模块拆分成三个职责明确的类，加了基础的错误处理，写了 14 个单元测试。测试还覆盖了两个我没有指定的边界条件，同时全面补充了类型注解。

失败在哪里：有两个测试引用了另一个模块中的工具函数——但 Codex 从错误的路径导入了它。这些测试在新环境下克隆仓库后会立即失败。这就是上下文窗口问题的体现：它知道这个函数存在，但记错了位置。

修复：我在后续消息中指出了导入错误，Codex 在第二轮中纠正了它们。

综合评估：作为一个无人值守的异步智能体，它完成了 90%。剩下 10% 需要一轮修正。与手动完成相比节省了大量时间。与用 Claude Code 交互式完成相比——我可能更早发现导入错误，但总用时大致相当。

我还测试了 Codex 处理一个更小的任务：为 Postgres schema 变更编写迁移脚本。这个任务更干净——输入明确、输出明确、可测试。Codex 一次通过，没有问题。

沙箱环境既是 Codex 的优势，也是它最大的限制。我发现当我需要它引用某个第三方库的最新 API 变更——训练截止日期之后的变更——它会自信地使用已废弃的方法。它没有任何办法去核对实时文档。

我的测试方法

通过 ChatGPT Pro 网页界面使用 Codex，历时 5 天
在两个代码库（Python 后端、TypeScript 前端）中提交了 11 个独立任务
同周使用 Claude Code 完成了对等任务用于横向对比
评估维度：任务完成率、生成代码正确性、测试通过率、需要修正的轮次
没有使用玩具示例——所有任务均来自真实工作积压

谁适合使用 OpenAI Codex？

适合：

已经订阅 ChatGPT Pro、希望后台执行任务的开发者
拥有文档完善的代码库和清晰工单描述的团队
希望排队分配工作、审查 diff 而不是与 AI 实时配对编程的独立开发者
需要可测试输出而非持续对话的场景

不适合：

希望 IDE 内实时辅助的开发者——请用 Cursor
任务依赖安装新包或实时获取外部文档的项目
大型 monorepo 中上下文限制频繁触发的场景
不希望为整个 ChatGPT Pro 订阅付 $20/月的开发者

常见问题

OpenAI Codex 和 GitHub Copilot 是同一个东西吗？

不是。Copilot 是提供实时自动补全和对话的 IDE 插件。Codex 是一个自主智能体，接受任务描述后在云端沙箱中运行，返回完整的代码 diff。底层模型不同，工作流也完全不同。

Codex 在任务执行中可以联网吗？

不可以。Codex 运行在没有网络访问权限的沙箱环境中。它可以读取你的仓库文件并运行现有测试套件，但无法在任务执行中获取外部文档、安装新包或调用实时 API。

OpenAI Codex 可以替代 Cursor 吗？

不能直接替代。它们解决的是不同问题。Cursor 专为实时 IDE 内协作设计——你全程参与。Codex 专为异步任务执行设计——你可以放手去做别的。很多开发者会发现两者在不同场景下各有用武之地。

新版 Codex 使用的是什么模型？

2025 年的 Codex 智能体基于 codex-1 模型，专门针对软件工程任务训练。这与 2021 年的原始 Codex 模型（驱动早期 GitHub Copilot、已于 2023 年废弃）完全不同。

OpenAI Codex 有免费套餐吗？

截至 2026 年 5 月，Codex 需要 ChatGPT Pro、Team 或 Enterprise 订阅。没有免费套餐，也没有独立 API 访问渠道。

Codex 和 Claude Code 的基准测试对比怎么样？

OpenAI 报告 Codex 在 SWE-bench Verified 上达到 72.9%，Anthropic 报告 Claude Code 达到 72.5%。差距小到实际使用中可以视为噪声——工作流的匹配程度比基准排名更重要。

总结

OpenAI Codex（2025 版智能体）是一个解决真实问题的真实产品。它不是 2021 年的自动补全工具——更接近一个你可以分配明确工单的云端初级开发者。

基准成绩扎实。异步执行模式在特定工作流中确实有用。如果你已经在付 ChatGPT Pro，边际成本为零。

但沙箱环境是把双刃剑。让它安全、可复现的隔离，同时也意味着它无法在任务中途从外部学习。缺乏实时交互意味着你在提交时就需要给出清晰的任务描述——描述模糊，输出就会模糊。

总体评价：如果你需要后台任务执行，且工作在文档相对完善的自包含代码库上，Codex 值得加入你的工具箱。如果你想要实时配对编程体验，请选 Cursor 或 Claude Code。大多数认真的开发者最终会同时用上不止一款这类工具——它们占据的是工作流的不同位置，而不是同一个槽位。