Gemini Spark 评测：谷歌 24/7 AI 智能体

我在悉尼凌晨三点看完了 Google I/O 2026 直播，手里端着咖啡，本来以为又是一轮 Gemini 功能小更新。然后 Sundar Pichai 介绍了 Gemini Spark，我当场暂停视频开始记笔记。

这篇文章讲的是我们目前知道什么、还不知道什么，以及为了抢先用 Spark 去开通 Google AI Ultra 订阅是否值得。

TL;DR（快速版）

是什么？ Gemini Spark 是谷歌全新的 24/7 代理式 AI 助手，运行在谷歌云专属虚拟机上 — 不需要一直开着电脑
什么时候能用？ Google AI Ultra 订阅用户将在 5 月 19 日发布后"下周"获得访问权限；大规模普及时间未确定
竞争对手是谁？ Claude + MCP、ChatGPT Custom GPT、OpenHands — 但持久化虚拟机执行模式是真正的不同之处
诚实说缺点： 目前还没公开，Google AI Ultra 约 249 美元/月，完全没有真实性能数据

我是谁，为什么这件事跟我有关

我在悉尼独立运营一批 AI 工具评测网站，包括 openaitoolshub.org。过去 18 个月，我几乎每天都在用各种代理式 AI 方案：Claude + MCP 跑本地工具、ChatGPT Custom GPT、AutoGen 多智能体流水线、OpenHands 处理代码任务。

我是在悉尼 Newtown 一家咖啡馆凌晨三点看的 I/O 2026 直播。我另一半觉得我有点疯。可能确实如此。但对一个把 AI 当主要生产力放大器的独立创业者来说，"需要人一直盯着"和"睡着也能跑任务"之间的差距，就是四十小时工作周和实际有个周末的差距。

我不是以消费者视角评估 Spark。我是以一个需要它覆盖月成本的独立创业者视角在看这件事。

⚖️ 真正的问题不是"Spark 够不够厉害"，而是"Spark 能省出多少时间来 cover 约 249 美元/月？"

Gemini Spark 到底是什么

根据谷歌 I/O 2026 发布内容，Gemini Spark 被定义为集成在 Gemini 应用中的"24/7 代理式助手"。

谷歌确认的功能：

持久化执行： Spark 运行在谷歌云专属虚拟机上。你提交一个任务，关掉电脑 — Spark 继续在后台运行
跨应用推理： 它可以读取 Gmail、文档、表格和幻灯片完成任务。发布会演示了 Spark 读取项目邮件并从关联电子表格提取数据，自动起草给主管的进度汇报邮件 — 全程无需人工干预
MCP 兼容： Spark 通过模型上下文协议（MCP）接入外部服务，意味着它可以延伸到谷歌产品套件之外
长周期任务： Sundar Pichai 将其称为"智能数字助手的下一次进化……以最少的人工干预承担长周期任务"

与之前 Gemini 功能的核心区别：以前的版本要求用户全程在线。Spark 设计为异步运行，任务完成后再回来汇报。

📊 参考背景：根据 Gartner 2026 年预测，到 2028 年超过 33% 的企业软件将包含代理式 AI 功能。Spark 是谷歌对这一趋势的回应，但首先针对个人用户。

⚠️ 我们还不知道什么

这里是我认为 95% 关于 Gemini Spark 的文章都没做好的地方：它们把发布会通稿当成产品评测在写。那根本不是评测。

以下是目前真正不清楚的地方：

定价细节： 谷歌确认 Spark 首先向 Google AI Ultra 订阅用户开放。但 Ultra 目前约 249 美元/月 — 这是加入 Spark 之前的价格。价格会调整吗？Spark 会是额外收费的功能吗？

MCP 服务器兼容性： "MCP 兼容"听起来很好，但具体支持哪些服务器？Claude 的 MCP 生态有数百个社区服务器。Spark 能直接用现有的 MCP 服务器，还是说谷歌只是把 MCP 当内部协议用？

频率限制和队列深度： 如果 Spark 在专属虚拟机上运行，同时提交五个长时任务会怎样？有队列吗？有超时限制吗？

隐私处理： Spark 需要访问你的邮件、文档和表格。什么数据会离开谷歌的基础设施？数据保留策略是什么？对于处理客户数据的独立创业者，这不是脚注，是核心问题。

任务边界的可靠性： 演示视频里任务衔接很流畅。但真实的代理式系统会在边界处出错 — 格式错误的 API 响应、指令歧义、多步推理错误。我们完全没有 Spark 在实际生产条件下的错误率数据。

我目前还没法测试 Spark — Ultra 订阅用户要到发布后下周才能用，而我现在不是 Ultra 用户。但等我拿到访问权限，这五个问题是我第一批要验证的。

🧭 Spark 与我实际用过的其他代理式 AI 对比

我没法拿 Spark 的真实表现和任何东西比较，因为它还不可用。我能做的是列出我在它可用时会用到的对比维度。

对比维度	Gemini Spark	Claude + MCP	ChatGPT Custom GPT	OpenHands	AutoGen
持久化执行（不需要开着电脑）	✅ 云端虚拟机	❌ 本地 MCP 服务器，会话绑定	❌ 需要活跃会话	⚠️ 服务器托管选项	⚠️ 需要运行中的基础设施
谷歌 Workspace 原生访问	✅ Gmail/文档/表格/幻灯片	🔧 通过 MCP 插件	🔧 通过插件，不稳定	❌ 非原生	❌ 非原生
MCP 生态	⚠️ 兼容性待定	✅ 数百个社区服务器	❌ 使用自己的插件系统	✅ 支持 MCP	🔧 自定义工具集成
我的使用经验	❌ 尚未可用	✅ 每天使用超 12 个月	✅ 测试超 8 个月	✅ 代码任务 4 个月以上	✅ 批量任务 3 个月以上
独立创业者 ROI 信号	未知 — 等待测试	高，适合文档/代码任务	中，GPT 表现不稳定	高，适合开发工作	中，配置成本偏高

我现在实际在用的工具组合：Claude + MCP 处理大多数长文档任务和代码审查；ChatGPT 在 GPT 商店有专用插件的场景下使用；OpenHands 承担代码的无人值守自主开发工作。

这三个工具没有一个能让我做到"提交任务，关电脑，明天检查结果"。Spark 承诺的就是这个。如果它真的做到，它会替代我现有工具组合里的一部分。

该等 Spark 还是用现在已有的工具？

取决于你的情况。

如果你已经是 Google AI Ultra 订阅用户： 下一两周就能拿到访问权限，值得立刻测试。你已经在付费了。

如果你是独立创业者，考虑为了 Spark 去开通 Ultra： 我现在不会这么做。249 美元/月就是 3000 美元/年。先等 30 天让其他用户测完。如果异步执行在真实工作负载下能稳定运行，ROI 计算才会变得合理。现在它只是一个可信度很高的发布公告，不是经过验证的产品。

如果你在用 Claude Pro 或 ChatGPT Plus，工作流以文档和代码为主： 未来几个月你现有的工具组合大概率够用。Claude 的 MCP 生态已经成熟。Spark 的 MCP 兼容性尚未验证。

最该认真考虑现在就加入 Ultra 等待列表的用户：瓶颈在"当前任务没跑完就没法开始下一个 AI 任务"的人。如果你是这种情况，Spark 的持久化虚拟机模型直接解决你的痛点。

我拿到访问权限后会怎么测试

我会坦诚说：我现在还没权限，也不打算假装有。以下是我拿到访问权限后的测试计划。

第 1 周 — 基础异步任务：

提交一个"汇总[客户]本周所有邮件并起草进度更新"任务，隔夜检查
验证 Spark 从表格和文档中提取数字时是否准确，有无幻觉
测试：关掉电脑之后它真的还在跑，还是会卡住？

第 2 周 — MCP 集成压力测试：

将 Spark 连接到我目前与 Claude 一起使用的 3 个 MCP 服务器（Obsidian 知识库、GitHub、Postgres 数据库）
用 Spark 和 Claude + MCP 并行跑同一个任务
测量：任务完成率、幻觉率、节省时间

第 3 周 — 真实工作负载：

给 Spark 布置一个需要 3 小时的独立创业者任务：调研 5 个竞争对手 AI 工具，从它们的官网抓取定价，并整理成对比文档
这是我目前每次要手工花 90 分钟的任务
如果 Spark 在后台完成而我可以专注其他事，249 美元/月的账就容易算了

我会在 openaitoolshub.org 发布测试结果。

Gemini Spark 免费吗？

不免费。根据 I/O 2026 发布会内容，Gemini Spark 首先向 Google AI Ultra 订阅用户开放。目前的 Ultra 套餐约 249 美元/月，而且这还是 Spark 正式加入之前的价格。谷歌没有宣布针对 Spark 的免费层级或试用期。

Gemini Spark 什么时候可以用？

谷歌表示 Ultra 订阅用户将在 2026 年 5 月 19 日发布后"下周"获得访问权限，预计在 2026 年 5 月下旬。更广泛的普及计划尚未宣布。如果你想提前用上，目前唯一的路径是开通 Google AI Ultra。

Gemini Spark 与 ChatGPT Agent 的实际区别是什么？

最大的结构性差异是执行持久性。ChatGPT 的 Agent 功能（包括 Operator）需要活跃的会话 — 关掉浏览器任务就停了。Gemini Spark 运行在谷歌云虚拟机上，意味着你退出登录后它仍然在工作。另外，Spark 可以不需要额外插件直接访问 Gmail、文档、表格和幻灯片，而 ChatGPT 要接入相同功能需要依赖自己的插件生态。这些差异在实践中是否重要，完全取决于 Spark 的任务完成可靠性 — 这只有等真实用户大规模测试后才知道。

等 Spark 开放访问、我能跑真实测试之后，我会持续更新这篇文章。

如果你想了解我如何评测其他 AI 智能体和工具（包括我每天用了好几个月的产品），可以从 AI 智能体架构指南入手了解底层模型，或者看看我写的 Microsoft Agent 框架评测和 Mastra AI 评测，如果你现在就需要 Spark 的替代方案。

作者简介： Jim Liu，悉尼独立创业者，运营多个 AI 工具评测网站，包括 openaitoolshub.org。自 2023 年以来每天测试 AI 生产力工具，专注于代理式 AI 系统在独立创业者和小型团队中的实际表现。了解更多关于 Jim →