译者批注: 本文为 AI 辅助翻译, Jim Liu 本人 (悉尼独立开发者) 已审校术语和关键句的流畅度. 如发现术语错误或表达不自然, 欢迎邮件指正. 原英文版: English.

Holo3 深度评测：性能超越 GPT-5.4 的开源计算机操作（Computer Use）智能体

发布日期： 2026年4月4日
类别： AI 工具评测
阅读时长： 约 10 分钟

H Company 近期发布了一款视觉语言模型（VLM），在 OSWorld 基准测试中跑出了 78.85% 的惊人成绩——这是目前该领域难以逾越的高峰。目前，该模型的开源版本已同步上线 Hugging Face。我们决定在真实的桌面任务中对其进行实测，看看这些数据是否实至名归。

TL;DR — 核心要点：

Holo3 是 H Company 开发的一款专为 GUI 智能体（涵盖 Web、桌面和移动端）优化的视觉语言模型。
在 OSWorld-Verified 测试中得分 78.85%，超越了 GPT-5.4（72.4%）和 Claude Opus 4.6（约 38%）。
提供两个版本：122B API 版（$0.40/$3.00 每百万 Token）和 35B 开源版（Apache 2.0 协议）。
在结构化任务（表单填写、数据提取）中速度极快；但在处理模糊的多步工作流时仍显吃力。
结论： 基准测试数据令人印象深刻，但 78.85% 的得分也意味着每 5 个任务中仍有 1 个会失败。

1. Holo3 是什么？

Holo3 是一款专为“计算机使用”（Computer Use）构建的视觉语言模型。这种 AI 能够像人类一样“看”屏幕、理解界面内容，并执行点击、输入和菜单导航等操作。H Company 于 2026 年 4 月 1 日发布了该模型，其研究论文声称在 OSWorld 基准测试中达到了 SOTA（行业最高水平）。

大多数大语言模型将“计算机使用”视为附加功能——你给 GPT 或 Claude 挂载一个截图工具，喂它像素数据，然后祈祷它能找准点击位置。而 Holo3 从底层架构上就是为此设计的。其训练流程采用了连续反馈循环，模型在“感知屏幕状态”和“决策下一步动作”之间交替进行。

这种架构上的聚焦至关重要。通用模型往往会将算力浪费在“计算机使用”并不需要的语言任务上，而 Holo3 则牺牲了泛化能力，换取了在 GUI 理解和操作层面的深度。

2. OSWorld 基准测试成绩解读

OSWorld-Verified 是计算机使用智能体的行业标准测试。它会给模型提供一个带有桌面环境的虚拟机，并分配诸如“打开电子表格，计算 B 列的平均值，并将其粘贴到新邮件中”之类的任务。模型必须独立完成每一步，没有任何预设指令。

Holo3 在该项测试中得分 78.85%。作为对比，具备计算机操作能力的 GPT-5.4 得分约为 72.4%，而 Claude Opus 4.6 (Computer Use) 仅在 38% 左右。此前的开源模型得分甚至不足 30%。

不过，78.85% 这个数字需要辩证看待。OSWorld 的任务设计通常有明确的成功标准。但在真实的计算机使用场景中，充满了各种变数：意外的弹窗、网络延迟以及在两次访问间发生变化的界面。在受控实验室中通过率达到 78.85% 的模型，在复杂的生产环境中未必能达到同等水平。

尽管如此，Holo3 与其他模型的差距依然显著。从 72% 提升到 79% 看起来幅度不大，但在实际应用中，这意味着更少的重试次数、更少的死机状态，以及更多无需人工干预即可完成的任务。

3. 版本对比与定价方案

H Company 同时发布了两个版本，这在同性能级别的模型中非常罕见：

规格	Holo3-122B-A10B	Holo3-35B-A3B
总参数量	122B (1220 亿)	35B (350 亿)
激活参数量	约 10B (MoE 架构)	约 3B (MoE 架构)
获取方式	仅限 API	开源 (Apache 2.0)
输入价格	$0.40 / 百万 Token	免费 (私有化部署)
输出价格	$3.00 / 百万 Token	免费 (私有化部署)
OSWorld 评分	78.85%	约 68% (预估)
显存需求	无 (云端)	约 24GB FP16 / 约 12GB INT4
Hugging Face	否	是

两个版本都采用了混合专家（MoE）架构，这意味着每次推理仅激活一小部分参数。这也是为什么 35B 模型可以在消费级硬件上运行的原因——它实际活跃的参数仅为 3B 左右。

API 版本的定价极具攻击性。如果算上每张截图产生的输入 Token，通过 API 使用 Claude Computer Use 的成本约为每 1000 张截图 15 美元。而 Holo3 的 API 费用折算下来约为 1.50 美元。高达 10 倍的成本优势，对于需要运行数千个自动化任务的企业来说至关重要。

4. Holo3 vs Claude vs GPT-5.4 vs Operator

“计算机使用”赛道正变得拥挤。以下是截至 2026 年 4 月初主流方案的对比：

功能	Holo3 (122B API)	Claude Computer Use	GPT-5.4 CU	OpenAI Operator
OSWorld 评分	78.85%	约 38%	约 72.4%	N/A
是否开源	提供 35B 变体	否	否	否
1000 次任务成本	约 $1.50	约 $15	约 $12	$200/月 (固定)
支持界面类型	Web + 桌面 + 移动	Web + 桌面	Web + 桌面	仅 Web
错误恢复能力	基础重试逻辑	极强	中等	人工介入
可否私有化部署	是 (35B 模型)	否	否	否
成熟度	全新 (2026年4月)	约 6 个月	约 3 个月	约 8 个月

单从成本上看，Holo3 就非常值得关注。但“错误恢复能力”是决定实际体验的关键。Claude 拥有数月的生产环境反馈积累，它懂得如何处理 Cookie 弹窗、验证码、加载动画以及挡住点击目标的遮罩层。而 Holo3 目前还不具备这种“韧性”，遇到意外情况时，它往往只会重复之前的操作，而不是尝试寻找绕过路径。

5. 桌面任务真实场景实测

我们使用 Holo3-122B (API) 和开源的 35B 模型测试了五个难度递增的桌面任务。

任务 1：填写网页表单（简单）

导航到联系表单，填写姓名/邮箱/留言并提交。122B API 模型在 12 秒内完美完成。35B 模型虽然也成功了，但耗时 28 秒，且在纠正点击偏差前误点了邮箱输入框。

任务 2：从电子表格提取数据（中等）

打开 LibreOffice Calc，求特定列的总和，并将结果粘贴到文本文件中。两个模型均顺利完成。122B 版本耗时 19 秒；35B 版本耗时 41 秒，且第一次尝试时把文本文件建错了目录。

任务 3：多应用跨平台流转（困难）

从 PDF 中复制表格，粘贴到电子表格中，添加计算列，最后通过邮件发送结果。122B 模型完成了前 3 步，但发送邮件时漏掉了附件。35B 模型卡在了从 PDF 查看器复制内容的环节——它没搞清楚 Okular 的右键上下文菜单。

任务 4：处理意外弹窗（压力测试）

我们在任务执行中途故意触发了一个系统通知。122B 模型停顿了一下，关闭了通知并继续任务。35B 模型则误点了通知，导致打开了另一个应用，并彻底忘记了原来的任务。这就是 78.85% 的基准分数在现实面前的“骨感”之处。

6. Holo3 的短板在哪里？

我们必须直言不讳地指出它的缺陷，因为如果不看这些细节，基准测试的头条新闻会产生误导：

❌ 缺乏错误推理能力。 当 Holo3 失败时，它只会简单重试（最多 3 次），而不是分析失败原因。相比之下，Claude 能“读懂”错误提示并调整策略。
❌ 动态 UI 表现脆弱。 对于重度依赖 JS 渲染、无限滚动或动画过渡的网站，它很容易失手。它的截图速度有时比页面加载还快。
❌ 缺乏持久记忆。 每次任务都是从零开始。如果你希望它记住登录凭据或偏好设置，你必须在每次调用时重新传入。
❌ 35B 模型的质量差距明显。 开源版本比 API 版本弱不少——在我们的测试中性能低了约 10-15%。 “开源”并不等同于“等效”。
❌ 文档匮乏。 H Company 虽然发布了权重和论文，但缺乏实用的集成指南。

7. 谁最适合使用 Holo3？

建议使用 Holo3 的情况： 你正在大规模构建自动化的桌面工作流，且对成本非常敏感。相比 Claude，10 倍的价格优势在处理批量任务（如数据爬取、表单自动填写、跨站数据提取）时具有决定性意义。此外，开源的 35B 模型也让那些无法将屏幕数据传给第三方 API 的公司有了可行的私有化方案。

建议继续使用 Claude 或 GPT-5.4 的情况： 你需要处理复杂、多步骤且容易出错的任务。错误恢复能力的差距是实实在在的，这不仅仅是模型更新就能解决的问题。

对于正在开发 AI 辅助开发工具或探索 Agent 与软件交互的开发者来说，Holo3 的开源权重无论在生产中是否成熟，都极具研究价值。

8. 常见问题 (FAQ)

Holo3 是免费的吗？

较小的 Holo3-35B-A3B 模型基于 Apache 2.0 协议完全开源，可在 Hugging Face 下载。如果你有足够的 GPU（建议显存 24GB 以上），可以免费在本地运行。较大的 122B 模型仅限 API 使用，输入价格为 $0.40/百万 Token，输出为 $3.00/百万 Token。

Holo3 和 Claude Computer Use 相比如何？

在 OSWorld-Verified 基准测试中，Holo3 得分为 78.85%，而 Claude (Opus 4.6) 约为 38%。但基准测试衡量的是孤立的任务。在真实测试中，Claude 在处理模糊指令和错误恢复方面更加优雅，而 Holo3 胜在速度快、成本低。

本地运行 Holo3 需要什么硬件？

开源的 35B 模型采用 MoE 架构，每次推理仅需约 3B 激活参数。FP16 推理约需 24GB 显存；如果量化到 INT4，12-16GB 即可。NVIDIA RTX 4090 或 A6000 是理想选择。

Holo3 可以自动化手机 App 吗？

H Company 声称支持 Web、桌面和移动端 GUI。我们主要测试了桌面和 Web。根据社区早期反馈，通过安卓模拟器进行移动自动化是可行的，但配置较复杂，准确率略低于桌面端。

特别推荐

GamsGo：低至 1 折订阅各类 AI 工具——ChatGPT Plus、Claude Pro、Midjourney 等。获取 AI 工具优惠。

最后更新： 2026年4月4日
作者： Jim Liu，悉尼 Web 开发者，自 2025 年底以来专注于测试各类 AI 计算机使用工具。

给中国大陆开发者的本地视角

看到 OSWorld 分数确实眼馋，但国内开发者上手有门槛。首先 Hugging Face 权重直连基本没戏，API 的跨境延迟对这种需要高频截图回传的 GUI 任务极其致命。合规上，做外贸自动化或出海 SaaS 挺香，但国内内网环境建议慎重，可以等 DeepSeek 或智谱的同类方案。实测 35B 版本在本地 4090 上跑量化更稳，能规避网络波动和数据出境审计。不过原生模型对国内那种布局复杂的 App 适配一般，真要商用，还是得用本地 UI 截图做一层微调。