Holo3 深度评测:性能超越 GPT-5.4 的开源计算机操作智能体
H Company 的 Holo3 在 OSWorld 榜单取得 78.85% 的成绩,以 1/10 的成本击败 GPT-5.4 和 Opus 4.6。该开源 35B 模型已在 Hugging Face 发布,我们将带你实测其在真实桌面任务中的表现。
译者批注: 本文为 AI 辅助翻译, Jim Liu 本人 (悉尼独立开发者) 已审校术语和关键句的流畅度. 如发现术语错误或表达不自然, 欢迎邮件指正. 原英文版: English.
Holo3 深度评测:性能超越 GPT-5.4 的开源计算机操作(Computer Use)智能体
发布日期: 2026年4月4日
类别: AI 工具评测
阅读时长: 约 10 分钟
H Company 近期发布了一款视觉语言模型(VLM),在 OSWorld 基准测试中跑出了 78.85% 的惊人成绩——这是目前该领域难以逾越的高峰。目前,该模型的开源版本已同步上线 Hugging Face。我们决定在真实的桌面任务中对其进行实测,看看这些数据是否实至名归。
TL;DR — 核心要点:
- Holo3 是 H Company 开发的一款专为 GUI 智能体(涵盖 Web、桌面和移动端)优化的视觉语言模型。
- 在 OSWorld-Verified 测试中得分 78.85%,超越了 GPT-5.4(72.4%)和 Claude Opus 4.6(约 38%)。
- 提供两个版本:122B API 版($0.40/$3.00 每百万 Token)和 35B 开源版(Apache 2.0 协议)。
- 在结构化任务(表单填写、数据提取)中速度极快;但在处理模糊的多步工作流时仍显吃力。
- 结论: 基准测试数据令人印象深刻,但 78.85% 的得分也意味着每 5 个任务中仍有 1 个会失败。
目录
- Holo3 是什么?
- OSWorld 基准测试成绩解读
- 版本对比与定价方案
- Holo3 vs Claude vs GPT-5.4 vs Operator
- 桌面任务真实场景实测
- Holo3 的短板在哪里?
- 谁最适合使用 Holo3?
- 常见问题 (FAQ)
1. Holo3 是什么?
Holo3 是一款专为“计算机使用”(Computer Use)构建的视觉语言模型。这种 AI 能够像人类一样“看”屏幕、理解界面内容,并执行点击、输入和菜单导航等操作。H Company 于 2026 年 4 月 1 日发布了该模型,其研究论文声称在 OSWorld 基准测试中达到了 SOTA(行业最高水平)。
大多数大语言模型将“计算机使用”视为附加功能——你给 GPT 或 Claude 挂载一个截图工具,喂它像素数据,然后祈祷它能找准点击位置。而 Holo3 从底层架构上就是为此设计的。其训练流程采用了连续反馈循环,模型在“感知屏幕状态”和“决策下一步动作”之间交替进行。
这种架构上的聚焦至关重要。通用模型往往会将算力浪费在“计算机使用”并不需要的语言任务上,而 Holo3 则牺牲了泛化能力,换取了在 GUI 理解和操作层面的深度。
2. OSWorld 基准测试成绩解读
OSWorld-Verified 是计算机使用智能体的行业标准测试。它会给模型提供一个带有桌面环境的虚拟机,并分配诸如“打开电子表格,计算 B 列的平均值,并将其粘贴到新邮件中”之类的任务。模型必须独立完成每一步,没有任何预设指令。
Holo3 在该项测试中得分 78.85%。作为对比,具备计算机操作能力的 GPT-5.4 得分约为 72.4%,而 Claude Opus 4.6 (Computer Use) 仅在 38% 左右。此前的开源模型得分甚至不足 30%。
不过,78.85% 这个数字需要辩证看待。OSWorld 的任务设计通常有明确的成功标准。但在真实的计算机使用场景中,充满了各种变数:意外的弹窗、网络延迟以及在两次访问间发生变化的界面。在受控实验室中通过率达到 78.85% 的模型,在复杂的生产环境中未必能达到同等水平。
尽管如此,Holo3 与其他模型的差距依然显著。从 72% 提升到 79% 看起来幅度不大,但在实际应用中,这意味着更少的重试次数、更少的死机状态,以及更多无需人工干预即可完成的任务。
3. 版本对比与定价方案
H Company 同时发布了两个版本,这在同性能级别的模型中非常罕见:
| 规格 | Holo3-122B-A10B | Holo3-35B-A3B |
|---|---|---|
| 总参数量 | 122B (1220 亿) | 35B (350 亿) |
| 激活参数量 | 约 10B (MoE 架构) | 约 3B (MoE 架构) |
| 获取方式 | 仅限 API | 开源 (Apache 2.0) |
| 输入价格 | $0.40 / 百万 Token | 免费 (私有化部署) |
| 输出价格 | $3.00 / 百万 Token | 免费 (私有化部署) |
| OSWorld 评分 | 78.85% | 约 68% (预估) |
| 显存需求 | 无 (云端) | 约 24GB FP16 / 约 12GB INT4 |
| Hugging Face | 否 | 是 |
两个版本都采用了混合专家(MoE)架构,这意味着每次推理仅激活一小部分参数。这也是为什么 35B 模型可以在消费级硬件上运行的原因——它实际活跃的参数仅为 3B 左右。
API 版本的定价极具攻击性。如果算上每张截图产生的输入 Token,通过 API 使用 Claude Computer Use 的成本约为每 1000 张截图 15 美元。而 Holo3 的 API 费用折算下来约为 1.50 美元。高达 10 倍的成本优势,对于需要运行数千个自动化任务的企业来说至关重要。
4. Holo3 vs Claude vs GPT-5.4 vs Operator
“计算机使用”赛道正变得拥挤。以下是截至 2026 年 4 月初主流方案的对比:
| 功能 | Holo3 (122B API) | Claude Computer Use | GPT-5.4 CU | OpenAI Operator |
|---|---|---|---|---|
| OSWorld 评分 | 78.85% | 约 38% | 约 72.4% | N/A |
| 是否开源 | 提供 35B 变体 | 否 | 否 | 否 |
| 1000 次任务成本 | 约 $1.50 | 约 $15 | 约 $12 | $200/月 (固定) |
| 支持界面类型 | Web + 桌面 + 移动 | Web + 桌面 | Web + 桌面 | 仅 Web |
| 错误恢复能力 | 基础重试逻辑 | 极强 | 中等 | 人工介入 |
| 可否私有化部署 | 是 (35B 模型) | 否 | 否 | 否 |
| 成熟度 | 全新 (2026年4月) | 约 6 个月 | 约 3 个月 | 约 8 个月 |
单从成本上看,Holo3 就非常值得关注。但“错误恢复能力”是决定实际体验的关键。Claude 拥有数月的生产环境反馈积累,它懂得如何处理 Cookie 弹窗、验证码、加载动画以及挡住点击目标的遮罩层。而 Holo3 目前还不具备这种“韧性”,遇到意外情况时,它往往只会重复之前的操作,而不是尝试寻找绕过路径。
5. 桌面任务真实场景实测
我们使用 Holo3-122B (API) 和开源的 35B 模型测试了五个难度递增的桌面任务。
任务 1:填写网页表单(简单)
导航到联系表单,填写姓名/邮箱/留言并提交。122B API 模型在 12 秒内完美完成。35B 模型虽然也成功了,但耗时 28 秒,且在纠正点击偏差前误点了邮箱输入框。
任务 2:从电子表格提取数据(中等)
打开 LibreOffice Calc,求特定列的总和,并将结果粘贴到文本文件中。两个模型均顺利完成。122B 版本耗时 19 秒;35B 版本耗时 41 秒,且第一次尝试时把文本文件建错了目录。
任务 3:多应用跨平台流转(困难)
从 PDF 中复制表格,粘贴到电子表格中,添加计算列,最后通过邮件发送结果。122B 模型完成了前 3 步,但发送邮件时漏掉了附件。35B 模型卡在了从 PDF 查看器复制内容的环节——它没搞清楚 Okular 的右键上下文菜单。
任务 4:处理意外弹窗(压力测试)
我们在任务执行中途故意触发了一个系统通知。122B 模型停顿了一下,关闭了通知并继续任务。35B 模型则误点了通知,导致打开了另一个应用,并彻底忘记了原来的任务。这就是 78.85% 的基准分数在现实面前的“骨感”之处。
6. Holo3 的短板在哪里?
我们必须直言不讳地指出它的缺陷,因为如果不看这些细节,基准测试的头条新闻会产生误导:
- ❌ 缺乏错误推理能力。 当 Holo3 失败时,它只会简单重试(最多 3 次),而不是分析失败原因。相比之下,Claude 能“读懂”错误提示并调整策略。
- ❌ 动态 UI 表现脆弱。 对于重度依赖 JS 渲染、无限滚动或动画过渡的网站,它很容易失手。它的截图速度有时比页面加载还快。
- ❌ 缺乏持久记忆。 每次任务都是从零开始。如果你希望它记住登录凭据或偏好设置,你必须在每次调用时重新传入。
- ❌ 35B 模型的质量差距明显。 开源版本比 API 版本弱不少——在我们的测试中性能低了约 10-15%。 “开源”并不等同于“等效”。
- ❌ 文档匮乏。 H Company 虽然发布了权重和论文,但缺乏实用的集成指南。
7. 谁最适合使用 Holo3?
建议使用 Holo3 的情况: 你正在大规模构建自动化的桌面工作流,且对成本非常敏感。相比 Claude,10 倍的价格优势在处理批量任务(如数据爬取、表单自动填写、跨站数据提取)时具有决定性意义。此外,开源的 35B 模型也让那些无法将屏幕数据传给第三方 API 的公司有了可行的私有化方案。
建议继续使用 Claude 或 GPT-5.4 的情况: 你需要处理复杂、多步骤且容易出错的任务。错误恢复能力的差距是实实在在的,这不仅仅是模型更新就能解决的问题。
对于正在开发 AI 辅助开发工具 或探索 Agent 与软件交互的开发者来说,Holo3 的开源权重无论在生产中是否成熟,都极具研究价值。
8. 常见问题 (FAQ)
Holo3 是免费的吗?
较小的 Holo3-35B-A3B 模型基于 Apache 2.0 协议完全开源,可在 Hugging Face 下载。如果你有足够的 GPU(建议显存 24GB 以上),可以免费在本地运行。较大的 122B 模型仅限 API 使用,输入价格为 $0.40/百万 Token,输出为 $3.00/百万 Token。
Holo3 和 Claude Computer Use 相比如何?
在 OSWorld-Verified 基准测试中,Holo3 得分为 78.85%,而 Claude (Opus 4.6) 约为 38%。但基准测试衡量的是孤立的任务。在真实测试中,Claude 在处理模糊指令和错误恢复方面更加优雅,而 Holo3 胜在速度快、成本低。
本地运行 Holo3 需要什么硬件?
开源的 35B 模型采用 MoE 架构,每次推理仅需约 3B 激活参数。FP16 推理约需 24GB 显存;如果量化到 INT4,12-16GB 即可。NVIDIA RTX 4090 或 A6000 是理想选择。
Holo3 可以自动化手机 App 吗?
H Company 声称支持 Web、桌面和移动端 GUI。我们主要测试了桌面和 Web。根据社区早期反馈,通过安卓模拟器进行移动自动化是可行的,但配置较复杂,准确率略低于桌面端。
特别推荐
GamsGo:低至 1 折订阅各类 AI 工具——ChatGPT Plus、Claude Pro、Midjourney 等。 获取 AI 工具优惠。
最后更新: 2026年4月4日
作者: Jim Liu,悉尼 Web 开发者,自 2025 年底以来专注于测试各类 AI 计算机使用工具。
给中国大陆开发者的本地视角
看到 OSWorld 分数确实眼馋,但国内开发者上手有门槛。首先 Hugging Face 权重直连基本没戏,API 的跨境延迟对这种需要高频截图回传的 GUI 任务极其致命。合规上,做外贸自动化或出海 SaaS 挺香,但国内内网环境建议慎重,可以等 DeepSeek 或智谱的同类方案。实测 35B 版本在本地 4090 上跑量化更稳,能规避网络波动和数据出境审计。不过原生模型对国内那种布局复杂的 App 适配一般,真要商用,还是得用本地 UI 截图做一层微调。