Skip to main content

Holo3 レビュー — GPT-5.4を凌駕するオープンソースのコンピュータ操作エージェント

著者: Jim Liu··9 分で読める

H社のHolo3はOSWorldで78.85%を記録し、1/10のコストでGPT-5.4やOpus 4.6を上回りました。Hugging Faceで公開されている35Bのオープンソースモデルを、実際のデスクトップタスクで検証します。

訳者注: この記事はAI翻訳ベースで、Jim Liu(シドニーの個人開発者)が用語と文章の自然さを校閲しました。誤訳や不自然な表現があれば、メールでご指摘ください。原文(英語): English.

ご依頼ありがとうございます。テック系ブログとしての専門性を維持しつつ、読みやすさとSEOを意識した自然な日本語に翻訳いたしました。


Holo3 レビュー — GPT-5.4 を凌駕する、オープンソースの「Computer Use(コンピュータ操作)」エージェント

公開日: 2026年4月4日
カテゴリ: AIツールレビュー
読了時間: 約10分

H Company(H社)が、これまで誰も突破できなかった難攻不落のベンチマーク「OSWorld」で 78.85% という驚異的なスコアを叩き出したビジョン言語モデル(VLM)をリリースしました。このオープンソース版はすでに Hugging Face で公開されています。ベンチマークの数字が実際のデスクトップ作業でも通用するのか、実機で検証を行いました。


TL;DR — 主な要点:

  • Holo3 は、ウェブ、デスクトップ、モバイルの GUI 操作に最適化された H Company 製のビジョン言語モデル(VLM)です。
  • OSWorld-Verified ベンチマークで 78.85% を記録。GPT-5.4(72.4%)や Claude Opus 4.6(約38%)を上回る結果を出しています。
  • 2つのバリアント: 122B API専用モデル(100万トークンあたり $0.40/$3.00)と、35B オープンソースモデル(Apache 2.0 ライセンス)。
  • 得意・不得意: フォーム入力やデータ抽出などの構造化されたタスクには高速ですが、曖昧な複数ステップのワークフローでは苦戦する傾向があります。
  • 結論: ベンチマークは驚異的ですが、成功率 78.85% ということは、**「約5回に1回は失敗する」**という現実を忘れてはいけません。

目次

  1. Holo3 とは何か?
  2. OSWorld ベンチマークのスコアを徹底解説
  3. 2つのモデルと価格体系
  4. 比較:Holo3 vs Claude vs GPT-5.4 vs Operator
  5. デスクトップ作業での実機テスト
  6. Holo3 の弱点と限界
  7. どのようなユーザーに向いているか?
  8. よくある質問 (FAQ)

1. Holo3 とは何か?

Holo3 は、コンピュータ操作(Computer Use)に特化して構築されたビジョン言語モデルです。画面を見て内容を理解し、クリック、タイピング、メニュー操作などのアクションを自律的に実行します。H Company は2026年4月1日に、OSWorld ベンチマークで SOTA(最先端)を達成したという研究論文とともに本モデルを公開しました。

これまでの大規模言語モデル(LLM)にとって、コンピュータ操作はあくまで「後付け」の機能でした。GPT や Claude にスクリーンショットツールを組み合わせ、ピクセルデータを与えて「どこをクリックすべきか」を推測させるのが一般的でした。一方、Holo3 は最初からこのワークフローのために設計されています。トレーニングパイプラインには、画面の状態を認識することと、次に行うべきアクションを決定することを交互に繰り返す継続的なフィードバックループが組み込まれています。

このアーキテクチャの違いは重要です。汎用モデルはコンピュータ操作には不要な言語能力にリソースを割いていますが、Holo3 は GUI の理解と操作という特定のドメインに特化することで、圧倒的な深みを実現しています。


2. OSWorld ベンチマークのスコアを徹底解説

「OSWorld-Verified」は、コンピュータ操作エージェントの標準的なテストです。モデルに仮想マシンのデスクトップ環境を与え、「表計算ソフトを開き、B列の平均値を求め、それを新しいメールに貼り付けて送信せよ」といった指示を出します。モデルは事前の手助けなしに、自力で全ステップを完結させる必要があります。

Holo3 はこのベンチマークで 78.85% を記録しました。比較として、GPT-5.4(Computer Use 対応版)は約 72.4%、Claude Opus 4.6 は 38% 前後です。以前のオープンソースモデルは 30% にも届いていませんでした。

ただし、この 78.85% という数字には注意が必要です。OSWorld のタスクは「最終状態が期待通りか」を機械的に判定できるよう設計されています。しかし、現実のコンピュータ操作には、曖昧な指示、予期せぬポップアップ、通信の遅延、訪問するたびに変わるインターフェースといった要素がつきものです。ラボ環境で 78.85% の成功率を出すモデルが、本番環境のあらゆるタスクで同じ成功率を維持できるわけではありません。

それでも、Holo3 と他モデルとの差は無視できません。72% から 79% への向上はわずかに見えるかもしれませんが、実用レベルでは「リトライ回数の減少」「フリーズ状態の回避」「人間の介入なしで完了するタスクの増加」を意味します。


3. 2つのモデルと価格体系

H Company は、このパフォーマンスレベルのモデルとしては珍しく、2つのバージョンをリリースしました。

仕様 Holo3-122B-A10B Holo3-35B-A3B
総パラメータ数 122B 35B
アクティブパラメータ数 約 10B (MoE) 約 3B (MoE)
アクセス方法 API のみ オープンソース (Apache 2.0)
入力価格 (1M tokens) $0.40 無料 (セルフホスト)
出力価格 (1M tokens) $3.00 無料 (セルフホスト)
OSWorld スコア 78.85% 約 68% (推定)
必要 VRAM N/A (API) 約 24GB (FP16) / 約 12GB (INT4)
Hugging Face 公開 なし あり

どちらも Mixture-of-Experts (MoE) アーキテクチャを採用しており、推論ごとにアクティブになるのは全パラメータの一部のみです。そのため、35B モデルは民生用ハードウェアでも動作可能です(実際には常に約 3B パラメータのみが動いています)。

API モデルの価格設定は非常に攻撃的です。Claude Computer Use を API 経由で利用する場合、画像トークンを含めると 1,000 スクリーンショットあたり約 $15 かかります。Holo3 の API($0.40 / $3.00)なら、同じワークロードを約 $1.50 で処理でき、約 10 倍のコスト削減になります。これは、数千件の自動化タスクを回す企業にとって決定的な差となります。


4. 比較:Holo3 vs Claude vs GPT-5.4 vs Operator

「Computer Use」分野は激戦区です。2026年4月初旬時点での主要な選択肢を比較しました。

機能 Holo3 (122B API) Claude Computer Use GPT-5.4 CU OpenAI Operator
OSWorld スコア 78.85% 約 38% 約 72.4% N/A
オープンソース 35B 版あり なし なし なし
1,000タスクあたりのコスト 約 $1.50 約 $15 約 $12 月額 $200 固定
対応 GUI Web + Desktop + Mobile Web + Desktop Web + Desktop Web のみ
エラー修復能力 基本的なリトライのみ 非常に高い 中程度 人間への引き継ぎ
セルフホスト 可能 (35B モデル) 不可 不可 不可
成熟度 新規 (2026年4月) 約 6ヶ月 約 3ヶ月 約 8ヶ月

コスト面だけでも Holo3 は注目に値しますが、実運用で最も重要なのは「エラー修復能力」です。Claude Computer Use は数ヶ月にわたる本番運用のフィードバックが蓄積されており、クッキーバナー、キャプチャ、読み込み中のスピナー、目的の要素を隠すポップアップなどへの対処に長けています。Holo3 はまだその域に達しておらず、予期せぬ事態が起きると、別の回避策を考えるのではなく同じ動作を繰り返す傾向があります。


5. デスクトップ作業での実機テスト

Holo3-122B (API) とオープンソースの 35B モデルを使用し、難易度の異なる5つのタスクをテストしました。

タスク 1: ウェブフォームの入力 (初級)

お問い合わせフォームに移動し、名前、メール、メッセージを入力して送信する。

  • 122B API: 完璧に完了(約12秒)。
  • 35B OSS: 完了したが約28秒かかり、一度メール欄のクリックをミスしたが自力で修正。

タスク 2: スプレッドシートからのデータ抽出 (中級)

LibreOffice Calc を開き、特定の列の合計を求め、その結果をテキストファイルに保存する。

  • 122B API: 19秒で完了。
  • 35B OSS: 41秒で完了。最初の試行ではテキストファイルを間違ったディレクトリに作成。

タスク 3: マルチアプリ・ワークフロー (上級)

PDF から表をコピーし、スプレッドシートに貼り付け、計算列を追加して結果をメールで送信する。

  • 122B API: 4ステップ中3ステップまで完了したが、メールにファイルを添付し忘れた。
  • 35B OSS: PDF ビューワー(Okular)の右クリックコンテキストメニューが操作できず、コピーの段階でスタックした。

タスク 4: 予期せぬポップアップの処理 (ストレス・テスト)

作業中に意図的にシステム通知を発生させる。

  • 122B API: 作業を一時停止し、通知を閉じてから再開。
  • 35B OSS: 通知を閉じるのではなくクリックしてしまい、別のアプリが開いたことで元のタスクを見失った。これこそが「ベンチマークスコア」と「現実」の境界線です。

6. Holo3 の弱点と限界

ベンチマークの派手な数字に惑わされないよう、率直な欠点を挙げます。

  • エラー推論の欠如: 失敗した際、なぜ失敗したかを分析して戦略を変えるのではなく、最大3回まで同じ操作を繰り返します。Claude はエラーメッセージを読んで対応を調整できます。
  • 動的な UI に弱い: JavaScript による激しい描画、無限スクロール、アニメーションが多用されるサイトでは、要素の読み込み完了を待たずにスクリーンショットを撮ってしまうことがあります。
  • 永続メモリがない: 各タスクは常にゼロからのスタートです。ログイン情報や好みの設定を覚えさせたい場合は、毎回プロンプトで渡す必要があります。
  • 35B モデルの品質差: オープンソース版は API 版に比べ、テストしたタスクで 10〜15% ほど精度が落ちます。「オープンソース = 同等の性能」ではありません。
  • ドキュメントの不足: H Company はモデルの重みと論文は公開しましたが、実践的なインテグレーションガイドは現時点ではほぼ皆無です。

7. どのようなユーザーに向いているか?

Holo3 を使うべきケース:
コスト効率を重視し、大規模な自動化ワークフローを構築している場合。Claude より 10 倍安い価格設定は、数百のサイトを巡回するスクレイピング、フォーム入力、データ抽出などのバッチ処理において圧倒的な優位性があります。また、画面データを外部 API に送信できない企業にとって、35B モデルのセルフホストは唯一の現実的な選択肢となります。

Claude や GPT-5.4 を使い続けるべきケース:
トラブルが起きやすい複雑なマルチステップ・タスクで、高い信頼性が必要な場合。エラー修復能力の差は実務において非常に大きく、これは単なるモデルのアップデートだけでは埋まらない溝です。

AI 搭載の開発ツールを開発しているエンジニアや、エージェントと GUI の相互作用を研究している層にとって、Holo3 のオープンな重みは製品レベルの完成度に関わらず、研究対象として非常に価値があります。


8. よくある質問 (FAQ)

Holo3 は無料で使えますか?

小型の Holo3-35B-A3B モデルは Apache 2.0 ライセンスの下で完全にオープンソース化されており、Hugging Face から入手可能です。高性能な GPU(VRAM 24GB 以上推奨)があれば、無料でローカル実行できます。大型の Holo3-122B-A10B は API 専用で有料です。

Claude Computer Use との最大の違いは何ですか?

OSWorld ベンチマークでは Holo3(78.85%)が Claude(約38%)を圧倒していますが、実運用での挙動は異なります。Claude は曖昧な指示やエラーへの対応が非常に洗練されています。一方、Holo3 は高速かつ安価ですが、堅牢性(タフさ)では一歩譲ります。

ローカルで動かすにはどの程度のスペックが必要ですか?

35B モデル(実質 3B アクティブ)を FP16 精度で動かすには、約 24GB の VRAM が必要です。INT4 量子化を行えば 12〜16GB 程度でも動作します。NVIDIA RTX 4090 や A6000 などが適しています。

モバイルアプリも自動化できますか?

H Company は Web、デスクトップに加え、モバイル GUI への対応も謳っています。今回のテストはデスクトップと Web に限定しましたが、コミュニティからの初期報告によると、Android エミュレータ経由の操作は可能であるものの、デスクトップ版に比べると精度はやや落ちるようです。


特別オファー

GamsGo: ChatGPT Plus、Claude Pro、Midjourney などの AI ツール・サブスクリプションを最大 90% オフで利用できます。AIツールの割引をチェックする


最終更新: 2026年4月4日
執筆: Jim Liu。シドニーを拠点とするウェブデベロッパー。2025年後半から AI コンピュータ操作ツールの検証を続けている。


日本のエンジニア視点で補足

Holo3の35BモデルがApache 2.0で公開されたことは、セキュリティ要件が厳しい国内企業のDXにおいて、機密データを外部に出さず「Computer Use」を試行できる大きな転換点です。Zenn等では、日本語GUI特有の要素やIME切り替えへの対応精度が議論の的となっています。成功率約8割という現状を鑑みると、完全自動化よりは「Human-in-the-loop」を前提としたレガシーシステム操作の補助として、まずは社内ツールから適用するのが現実的な落とし所でしょう。

We use analytics to understand how visitors use the site — no ads, no cross-site tracking. Privacy Policy