Gemini 3.5 FlashにPC画面操作機能「Computer Use」を標準搭載

画像の出典:Google

多くの企業において、レガシーシステムやSaaS(Software as a Service)の操作は、依然として人間による手作業に依存しており、業務自動化の大きな障壁となっています。

Googleが発表した「Gemini 3.5 Flash」への「Computer Use(コンピュータ使用)」機能の標準搭載は、この課題を解決し、AIエージェントがブラウザやデスクトップアプリを直接操作する次世代の自動化環境を切り拓くものです。

本記事では、今回のアップデートがもたらす技術的意義と、企業が導入を検討する際の安全機構について詳しく解説します。

画面操作の標準化がもたらす自動化の転換点

独立モデルからネイティブ統合への進化

これまで、AIがPC画面を認識して操作する機能は、専用の独立したモデルで提供されることが一般的でした。しかし、今回のアップデートにより、Gemini 3.5 Flashにおいて「Computer Use」が標準ツールとしてネイティブ統合されました。これにより、関数呼び出し(Function Calling)や検索、地図連携といった既存のAI機能と、画面操作機能が同一のモデル内でシームレスに連携可能となります。モデル間のルーティング(振り分け)が不要になったことで、一つのエージェントが「情報を検索し、地図を確認し、そのまま業務アプリの画面を操作して入力を完了させる」という一連のプロセスを、より高速かつ安定的に実行できるようになりました。

既存アプリの自動化が現実味を帯びる背景

API(Application Programming Interface)が公開されていない古いシステムや、複雑なUIを持つ業務アプリケーションであっても、人間と同じように「画面を見て操作する」ことで自動化が可能になります。これは、これまで自動化の対象外とされていたバックオフィス業務や、複数のツールを横断する定型作業を、AIエージェントが代行する未来を強く示唆しています。開発者は、API連携の有無に縛られることなく、画面上の要素を認識させるだけで、既存の業務フローをデジタル化できる環境が整いつつあります。

エンタープライズ導入を支える安全機構

標的型の敵対的学習による防御

AIがPCを直接操作することには、セキュリティ上のリスクが伴います。特に、悪意のあるプロンプトによって意図しない操作を誘発される「プロンプトインジェクション」は大きな懸念事項です。これに対しGoogleは、標的型の敵対的学習(Adversarial Training)を実施することで、モデルの堅牢性を高めています。モデル自体が攻撃手法を学習し、防御能力を向上させることで、実務環境での安全な運用を担保する設計となっています。

業務を守る2つの安全オプション

企業利用を想定し、Gemini APIおよびGemini Enterprise Agent Platformでは、以下の2つの安全機構がオプションとして提供されます。第一に、機微な操作や不可逆的なアクション(データの削除や決済など)を実行する際、AIが明示的にユーザーの確認を求める機能です。第二に、間接的なプロンプトインジェクションの兆候を検知した際に、タスクを即座に自動停止する機能です。これらのガードレールにより、AIエージェントの自律性を確保しつつ、企業のガバナンスを維持することが可能になります。

導入に向けた今後の展望

開発環境とプラットフォームの拡充

今回の機能は、Gemini APIおよびGemini Enterprise Agent Platformを通じて提供されます。これにより、企業のDX担当者は、自社の業務フローに合わせたAIエージェントを迅速に構築・展開できます。特に、既存の業務システムを改修することなく、AIを「ユーザー」として組み込む手法は、コストと時間を抑えたDX推進の有力な選択肢となるでしょう。

業務自動化の新たなフェーズへ

2026年6月24日の発表以降、AIエージェントは単なる「回答者」から「実行者」へと役割を大きく変えようとしています。画面操作能力が標準化されたことで、今後は「どの業務をAIに任せるか」という業務設計の能力が、企業の競争力を左右する時代が到来します。まずは、定型的なPC作業の棚卸しを行い、どのプロセスがAIによる画面操作に適しているかの検証から始めることが、導入の第一歩となるはずです。

まとめ

  • Gemini 3.5 FlashにPC画面操作機能「Computer Use」が標準搭載され、API不要の業務自動化が可能に。
  • モデルのネイティブ統合により、検索・地図・操作を単一エージェントで完結できるようになった。
  • ユーザー確認機能や攻撃検知機能など、エンタープライズ向けの安全機構が充実している。
  • 既存システムを改修せず自動化できるため、DXの推進スピードが大幅に向上する見込み。

まずは自社の業務フローを可視化し、AIエージェントが操作可能な定型作業の特定から着手することをお勧めします。

💡 編集部の見解

AIエージェントが「画面を見て操作する」能力を標準装備したことで、API連携の壁を超えた業務自動化が現実的な選択肢となりました。

  • 機能の統合:従来は独立したモデルが必要だった画面操作機能が、Gemini 3.5 Flashにネイティブ統合されたことで運用効率が向上しました。
  • 安全性の担保:敵対的学習やタスク停止機能など、企業利用に不可欠なガードレールがオプションとして提供され、実務導入の障壁を下げています。

今後は、既存の業務フローをいかにAIエージェントに適した形へ再設計できるかが、DXの成否を分ける鍵になりそうです。

出典:Google

無料ニュースレター
AIの大事な変化を、見逃さない。

海外の最新AIニュースも、公式発表から日本語に要約してお届け。
「毎日忙しいけど、AIの最先端は知っておきたい」——そんな人のための1通です。

無料で読みはじめる → 🎁読者限定|AI活用ガイド進呈
運営:AIエージェント専門メディア編集部|登録無料・いつでも解除可能
AIニュースを読む様子