Google、Gemini 3.5 FlashにPC操作機能を統合

GoogleはAIモデル「Gemini 3.5 Flash」に、コンピュータやブラウザ、モバイルデバイスを自律操作できる「Computer Use」機能を直接統合した。PC操作の評価指標「OSWorld」ベンチマークでは78.4を記録し、GPT-4.5と同等水準とされる。開発者はGemini APIを通じてこの機能を利用でき、ソフトウェアテストやオフィス業務の自動化などへの活用が想定されている。

Googleは、AIモデル「Gemini 3.5 Flash」に「Computer Use（コンピュータ操作）」機能を直接組み込んだと発表した。これにより、同モデルはパソコンやブラウザ、モバイルデバイスの画面を認識しながら、自律的に操作できるようになった。

「Computer Use」とは、AIが人間のかわりにコンピュータを操作する機能を指す。たとえばブラウザを開いてフォームに入力したり、アプリを起動して特定の操作を連続して行ったりといった作業を、AIが自ら判断しながら実行できる。これまでこうした機能は専用のソフトウェアや複雑な設定が必要だったが、今回はモデル自体にその能力が内蔵された形となっている。

AIがコンピュータを自律操作するアプローチは、近年「AIエージェント」として業界全体で注目を集めている分野だ。OpenAIやAnthropicなど主要なAI企業がそれぞれ類似の機能開発を進めており、Googleが今回この機能をモデルに直接統合したことは、その競争の中での一手と位置づけられる。

性能面では、PC操作タスクの評価指標として広く使われる「OSWorld」ベンチマークで78.4というスコアを記録した。このスコアは、OpenAIのGPT-4.5と同等水準にあるとされている。OSWorldはAIが実際のOS上でどれだけ正確に操作できるかを測るベンチマークで、高いスコアは実用的な場面での信頼性の高さを示す指標となる。

開発者は、GoogleのAPI（アプリ間をつなぐ接続口）である「Gemini API」を通じてこの機能を利用できる。想定される用途としては、ソフトウェアのテスト自動化やオフィス業務の自動化などが挙げられており、企業の業務効率化を担うツール開発に活用されることが見込まれる。

この機能統合が持つ意味は、単なる性能向上にとどまらない。AIがモデル単体で画面を見て操作まで完結できるようになることで、これまで人手が必要だった定型的なPC作業の多くを、AIエージェントに委ねる環境が整いつつあるといえる。開発者が手軽にエージェントを構築できるようになれば、企業システムへの組み込みも加速する可能性がある。

今後の注目点は、実際の業務環境でどこまで安定して動作するかだ。ベンチマーク上の数値と実運用での信頼性は必ずしも一致しないため、様々な条件下での検証が重要になる。Gemini APIを通じた提供という形式は、多くの開発者が試しやすい環境を整えたという点で、普及への足がかりとなりうる。

#生成AI#AIエージェント#Gemini#Google#業務自動化#Computer Use#LLM

AI issue 編集部

コメントするにはログイン