Google、動画生成AI「Gemini Omni Flash」をAPI公開

Googleは、2026年のGoogle I/Oで発表した動画生成AIモデル「Gemini Omni Flash」を、開発者・企業向けにAPIとして公開した。テキスト・画像・映像を入力して音声付き動画を生成できるほか、完成した動画を会話形式で編集できる機能を備える。複数の専門ツールを組み合わせる従来の企業向けAI動画制作フローを、単一モデルで代替できる点が特徴とされている。

Googleは、動画生成AIモデル「Gemini Omni Flash」をAPIとして開発者および企業向けに提供開始した。同モデルは2026年のGoogle I/Oで一般ユーザー向けに初公開されたもので、今回のAPI公開によって企業の業務システムへの組み込みが可能になった。Gemini Omni Flashは、Googleが新たに立ち上げた「Omni」ファミリーの最初のモデルとして位置づけられている。

これまで企業が社内向けの短い動画を制作するには、多くの工程が必要だった。脚本作成、撮影、編集、修正という一連の流れは時間とコストがかかり、法務確認によって画面内のテキストを一行修正するだけでも、全工程をやり直す必要があった。こうした負担から、多くの社内動画がそもそも制作されないまま終わることも少なくなかった。生成AIの普及後も、スクリプト生成ツール・画像生成ツール・動画変換ツール・音声合成ツール・リップシンクツールと、複数のサービスを組み合わせて使う手法が一般的で、各ツールとの契約やデータ管理が別々に発生するという課題があった。

Gemini Omni Flashは、こうした複数ツールの役割を一つのモデルで担う設計になっている。テキスト・画像・映像を入力として受け取り、音声が同期した完成動画を出力できる。さらに注目すべきは「会話形式での編集」機能で、ユーザーは完成した動画に対し、チャットのように指示を重ねることで修正を加えられる。照明の変更、フレームの調整、衣装の差し替えなどを、最初から作り直さずに実行できるという。

参照画像の活用も同モデルの特徴の一つだ。テキストの指示に加えて、複数の参照画像や既存の映像クリップを入力として渡せる。特定の商品写真を渡せば、モデルはその色合いや形状を再現した映像を生成する。ピクセル単位での完全な一致は保証されないものの、識別できる水準の精度は持つとされている。この機能により、製品写真やブランドロゴを素材として動画制作に活用できる可能性がある。

APIの公開前は、Omni FlashはGoogleの消費者向けサービスおよびプロ・アマチュア向けのツールとしての位置づけにとどまっていた。プログラムからアクセスする手段がなく、マーケティングや人材育成（L&D）部門など、組織内で最も多くの動画を制作するチームが活用するには限界があった。今回のAPI提供により、これらの部門が自社のワークフローやシステムに組み込む形で利用できる環境が整ったと言える。

複数ツールを一本化するという設計の意義は、技術面だけにとどまらない。ベンダー数の削減、データ管理ルールの一元化、コンプライアンス対応のシンプル化といった運用上のメリットが生まれるためだ。生成AIの活用に慎重な企業にとっても、ツール統合のコストが下がることで、導入検討のハードルが下がるという見方ができる。動画制作の内製化が現実的な選択肢として浮上する局面が増えていくかもしれない。

Gemini Omni Flashは「あらゆる入力からあらゆるものを生成する」というOmniファミリーの目標の出発点として動画を選んでいる。今後このファミリーがどのメディア形式や業務用途に広がっていくかが、一つの注目点となる。会話形式での編集というインターフェースが企業の動画制作ワークフローにどれほど定着するかは、実際の運用を通じた検証が待たれる段階だ。

#生成AI#Google#動画生成#Gemini#マルチモーダル#企業向けAI#API公開

AI issue 編集部

コメントするにはログイン