Google、画像・動画生成の新モデル2つを公開

Googleは画像生成モデル「Nano Banana 2 Lite」と動画生成・編集モデル「Gemini Omni Flash」の2つを新たに発表した。Nano Banana 2 Liteは1枚あたり約4秒・0.034ドルで画像を生成でき、Gemini Omni FlashはAPIを通じた動画生成機能を初めて提供する。Googleはこの2モデルを組み合わせ、静止画から動画へとつなぐ活用方法も推奨している。

Googleが新たな生成AIモデルを2つ発表した。画像生成向けの「Nano Banana 2 Lite」と、動画生成・編集を担う「Gemini Omni Flash」で、後者はAPIを通じた動画生成機能の提供としては初の試みとなる。

生成AIをめぐっては、画像・動画・音声など複数のメディアを扱えるモデルの開発競争が続いている。そのなかでも、クリエイターや開発者が手軽に使えるよう、速度とコストを両立させた軽量モデルへの需要が高まっており、今回の発表はそうした流れに沿った動きと位置づけられる。

Nano Banana 2 Liteは、1枚あたり約4秒で画像を生成できるモデルで、利用料金は1枚あたり0.034ドル（約5円）に設定されている。一方のGemini Omni Flashは、テキストによる指示をもとに動画の生成や編集を行えるモデルで、APIを介して外部の開発者が利用できる形で提供される。Googleによると、テキストから動画を扱えるモデルをAPIで提供するのは今回が初めてだという。

さらにGoogleは、この2つのモデルを組み合わせた活用方法も推奨している。具体的には、まずNano Banana 2 Liteで静止画を素早く生成し、その画像をGemini Omni Flashに渡してアニメーション動画へと変換する、という一連の流れだ。こうした「モデルの連携（チェーニング）」によって、テキストの入力だけでコンテンツ制作の工程を完結させることができる。

今回の2モデル公開が持つ意味は、速度とコストという実用面での整備にある。4秒という生成速度と1枚あたり5円程度という価格帯は、大量の画像を扱う業務や、プロトタイプ制作を繰り返す開発現場での利用を想定したものと見られる。加えて、動画生成のAPI提供は、これまで限られた環境でしか利用できなかった動画AI技術を、より多くの開発者やサービスに開放する一歩という見方ができる。

テキストから静止画、静止画から動画へとつなぐ一連のパイプラインをAPIで完結できる環境が整うことで、コンテンツ制作や広告、エンターテインメントといった分野での応用が広がる可能性がある。今後は実際の利用コストや生成品質、他社サービスとの比較など、実用面での評価が焦点になってくるとみられる。

#生成AI#画像生成#動画生成#Google#API#マルチモーダルAI

AI issue 編集部

コメントするにはログイン