Adobe研究部門、動画生成の長期記憶問題を解決

Adobeの研究部門は、動画生成AIの長年の課題である「長期記憶」問題を克服したと発表した。状態空間モデル（SSM）とローカルアテンション、さらにDiffusion Forcingなどの学習戦略を組み合わせることで、長い動画を生成する際に前後の場面の一貫性を維持することが可能になったという。

Adobeの研究部門が、動画生成AIにおける長年の課題だった「長期記憶」の問題を克服したと発表した。状態空間モデル（SSM）とローカルアテンション機構を組み合わせた手法により、長い動画を生成する際に前半の内容を「忘れてしまう」という問題に対処している。

動画生成AIが抱えてきた根本的な課題は、映像の長さが増すほど過去のフレームとの一貫性を保ちにくくなる点にある。一般的なTransformerベースのモデルは、離れたフレーム間の関係を扱うために計算量が急激に膨らむ。そのため、長尺の動画になるほど、場面の設定やキャラクターの外見が途中で変わってしまうといった問題が起きやすかった。

今回の研究では、SSM（状態空間モデル）とローカルアテンションを組み合わせた設計が採用された。SSMは、遠く離れたフレーム間の依存関係を計算効率よく扱うのに適した仕組みであり、動画全体を通した「記憶」の役割を担う。一方、ローカルアテンションは隣接するフレーム間の細かな整合性、たとえば動きのなめらかさや局所的な映像の連続感を維持するために機能する。この二つを組み合わせることで、マクロな一貫性とミクロな自然さを同時に確保する構造となっている。

学習手法にも工夫が施されており、「ディフュージョン・フォーシング（Diffusion Forcing）」と「フレームローカルアテンション」という二つの戦略が採用されている。Diffusion Forcingは、動画フレームを段階的にノイズ除去しながら生成する拡散モデルの訓練に関わる手法で、モデルが時間的な文脈を適切に学習しやすくする効果があるとされる。これらを組み合わせることで、長時間の映像生成においても内容の整合性が保たれるよう訓練が行われた。

この成果が持つ意味は、動画生成技術の実用性という観点から大きいと位置づけられる。現状の動画生成AIは短いクリップには対応できても、映画やドラマのような長い映像コンテンツには適用が難しかった。今回のアプローチが実用化されれば、長尺の映像をAIが一貫性を持って生成できる可能性が広がり、映像制作のワークフローに新たな選択肢をもたらすという見方ができる。

Adobeは映像編集ソフト「Premiere Pro」や画像編集ソフト「Photoshop」などのクリエイティブツールを手がける企業であり、自社製品へのAI統合を積極的に進めてきた経緯がある。今回の研究成果が製品レベルでどのように活用されるかは現時点では明らかではないが、動画生成の質と一貫性を高める技術として、今後の製品展開との関連で注目に値すると言えるだろう。

動画生成AI全体としては、テキストや画像の生成に比べて技術的な成熟が遅れてきた分野だ。時間軸という新たな次元が加わることで、単純な品質だけでなく「物語としての整合性」が問われる。今回のAdobeリサーチの取り組みは、その課題に正面から向き合う一つのアプローチとして、業界全体の技術動向に影響を与える可能性がある。

#動画生成AI#生成AI#Adobe#状態空間モデル#拡散モデル#AIリサーチ#コンピュータビジョン

AI issue 編集部

コメントするにはログイン