Adobe 연구부서, 동영상 생성의 장기 메모리 문제 해결
Adobe의 연구부서는 동영상 생성 AI의 오랜 과제였던 '장기 메모리' 문제를 극복했다고 발표했다. 상태공간모델(SSM)과 로컬 어텐션, 그리고 Diffusion Forcing 등의 학습 전략을 조합함으로써, 긴 동영상을 생성할 때 앞뒤 장면의 일관성을 유지할 수 있게 되었다고 한다.

Adobe의 연구부서가 동영상 생성 AI에서의 오랜 과제였던 '장기 메모리' 문제를 극복했다고 발표했다. 상태공간모델(SSM)과 로컬 어텐션 메커니즘을 결합한 방법을 통해, 긴 동영상을 생성할 때 전반부 내용을 '잊어버린다'는 문제에 대처하고 있다.
동영상 생성 AI가 안고 있었던 근본적인 과제는 영상의 길이가 늘어날수록 과거 프레임과의 일관성을 유지하기 어려워진다는 점이다. 일반적인 Transformer 기반 모델은 멀리 떨어진 프레임 간의 관계를 다루기 위해 계산량이 급격히 증가한다. 그 때문에 장시간의 동영상일수록 장면의 설정이나 캐릭터의 외모가 중간에 바뀌어버리는 문제가 발생하기 쉬웠다.
이번 연구에서는 SSM(상태공간모델)과 로컬 어텐션을 결합한 설계가 채택되었다. SSM은 멀리 떨어진 프레임 간의 종속성을 계산 효율적으로 다루기에 적합한 메커니즘이며, 동영상 전체를 통한 '메모리'의 역할을 담당한다. 한편, 로컬 어텐션은 인접한 프레임 간의 세세한 정합성, 예를 들어 움직임의 부드러움이나 국소적인 영상의 연속감을 유지하기 위해 기능한다. 이 두 가지를 결합함으로써 거시적 일관성과 미시적 자연스러움을 동시에 확보하는 구조가 된다.
학습 방법에도 고안이 가해졌으며, 'Diffusion Forcing'과 '프레임 로컬 어텐션'이라는 두 가지 전략이 채택되었다. Diffusion Forcing은 동영상 프레임을 단계적으로 노이즈 제거하면서 생성하는 확산 모델의 훈련과 관련된 방법으로, 모델이 시간적 맥락을 적절히 학습하기 쉽게 하는 효과가 있다고 알려져 있다. 이들을 결합함으로써 장시간의 영상 생성에도 내용의 일관성이 유지되도록 훈련이 이루어졌다.
이 성과가 갖는 의미는 동영상 생성 기술의 실용성이라는 관점에서 크다고 위치지어진다. 현재의 동영상 생성 AI는 짧은 클립에는 대응할 수 있어도, 영화나 드라마 같은 긴 영상 콘텐츠에는 적용이 어려웠다. 이번 접근이 실용화된다면, 긴 영상을 AI가 일관성 있게 생성할 수 있는 가능성이 넓어지며, 영상 제작 워크플로우에 새로운 선택지를 가져올 것으로 볼 수 있다.
Adobe는 동영상 편집 소프트웨어 'Premiere Pro'나 이미지 편집 소프트웨어 'Photoshop' 등의 창작 도구를 다루는 기업이며, 자사 제품으로의 AI 통합을 적극적으로 추진해온 경력이 있다. 이번 연구 성과가 제품 레벨에서 어떻게 활용될지는 현시점에서는 명확하지 않지만, 동영상 생성의 품질과 일관성을 높이는 기술로서, 향후 제품 전개와의 관련성에서 주목할 가치가 있다고 할 수 있다.
동영상 생성 AI 전체적으로는, 텍스트나 이미지 생성에 비해 기술적 성숙이 뒤떨어져온 분야다. 시간축이라는 새로운 차원이 더해짐으로써, 단순한 품질뿐 아니라 '이야기로서의 일관성'이 문제된다. 이번 Adobe Research의 노력은 그 과제에 정면으로 마주하는 하나의 접근으로서, 업계 전체의 기술 동향에 영향을 미칠 가능성이 있다.
본 기사는 AI issue 편집부가 사실(fact)을 바탕으로 독자적으로 작성·편집한 저작물입니다. 저작권은 AI issue에 있으며, 무단 전재·재배포 및 AI 학습·활용을 금합니다.