MIT, 자체 갱신하는 AI 기반 'SEAL' 발표
매사추세츠공과대학(MIT)의 연구팀이 대규모 언어모델이 강화학습을 통해 자신의 매개변수를 자율적으로 편집·갱신할 수 있는 프레임워크 'SEAL'을 발표했다. 학습 후 지식이 고정된다는 기존 AI 모델의 제약을 극복하고, 모델이 지속적으로 자기개선할 수 있는 체계를 제공하는 연구성과로 주목받고 있다.

매사추세츠공과대학(MIT)의 연구팀이 대규모 언어모델(LLM)이 자신의 매개변수(내부의 지식과 판단기준을 기록한 수치의 집합)를 다시 쓸 수 있는 프레임워크 'SEAL'을 발표했다. 기존의 AI 모델은 학습이 완료되는 시점에 내부의 지식이 고정되는 것이 일반적이었다. SEAL은 그 제약을 극복하고, 모델이 자신을 계속 갱신하는 체계를 제공한다.
SEAL의 핵심에 있는 것은 강화학습(Reinforcement Learning)이라 불리는 기법이다. 강화학습이란 AI가 어떤 행동을 한 결과에 대해 보상이나 처벌의 피드백을 받고, 더 나은 행동을 학습해 나가는 체계를 말하며, 게임의 AI 등에서 널리 사용되어 왔다. SEAL에서는 이 체계를 모델이 자신의 매개변수를 편집하는 행동에 적용하고 있다. 즉, 모델은 자신을 어떻게 다시 써야 출력이 개선될지를 시행착오를 겪으면서 자율적으로 학습할 수 있다.
기존의 AI 모델 운영에서는 지식의 갱신에 인간 엔지니어가 새로운 학습 데이터를 준비하고 재학습을 수행하는 과정이 필요했다. 이 작업은 시간과 비용을 소요하기 때문에 모델의 지식이 현실의 변화에 따라가기 어렵다는 과제가 있었다. SEAL이 실용화되면 모델이 자율적으로 자신을 갱신함으로써 이러한 비용과 지연을 크게 줄일 수 있는 가능성이 있다.
한편, AI가 자신의 매개변수를 다시 쓴다는 특성은 안전성과 제어 가능성의 관점에서 신중한 검토를 요구한다. 의도하지 않은 방향으로의 자기 갱신이 발생했을 경우, 모델의 거동이 예측 불가능해지는 위험이 있다. 연구의 실용화를 향해서는 이러한 자기 갱신의 범위를 어떻게 제한하고 신뢰성을 담보할 것인가가 중요한 과제가 된다.
MIT는 AI 연구의 최전선에 위치하는 기관으로서 모델 아키텍처와 학습 기법의 분야에서 많은 성과를 생산해 왔다. 이번 SEAL은 '학습된 모델은 정적인 것'이라는 기존의 전제에 의문을 제기하는 연구이며, 향후 AI 시스템 설계에 새로운 방향성을 제시하는 것으로서 연구자의 관심을 모으고 있다.
본 기사는 AI issue 편집부가 사실(fact)을 바탕으로 독자적으로 작성·편집한 저작물입니다. 저작권은 AI issue에 있으며, 무단 전재·재배포 및 AI 학습·활용을 금합니다.