快手 AI, 강화학습 효율을 대폭 개선하는 SRPO 개발
중국의 快手(Kwai) AI 연구팀이 대규모언어모델의 강화학습 프레임워크 "SRPO"를 발표했다. SRPO는 2단계 강화학습과 과거 데이터 재활용을 결합함으로써 기존 방법 "GRPO"와 비교했을 때 학습 스텝 수를 약 90% 감소시키면서도 수학·코드 생성 분야에서 DeepSeek-R1과 동등한 성능을 달성한 것으로 알려졌다.

동영상 플랫폼을 운영하는 중국 기업 快手(Kwai)의 AI 연구팀이 대규모언어모델(LLM)의 강화학습에서 새로운 학습 프레임워크 "SRPO"를 발표했다. 이 프레임워크는 학습에 필요한 스텝 수를 기존 방법과 비교했을 때 약 90% 감소시키면서도 수학과 코드 생성 벤치마크에서 DeepSeek-R1과 동등한 성능을 달성한 것으로 알려져 있다.
배경에 있는 것은 최근 LLM의 후학습(포스트 트레이닝)에서 널리 사용되고 있는 강화학습 방법 "GRPO"의 한계다. GRPO는 모델에 정답·오답 피드백을 제공하면서 추론 능력을 높이는 방법으로, DeepSeek-R1과 같은 고성능 모델에도 채택되고 있다. 하지만 GRPO는 학습 스텝 수가 많아지는 경향이 있으며, 계산 비용과 시간 측면에서의 과제가 지적되어 왔다. SRPO는 이러한 비효율성을 극복하기 위해 설계된 것으로 위치지어진다.
SRPO의 핵심은 "2단계 강화학습"과 "과거 데이터 재활용(히스토리 리샘플링)"의 결합에 있다. 일반적인 강화학습에서는 모델이 생성한 최신 출력만을 사용하여 학습을 진행하지만, SRPO는 과거 학습 이력에서 데이터를 재활용함으로써 동일한 계산 자원에서 더 많은 학습 효과를 도출하는 구조다. 이러한 설계로 인해 GRPO와 비교했을 때 학습 스텝을 약 10분의 1 수준으로 억제할 수 있게 되었다고 한다.
성능 측면에서는 수학 문제 풀이와 프로그램 코드 생성이라는 2가지 분야에서 DeepSeek-R1에 필적하는 결과를 달성했다고 발표되었다. DeepSeek-R1은 강화학습 기반의 추론 모델로 널리 알려져 있으며, 그 성능을 훨씬 적은 스텝으로 재현할 수 있다면 학습 효율화라는 관점에서 주목할 만한 성과라고 할 수 있다.
이 연구가 지니는 의미는 단순한 속도 개선을 넘어선다. LLM의 강화학습에는 막대한 GPU 자원과 시간이 필요하며, 이것이 고성능 모델 개발을 대기업이나 자금력 있는 연구기관에 제한해온 한 가지 요인이기도 했다. 학습 효율이 대폭 향상되면 더 적은 비용으로 높은 성능을 달성할 수 있는 가능성이 넓어지며, 연구개발의 저변이 확대될 수 있다는 관점이 있다.
또한 快手와 같은 중국 테크 기업이 독자적인 학습 방법을 계속 발표하고 있다는 것은 AI 연구에서의 경쟁이 미국의 대형 기업뿐만 아니라 다양한 플레이어들에게 열려 있는 형태로 진행되고 있음을 보여주는 사례 중 하나로도 볼 수 있다. SRPO의 세부적인 재현성이나 다른 과제로의 범용성은 향후 독립적인 검증과 재시도가 중요한 판단 기준이 될 것이다.
향후 주목점은 SRPO가 다른 연구자들에게 어느 정도까지 재현·응용되는가이다. 강화학습의 효율화는 LLM 개발 전체의 비용 구조에 영향을 미칠 수 있는 기술적 주제이며, 방법의 세부 사항이 공개·검증되는 과정에서 그 실용적 가치가 더욱 명확해질 것으로 생각된다.
본 기사는 AI issue 편집부가 사실(fact)을 바탕으로 독자적으로 작성·편집한 저작물입니다. 저작권은 AI issue에 있으며, 무단 전재·재배포 및 AI 학습·활용을 금합니다.