DeepSeek, 추론 스케일링의 새로운 기법 발표

DeepSeek는 추론 단계에서 범용 보상 모델의 확장성을 높이는 새로운 기술인 'SPCT'에 관한 논문을 발표했다. 차세대 모델 'R2' 개발을 향한 연구의 일환으로 보이며, 추론 스케일링 분야에서 업계의 주목을 받고 있다.

중국의 AI 기업 DeepSeek이 추론 단계에서 범용 보상 모델(GRM)의 확장성을 높이는 새로운 기술 기법을 논문으로 발표했다. 이 기법은 'SPCT'라고 불리며, 차세대 모델 'R2' 개발을 향한 연구의 일환으로 위치 지어진다.

원래 '보상 모델'이란 AI가 출력한 답변의 품질을 평가·채점하는 메커니즘을 의미한다. AI가 추론(답변을 생성하는 처리)을 수행할 때, 이 보상 모델이 얼마나 정확하게 기능하는지가 답변의 정확도에 큰 영향을 미친다. DeepSeek이 이번에 추진한 것은 이 보상 모델을 추론 시 더욱 넓은 범위에서 안정적으로 운영하기 위한 기술적 개선이다.

근래의 AI 개발에서는 '추론 스케일링'이 주요 주제 중 하나가 되었다. 이는 모델 자체의 파라미터 수를 늘리는 것뿐만 아니라, 추론의 계산량을 증가시킴으로써 답변의 품질을 향상시키는 접근 방식이다. OpenAI의 'o1' 시리즈 등이 이 방향성을 선행적으로 제시했으며, 업계 전체에서 추론 시 처리를 어떻게 효율적으로 확장할 것인가에 대한 관심이 높아지고 있다. DeepSeek의 이번 연구도 이러한 흐름 속에 위치한다.

DeepSeek은 지금까지도 비교적 적은 비용으로 높은 성능을 실현하는 모델을 발표하여 해외의 AI 연구자들로부터도 주목을 받아왔다. 이번 발표된 기법은 차세대 모델 R2로의 포석으로도 볼 수 있다. 다만 R2의 구체적인 사양이나 출시 시기에 대해서는 현시점에서 밝혀지지 않았다.

이번 발표가 업계에 가지는 의미는 단순한 기술 논문의 공개에 그치지 않는다. 보상 모델의 추론 스케일링이라는 과제는 AI의 답변 품질을 실용 수준에서 향상시키는 데 있어 피할 수 없는 문제이며, 해결책의 하나가 제시된 것은 연구 커뮤니티 전체에 있어서도 참조점이 될 수 있다. DeepSeek이 이 분야에서 어떠한 성과를 실제 모델에 반영해 나갈 것인지, 향후 동향에 주목이 모아진다.

#DeepSeek#LLM#추론AI#생성AI#AI연구#보상모델

AI issue 편집부

댓글을 작성하려면 로그인하세요