AI 기술2026년 6월 17일 12:24

Weibo 연구팀, 30억 파라미터로 수학 추론 고득점 보고

중국 Sina Weibo의 연구자 9명이 파라미터 수 30억 규모의 언어 모델 'VibeThinker-3B'에 관한 기술 보고서를 arXiv에 공개했다. 해당 모델은 AIME 2026에서 94.3점 등 여러 수학·코딩 벤치마크에서 고득점을 기록했으며, 수백 배 규모의 대규모 모델과 동등 이상의 성능을 보였다고 보고되고 있다. 다만 벤치마크 결과의 신뢰성을 의문시하는 의견도 연구 커뮤니티 내에서 제기되고 있다.

중국의 Sina Weibo 연구자 9명이 2026년에 기술 보고서를 arXiv에 공개했다. 그들이 개발한 언어 모델 'VibeThinker-3B'는 파라미터 수 30억(3B)이라는 소규모 구성으로 수학·코딩 벤치마크에서 고득점을 기록했다고 보고했다.

수학 분야에서는 AIME 2026에서 94.3점, AIME 2025에서 91.4점을 기록했다. HMMT 2025에서는 89.3점, BruMO 2025에서는 93.8점, 국제수학올림피아드 수준의 400문제로 구성된 IMO-AnswerBench에서는 76.4점을 나타냈다. 코딩에서는 LiveCodeBench v6에서 Pass@1로 80.2를 달성했으며, 2026년 4월 말부터 5월 말의 LeetCode 경진대회에서 96.1%의 정답률을 기록했다.

비교 대상으로, DeepSeek V3.2는 AIME 2026에서 동등한 수준의 점수를 보유하고 있지만 파라미터 수는 671억(671B)으로 VibeThinker-3B의 약 224배에 해당한다. Google의 Gemini 3 Pro는 AIME 2026에서 91.7점으로 VibeThinker-3B의 94.3점보다 낮다. 동 팀이 'Claim-Level Reliability Assessment'라고 부르는 테스트 시간 스케일링 기법을 적용하면 AIME 2026의 점수가 97.1까지 상승한다고 보고했다.

논문 공개 후 수 시간 내에 Hugging Face의 데일리페이퍼스 피드에 62건의 업보트, 모델 저장소에 130건의 추천, GitHub 저장소에 685건의 스타를 받았다. 한편 SNS에서는 결과의 신뢰성이나 벤치마크 자체의 유효성을 의문시하는 의견이 나왔으며, 점수가 실력을 반영하는지 벤치마크가 형식화되었는지에 관한 논의가 연구 커뮤니티에서 계속되고 있다.

#LLM#소규모모델#벤치마크#수학추론#VibeThinker#생성AI#AI모델

AI issue 편집부

댓글을 작성하려면 로그인하세요