Weibo研究チーム、30億パラメータで数学推論の高スコアを報告
中国Sina Weiboの研究者9名が、パラメータ数30億の言語モデル「VibeThinker-3B」に関する技術レポートをarXivに公開した。同モデルはAIME 2026で94.3点など複数の数学・コーディングベンチマークで高スコアを記録しており、数百倍規模の大規模モデルと同等以上の性能を示すと報告されている。ただし、ベンチマーク結果の信頼性を疑問視する意見も研究コミュニティ内で出ている。

中国のSina Weiboの研究者9名が、2026年に技術レポートをarXivに公開した。彼らが開発した言語モデル「VibeThinker-3B」は、パラメータ数30億(3B)という小規模な構成で、数学・コーディングのベンチマークで高スコアを記録したと報告している。
数学分野ではAIME 2026で94.3点、AIME 2025で91.4点を記録した。HMMT 2025では89.3点、BruMO 2025では93.8点、国際数学オリンピックレベルの400問で構成されるIMO-AnswerBenchでは76.4点を示した。コーディングでは、LiveCodeBench v6においてPass@1で80.2を達成し、2026年4月下旬から5月下旬のLeetCodeコンテストで96.1%の正答率を記録した。
比較対象として、DeepSeek V3.2はAIME 2026で同水準のスコアを持つが、パラメータ数は671億(671B)でVibeThinker-3Bの約224倍にあたる。GoogleのGemini 3 ProはAIME 2026で91.7点であり、VibeThinker-3Bの94.3点を下回る。同チームが「Claim-Level Reliability Assessment」と呼ぶテスト時スケーリング手法を適用すると、AIME 2026のスコアは97.1まで上昇すると報告されている。
論文公開から数時間でHugging Faceのデイリーペーパーズフィードに62件のアップボート、モデルリポジトリに130件のいいね、GitHubリポジトリに685件のスターが集まった。一方、SNS上では結果の信頼性やベンチマーク自体の有効性を疑問視する声も上がっており、スコアが実力を反映しているのかベンチマークが形骸化しているのかという議論が研究コミュニティで続いている。
本記事は、AI issue編集部が事実(ファクト)をもとに独自に作成・編集した著作物です。著作権はAI issueに帰属し、無断転載・再配布およびAIの学習・活用を禁じます。