DeepSeek、推論スケーリングの新手法を発表

DeepSeekは、推論フェーズにおける汎用報酬モデルのスケーラビリティを高める新技術「SPCT」に関する論文を発表した。次世代モデル「R2」の開発に向けた研究の一環とみられており、推論スケーリングへの取り組みとして業界から注目されている。

中国のAI企業DeepSeekが、推論フェーズにおける汎用報酬モデル（GRM）のスケーラビリティを高める新しい技術手法を論文として発表した。この手法は「SPCT」と呼ばれており、次世代モデル「R2」の開発に向けた研究の一環と位置づけられる。

そもそも「報酬モデル」とは、AIが出力した回答の質を評価・採点する仕組みのことだ。AIが推論（回答を生成する処理）を行う際に、この報酬モデルがどれだけ的確に機能するかが、回答の精度に大きく影響する。DeepSeekが今回取り組んだのは、この報酬モデルを推論時により広いスケールで安定して動かすための技術的な改善だ。

近年のAI開発では、「推論スケーリング」が主要なテーマの一つになっている。これはモデル自体のパラメータ数を増やすだけでなく、推論の計算量を増やすことで回答の質を向上させるアプローチだ。OpenAIの「o1」シリーズなどがこの方向性を先行して示しており、業界全体で推論時の処理をいかに効率よく拡張するかへの関心が高まっている。DeepSeekの今回の研究も、こうした流れの中に位置する。

DeepSeekはこれまでも、比較的少ないコストで高い性能を実現するモデルを発表し、海外のAI研究者からも注目を集めてきた。今回発表された手法は、次世代モデルR2への布石という見方もできる。ただし、R2の具体的な仕様やリリース時期については、現時点では明らかにされていない。

今回の発表が業界にとって持つ意味は、単なる技術論文の公開にとどまらない。報酬モデルの推論スケーリングという課題は、AIの回答品質を実用レベルで向上させる上で避けて通れない問題であり、解決策の一つが示されたことは、研究コミュニティ全体にとっても参照点になり得る。DeepSeekがこの分野でどのような成果を実装モデルに反映させていくか、今後の動向に注目が集まる。

#DeepSeek#LLM#推論AI#生成AI#AI研究#報酬モデル

AI issue 編集部

コメントするにはログイン