AI技術2026年6月23日 18:21

快手AI、強化学習の効率を大幅改善するSRPOを開発

中国・快手（Kwai）のAI研究チームが、大規模言語モデルの強化学習フレームワーク「SRPO」を発表した。SRPOは2段階の強化学習と過去データの再利用を組み合わせることで、既存手法「GRPO」と比べて学習ステップ数を約90%削減しながら、数学・コード生成の分野でDeepSeek-R1と同等の性能を達成したとされる。

動画プラットフォームを運営する中国企業・快手（Kwai）のAI研究チームが、大規模言語モデル（LLM）の強化学習における新しい学習フレームワーク「SRPO」を発表した。このフレームワークは、学習に必要なステップ数を従来手法と比べて約90%削減しながら、数学や코드生成のベンチマークでDeepSeek-R1と同等の性能を達成したとされる。

背景にあるのは、近年LLMの後学習（ポスト・トレーニング）において広く使われている強化学習手法「GRPO」の限界だ。GRPOは、モデルに正解・不正解のフィードバックを与えながら推論能力を高める手法で、DeepSeek-R1のような高性能モデルにも採用されている。しかし、GRPOは学習ステップ数が多くなりがちで、計算コストと時間の面での課題が指摘されてきた。SRPOはこの非効率性を克服することを目的として設計されたと位置づけられる。

SRPOの核心は「2段階の強化学習」と「過去データの再利用（ヒストリー・リサンプリング）」の組み合わせにある。通常の強化学習では、モデルが生成した最新の出力だけを使って学習を進めるが、SRPOは過去の学習履歴からデータを再利用することで、同じ計算資源からより多くの学習効果を引き出す仕組みだ。この設計により、GRPOと比べて学習ステップを10分の1程度に抑えることが可能になったという。

性能面では、数学の問題解答とプログラムコード生成という2つの分野で、DeepSeek-R1に匹敵する結果を達成したと発表されている。DeepSeek-R1は強化学習ベースの推論モデルとして広く知られており、その性能を大幅に少ないステップで再現できるとすれば、学習の効率化という観点で注目に値する成果といえる。

この研究が持つ意味は、単なる速度改善にとどまらない。LLMの強化学習には膨大なGPUリソースと時間が必要であり、それが高性能モデルの開発を大企業や資金力のある研究機関に限定してきた一因でもある。学習効率が大幅に向上すれば、より少ないコストで高い性能を達成できる可能性が広がり、研究開発の裾野が広がるという見方ができる。

また、快手のような中国テック企業が独自の学習手法を発表し続けていることは、AI研究における競争が米国の大手企業だけでなく、さまざまなプレイヤーに開かれた形で進んでいることを示す事例の一つとも捉えられる。SRPOの詳細な再現性や他のタスクへの汎用性については、今後の独立した検証や追試が重要な判断材料になる。

今後の注目点は、SRPOが他の研究者にどこまで再現・応用されるかだ。強化学習の効率化はLLM開発全体のコスト構造に影響しうる技術的テーマであり、手法の詳細が公開・検証される過程で、その実用的な価値がより明確になっていくと考えられる。

#LLM#強化学習#生成AI#DeepSeekR1#モデル学習#GRPO#AI研究

AI issue 編集部

コメントするにはログイン