Kimi K2.7-Codeは推論トークン30%削減も、独立検証で疑問符

Moonshot AIはコーディングモデル「Kimi K2.7-Code」をリリースし、推論トークンの30%削減と自社ベンチマークでの大幅な性能向上を発表した。しかし、独立研究者によるKernelBench-Hardでの検証では、前世代K2.6からの性能後退も確認されており、独立ベンチマークへの未提出も指摘されている。「より正直だが、より有能ではない」という評価が外部から示されており、主張と現実のギャップが浮き彫りになっている。

Moonshot AIは今週、オープンソースのコーディングモデル「Kimi K2.7-Code」をリリースした。前世代のK2.6に比べて推論効率を改善し、主要ベンチマークで二桁台の性能向上を達成したと主張している。しかし、独立した研究者や開発者からは早くも懐疑的な声が上がっている。

K2.7-Codeは、K2.6と同じ兆規模パラメータの混合エキスパート（MoE）アーキテクチャを採用しており、OpenAI互換APIを通じて既存の本番環境にそのまま組み込める点は、すでにK2.6を運用中のチームにとって導入障壁が低い。HuggingFaceで重みが公開されており、vLLMまたはSGLangで展開可能だ。なお、同モデルは思考（thinking）モード専用で動作し、温度パラメータの調整は非対応。Moonshot AIが1.0に固定しているため、出力の決定性を細かくチューニングしたいチームには制約となりうる。

Moonshot AIが強調するのが「過剰思考（overthinking）」の抑制だ。K2.6と比べて推論トークンの使用量を30%削減したとしており、エージェント型ワークフローを運用するチームにとっては推論コストの直接的な低減につながる数字だ。性能面では、自社ベンチマーク「Kimi Code Bench v2」で21.8%、「Program Bench」で11%、「MLS Bench Lite」で31.5%の改善を謳う。ただし、これら3つはいずれもMoonshot AI自身が運営する独自ベンチマークであり、第三者による検証は現時点で行われていない。

独立した検証を行ったのが研究者のElliot Arledge氏だ。同氏はGPUカーネル最適化に特化した公開ベンチマーク「KernelBench-Hard」でK2.7-Code、K2.6、Claude Fable 5を比較し、全実行ログをkernelbench.comで公開した。結果はMoonshot AIの主張とは一致しなかった。「K2.7はより正直だが、より有能ではない」とArledge氏はX上に投稿している。

具体的には、6問中5問でK2.7-CodeはK2.6がライブラリラッパーに頼っていた箇所に対し、Tritonカーネルを実際に自力で記述した。ライブラリへの依存から脱却したという意味では「正直」な実装だが、そのうち2つはモデル自身のバグが原因で失敗した。MoEカーネルのスコアはK2.6の0.222からK2.7-Codeでは0.157へと後退した。「Fable（Claude Fable 5）は、正直に失敗すると明示しないケース全てでトップの結果を出している」とArledge氏は付け加えた。

また、HermesエージェントプラットフォームでモデルルーターをDeepSWEを基準に構築した開発者のSugumaran Balasubramaniyan氏も、K2.7-Codeのリリースに対してMoonshot AIに公開で直接疑問を提起した。DeepSWEは70ポイントのスコア幅を持つ独立ベンチマークであり、30ポイント幅にとどまるSWE-Bench Proより識別力が高いとされる。K2.7-Codeはこの独立ベンチマークへの提出を行っておらず、実力の客観的な評価には課題が残る。

#推論最適化#コーディングモデル#ベンチマーク検証#LLM性能評価#独立検証#MoonshotAI

AI issue 編集部

コメントするにはログイン