AIのコード再現能力を測る新ベンチマーク登場

Epoch AIは、AIがソースコードなしに完全なプログラムを再現できるかどうかを評価する新ベンチマーク「MirrorCode」を公開した。最高成績はAnthropicのClaude Opus 4.7で解決率56%を記録したが、最も複雑なタスクではすべてのモデルが失敗。あるモデルは単一タスクに19日間・2,600ドルを費やしており、現在のAIのコーディング能力の限界が浮き彫りになった。

AIがプログラムのソースコードなしに、元のソフトウェアを完全に再現できるかどうかを測る新しい評価基準「MirrorCode」が、AI研究機関のEpoch AIによって公開された。従来の評価では単純なコード補完や部分的な生成能力が問われることが多かったが、MirrorCodeはより実践的な問い——「元のコードを見ずに、動く完全なプログラムを作り直せるか」——を中心に据えている点が特徴だ。

コーディング能力の評価は、AIが実際の開発現場でどこまで役立つかを測る上で重要な指標となっている。近年、AIを使ったソフトウェア開発の自動化が急速に進む中、単に短いコードを書く能力だけでなく、大規模かつ複雑なプログラム全体を理解・再構築する能力が問われるようになってきた。MirrorCodeはこうした実態に即したベンチマークとして位置づけられる。

今回の評価でもっとも高いスコアを記録したのは、Anthropicが開発した「Claude Opus 4.7」だ。解決率は56%で、約1万6000行規模のツールキットを14時間で再構築してみせた。一方、最も複雑なタスクでは、評価対象となったすべてのモデルが解決に失敗している。さらに、あるモデルは単一のタスクに19日間にわたって動き続け、その実行コストは2,600ドル（約40万円）に達したという結果も報告されており、複雑なタスクへの対応がいかに困難かを端的に示している。

56%という首位の数字は、見方を変えれば「4割以上のタスクは解けなかった」ことを意味する。最高水準のモデルでさえ複雑なプログラムの完全再現には至らず、全モデルが最難関タスクで壁に直面したという事実は、現在のAIのコーディング能力の限界を明確に示すものといえる。単一タスクに2,600ドルを費やした事例は、高難度タスクに対して計算リソースが膨大になりうることも示唆している。

今後、MirrorCodeのようなより厳しい評価基準が普及することで、AIの「使える能力」と「まだ足りない能力」の境界線がより明確になっていくと見ることができる。開発現場でAIを活用しようとする企業にとっては、現時点でのAIが大規模なコードベース全体の自律的な再構築にはまだ対応しきれていない、という現実を踏まえた上でツールを選択・活用することが重要な視点になるだろう。

#生成AI#LLM#AIコーディング#ベンチマーク#Claude#AIエージェント#ソフトウェア開発

AI issue 編集部

コメントするにはログイン