AI의 코드 재현 능력을 측정하는 새로운 벤치마크 등장

Epoch AI는 AI가 소스코드 없이 완전한 프로그램을 재현할 수 있는지 평가하는 새로운 벤치마크 'MirrorCode'를 공개했다. 최고 성적은 Anthropic의 Claude Opus 4.7로 해결률 56%를 기록했지만, 가장 복잡한 과제에서는 모든 모델이 실패했다. 한 모델은 단일 과제에 19일간·2,600달러를 소비했으며, 현재 AI의 코딩 능력의 한계가 드러났다.

AI가 프로그램의 소스코드 없이 원래의 소프트웨어를 완전히 재현할 수 있는지를 측정하는 새로운 평가 기준 'MirrorCode'가 AI 연구 기관인 Epoch AI에 의해 공개되었다. 기존의 평가에서는 단순한 코드 완성이나 부분적인 생성 능력을 묻는 것이 많았지만, MirrorCode는 더욱 실무적인 질문——'원본 코드를 보지 않고, 작동하는 완전한 프로그램을 다시 만들 수 있는가'——을 중심으로 하고 있다는 것이 특징이다.

코딩 능력의 평가는 AI가 실제 개발 현장에서 얼마나 유용한지를 측정하는 데 있어 중요한 지표가 된다. 최근 AI를 활용한 소프트웨어 개발 자동화가 빠르게 진행되는 가운데, 단순히 짧은 코드를 작성하는 능력뿐만 아니라 대규모이고 복잡한 프로그램 전체를 이해하고 재구축하는 능력이 요구되기 시작했다. MirrorCode는 이러한 현실에 맞는 벤치마크로 자리매김된다.

이번 평가에서 가장 높은 점수를 기록한 것은 Anthropic이 개발한 'Claude Opus 4.7'이다. 해결률은 56%로, 약 1만 6000줄 규모의 툴킷을 14시간에 재구축했다. 한편, 가장 복잡한 과제에서는 평가 대상이 된 모든 모델이 해결에 실패했다. 더욱이, 한 모델은 단일 과제에 19일간 계속 작동했으며, 그 실행 비용은 2,600달러(약 40만 엔)에 달했다는 결과도 보고되었으며, 복잡한 과제에 대한 대응이 얼마나 어려운지를 명확히 보여준다.

56%라는 1위의 수치는 관점을 바꾸면 '40% 이상의 과제는 풀지 못했다'는 의미다. 최고 수준의 모델조차 복잡한 프로그램의 완전한 재현에 이르지 못했으며, 모든 모델이 최고난도 과제에서 벽에 직면했다는 사실은 현재 AI의 코딩 능력의 한계를 명확히 보여주는 것이라 할 수 있다. 단일 과제에 2,600달러를 소비한 사례는 고난도 과제에 대해 계산 리소스가 막대해질 수 있음을 시사한다.

앞으로 MirrorCode와 같은 더욱 엄격한 평가 기준이 보편화됨으로써 AI의 '사용 가능한 능력'과 '부족한 능력'의 경계선이 더욱 명확해질 것으로 볼 수 있다. 개발 현장에서 AI를 활용하려는 기업들에게는 현시점에서 AI가 대규모 코드베이스 전체의 자율적인 재구축에 아직 대응하지 못하고 있다는 현실을 바탕으로 도구를 선택하고 활용하는 것이 중요한 관점이 될 것이다.

#GenerativeAI#LLM#AICodinAI#Benchmark#Claude#AIAgent#SoftwareDevelopment

AI issue 편집부

댓글을 작성하려면 로그인하세요