Kimi K2.7-Code는 추론 토큰 30% 감소도, 독립 검증에서 의문부호

Moonshot AI는 코딩 모델 "Kimi K2.7-Code"를 출시했으며, 추론 토큰 30% 감소와 자체 벤치마크에서의 대폭적인 성능 향상을 발표했다. 그러나 독립 연구자의 KernelBench-Hard 검증에서는 전 세대 K2.6에서의 성능 저하도 확인되었으며, 독립 벤치마크 미제출도 지적되고 있다. 외부에서 "더 정직하지만, 더 유능하지는 않다"는 평가가 제시되고 있으며, 주장과 현실의 괴리가 드러나고 있다.

Moonshot AI는 이번 주 오픈소스 코딩 모델 "Kimi K2.7-Code"를 출시했다. 전 세대 K2.6에 비해 추론 효율을 개선했으며, 주요 벤치마크에서 두 자리 수의 성능 향상을 달성했다고 주장하고 있다. 그러나 독립적인 연구자와 개발자들로부터 이미 회의적인 의견이 나오고 있다.

K2.7-Code는 K2.6과 동일한 조 규모 파라미터의 혼합 전문가(MoE) 아키텍처를 채택하고 있으며, OpenAI 호환 API를 통해 기존 본운영 환경에 바로 통합할 수 있다는 점은 이미 K2.6을 운영 중인 팀에게 도입 장벽이 낮다. HuggingFace에서 가중치가 공개되어 있으며, vLLM 또는 SGLang으로 배포 가능하다. 해당 모델은 사고(thinking) 모드 전용으로 작동하며, 온도 파라미터 조정은 미지원이다. Moonshot AI가 1.0으로 고정했기 때문에 출력의 결정성을 세밀하게 튜닝하길 원하는 팀에는 제약이 될 수 있다.

Moonshot AI가 강조하는 것은 "과도한 사고(overthinking)" 억제다. K2.6에 비해 추론 토큰 사용량을 30% 감소시켰다고 하고 있으며, 에이전트형 워크플로우를 운영하는 팀에게는 추론 비용의 직접적인 절감을 가져오는 수치다. 성능 측면에서는 자체 벤치마크 "Kimi Code Bench v2"에서 21.8%, "Program Bench"에서 11%, "MLS Bench Lite"에서 31.5% 개선을 주장하고 있다. 다만 이 3가지는 모두 Moonshot AI 자신이 운영하는 독자 벤치마크이며, 제3자에 의한 검증은 현시점에서 이루어지지 않았다.

독립적인 검증을 수행한 것은 연구자 Elliot Arledge 다. 동인은 GPU 커널 최적화에 특화된 공개 벤치마크 "KernelBench-Hard"에서 K2.7-Code, K2.6, Claude Fable 5를 비교했으며, 전체 실행 로그를 kernelbench.com에서 공개했다. 결과는 Moonshot AI의 주장과 일치하지 않았다. "K2.7은 더 정직하지만, 더 유능하지는 않다"고 Arledge 다는 X에 게시했다.

구체적으로는 6문제 중 5문제에서 K2.7-Code는 K2.6이 라이브러리 래퍼에 의존했던 부분에서 Triton 커널을 실제로 직접 작성했다. 라이브러리에 대한 의존에서 벗어났다는 의미에서는 "정직한" 구현이지만, 그 중 2개는 모델 자체의 버그로 인해 실패했다. MoE 커널의 점수는 K2.6의 0.222에서 K2.7-Code에서는 0.157로 후퇴했다. "Fable(Claude Fable 5)은 정직하게 실패를 명시하지 않은 경우 모든 곳에서 최고의 결과를 내고 있다"고 Arledge 다는 덧붙였다.

또한 Hermes 에이전트 플랫폼에서 DeepSWE를 기준으로 모델 라우터를 구축한 개발자 Sugumaran Balasubramaniyan도 K2.7-Code 출시에 대해 Moonshot AI에 공개적으로 직접 의문을 제기했다. DeepSWE는 70포인트의 점수 폭을 가진 독립 벤치마크이며, 30포인트 폭에 머무르는 SWE-Bench Pro보다 식별력이 높다고 알려져 있다. K2.7-Code는 이 독립 벤치마크에 대한 제출을 하지 않았으며, 실력의 객관적 평가에는 과제가 남아 있다.

#추론최적화#코딩모델#벤치마크검증#LLM성능평가#독립검증#MoonshotAI

AI issue 편집부

댓글을 작성하려면 로그인하세요