Anthropic「Fable 5」, 정부 금지 조치를 거쳐 세계 배포 재개

Anthropic은 탈옥 문제를 이유로 미국 정부로부터 배포 중단 조치를 받았던 인공지능 모델 「Fable 5」에 대해 약 2주일 만에 세계 향 제공을 재개했다. 문제의 기법은 Amazon 연구원이 발견한 것으로, 소형 모델 「Claude Haiku 4.5」에서도 동일하게 작동하는 것이었다. Anthropic은 문제 기법을 99% 이상의 확률로 차단하는 새로운 안전 분류기를 도입하고 정부의 승인을 얻어 재개에 성공했다.

Anthropic이 개발한 인공지능 모델 「Fable 5」가 약 2주일에 걸친 미국 정부의 배포 중단 조치를 거쳐 세계 향 제공을 재개했다. 중단의 원인이 된 것은 모델의 안전 제한을 의도적으로 우회하는 「탈옥」이라 불리는 기법의 발견이었다. Anthropic은 새로운 안전 대책을 도입하고 정부의 승인을 얻어 배포를 재개하고 있다.

탈옥이란 인공지능 모델이 본래 응답하지 않도록 설정된 유해한 콘텐츠나 위험한 정보를 특정한 입력 조작을 통해 끌어내는 행위를 가리킨다. 이번 기법은 Amazon의 연구원에 의해 발견된 것으로 Fable 5에만 국한된 문제가 아니었다. Anthropic의 설명에 따르면, 같은 회사의 더 소형 모델인 「Claude Haiku 4.5」에서도 동일한 기법이 유효했다고 한다. 즉, 이번 취약점은 Fable 5 고유의 것이 아니라 Anthropic 모델 전체에 공통하는 기술적 과제였던 것이다.

Anthropic은 이 문제에 대응하기 위해 새로운 「안전 분류기」를 도입했다. 안전 분류기란 입력된 텍스트가 유해한 의도를 갖고 있는지 여부를 판정하는 필터링 기능을 의미한다. 같은 회사에 따르면 이 분류기는 문제가 된 기법을 99% 이상의 경우에서 차단할 수 있다고 한다. 다만 한편으로는 악의 없는 일반적인 요청도 일부 오류로 제한해버리는 「과잉 탐지」가 늘어나고 있다고도 인정하고 있다.

이번의 경과가 시사하는 바는 최첨단 인공지능 모델의 공개와 안전 관리 사이에 있는 어려운 균형이다. 미국 정부가 인공지능 모델의 배포를 일시 중단하는 대응은 인공지능의 안전성에 대한 감시가 실제로 기능하고 있음을 보여주기도 한다. 한편 유사한 취약점이 소형 모델에도 존재했다는 사실은 특정 모델을 중단하는 것만으로는 근본적인 해결이 되지 않을 수 있음을 시사하고 있다.

인공지능의 안전 대책은 현재도 발전 과정에 있으며, 필터링 정확도의 향상과 사용성의 유지는 트레이드오프 관계가 되기 쉽다. 이번처럼 안전성을 높이면 「무해한 요청도 차단해버린다」는 문제가 발생하는 것은 업계 전체에 공통하는 과제다. Anthropic을 포함한 각 회사가 어떻게 계속해서 이 균형을 맞추어 나갈지는 계속해서 주목할 만한 지점이라고 할 수 있다.

향후의 초점은 Anthropic이 도입한 안전 분류기의 정확도 개선과 과잉 탐지의 감소가 얼마나 진전되는지에 있다. 또한 정부 기관이 인공지능 모델의 안전 심사에 얼마나 관여할 것인가 하는 제도적 쟁점도 향후의 업계 동향에 영향을 미칠 가능성이 있다.

#Anthropic#AI안전성#탈옥#생성AI#AIガバナンス#LLM#AI규제

AI issue 편집부

댓글을 작성하려면 로그인하세요