OpenAI, ChatGPT의 의료 답변 정확도 대폭 향상
OpenAI는 ChatGPT의 의료 관련 기능을 새로운 모델 'GPT-4.5 Instant'로 강화했다고 발표했다. 동사의 비교 테스트에서는 정확성, 명확성, 포괄성의 3가지 지표에서 의사가 작성한 답변을 상회했으며, 의료 정보의 오류율이 71% 감소했다고 밝혔다.

OpenAI는 ChatGPT의 의료 관련 기능을 GPT-4.5 기반의 새로운 모델 'GPT-4.5 Instant'로 강화했다고 발표했다. 동사가 실시한 비교 테스트에 따르면, 업데이트된 모델은 의사가 작성한 답변과 비교할 때 정확성, 명확성, 포괄성의 3가지 지표 모두에서 우수한 결과를 나타냈다고 한다. 또한 의료 관련 정보의 오류율은 71% 감소했다고 OpenAI가 보고했다.
인공지능과 의료의 결합은 최근 많은 기업이 추진하는 분야가 되었다. 진단 보조나 환자에 대한 정보 제공 등 인공지능이 담당할 수 있는 역할에 대한 기대는 높아지는 한편, 잘못된 의료 정보가 제공되었을 경우의 건강상 위험도 크며, 정확성과 신뢰성의 확보가 업계 전체의 과제로 여겨져 왔다. 이러한 배경 속에서 OpenAI가 의료 분야로의 기능 강화에 나선 이번 움직임은, 동사가 인공지능의 실용 영역을 더욱 전문적인 방향으로 확대하려고 하고 있음을 보여주는 것으로 볼 수 있다.
이번 비교 테스트는 OpenAI 자신이 실시한 것이며, 정확성, 명확성, 포괄성이라는 3가지 축으로 의사의 답변과 새로운 모델의 답변을 평가했다. 의사가 작성한 답변을 기준으로 하여 인공지능의 품질을 측정하는 방법은 의료 인공지능의 성능 평가 방식으로는 일정한 설득력을 가진다. 다만 테스트의 설계와 평가 기준의 세부 사항은 개발사에 의한 자체 평가이며, 독립적인 제3자 기관에 의한 검증과는 성질이 다르다는 점에 유의할 필요가 있다.
의료 정보의 오류율이 71% 감소했다는 수치는 실제 이용 장면에서 의미 있는 개선이라고 할 수 있을 것이다. 의료에 관한 질문은 다른 분야와 비교할 때 잘못된 정보가 주는 위험이 특히 크다. 따라서 인공지능의 답변이 오류를 포함하는 빈도를 대폭 줄일 수 있었다면, 일반 사용자가 일상적으로 건강상의 의문을 ChatGPT로 조사하는 사용 방식에 대한 신뢰감이 높아질 가능성이 있다.
한편 인공지능이 제공하는 의료 정보를 어디까지 신뢰해야 하는가라는 물음은 향후에도 계속 중요한 논점이 될 것이다. 정확도가 어느 정도 향상되어도 인공지능은 개별 환자의 상태를 진찰할 수 없으며, 의사에 의한 진단의 대체물이 될 수 없다. OpenAI도 이 점을 인식하고 있다고 생각되지만, 사용자가 인공지능의 답변을 과신하는 것에 대한 주의는 계속해서 많은 상황에서 요구된다고 할 수 있다.
향후 주목되는 점은 이번 개선이 실제 이용 상황 속에서 어떠한 효과를 가져올 것인가라는 점이다. 성능 평가에서의 수치와 다양한 상황에서의 실용적인 정확도는 항상 일치하지는 않을 수 있다. 의료 종사자나 연구자에 의한 독립적인 평가와 실제 이용자로부터의 피드백이 축적됨으로써 이 업데이트의 참된 가치가 더욱 명확하게 드러날 것으로 보인다.
본 기사는 AI issue 편집부가 사실(fact)을 바탕으로 독자적으로 작성·편집한 저작물입니다. 저작권은 AI issue에 있으며, 무단 전재·재배포 및 AI 학습·활용을 금합니다.