Mistral, 문서 해석 AI「OCR 4」공개

프랑스의 AI 기업 Mistral AI가 문서 구조 해석에 대응한 신세대 OCR 모델「OCR 4」를 발표했다. 텍스트 추출에 그치지 않고 각 요소의 위치 정보·종별 분류·확신도 스코어를 일괄 출력할 수 있는 설계로, 자사 인프라에의 단독 도입에도 대응하고 있다. 요금은 1,000페이지당 4달러(배치 이용 시 2달러)이며, Mistral API나 Amazon SageMaker, Microsoft Foundry 등 여러 플랫폼에서 즉시 이용 가능하다.

프랑스의 AI 기업 Mistral AI가 문서에서 정보를 읽어내는 신모델「OCR 4」를 발표했다. OCR(광학 문자 인식)이란 종이나 이미지의 문자를 컴퓨터가 다룰 수 있는 데이터로 변환하는 기술을 뜻하는데, 이번 OCR 4는 그 범위를 훨씬 크게 초과한 구조를 갖추고 있다. 단순히 문자를 추출하는 것에 그치지 않고 문서 전체의 구조를 해석하여 각 요소의 위치·종류·신뢰도까지 일괄적으로 출력할 수 있다는 점이 기존 모델과의 큰 차이점이다.

Mistral이 이 분야에 진입한 지 약 15개월 만에 나온 4세대에 해당하는 이번 출시는 유럽의 AI 주권을 둘러싼 논의가 고조되는 가운데 이루어졌다. 미국 기업의 클라우드 서비스에 기밀 문서를 전송하는 것에 신중한 기업과 정부 기관이 증가하고 있으며, 자사 인프라 위에서 완결할 수 있는 모델에 대한 수요가 유럽을 중심으로 강화되고 있다는 배경이 있다. OCR 4는 그러한 수요에 대응하는 형태로 자사 서버로의 단독 도입을 가능하게 한 설계를 채택했다.

모델의 대응 범위는 광범위하며 170개 언어·10개 언어 그룹을 지원하고 PDF·DOC·PPT·OpenDocument 형식의 파일을 처리할 수 있다. 출력의 핵심을 이루는 것은「바운딩박스(위치 정보)」「블록 종별 분류」「확신도 스코어」의 3가지 요소다. 바운딩박스란 추출한 각 요소가 원본 문서의 어느 위치에 있는지를 나타내는 좌표 정보로「이 숫자는 어느 페이지의 어디서 온 것인가」를 나중에 확인할 수 있도록 한다. 나아가 제목·표·수식·서명 등 블록 종별이 자동으로 분류되므로 다운스트림 시스템에 맞춘 진분류가 용이해진다.

요금 체계는 1,000페이지당 4달러이며 배치 API를 이용하면 2달러로 내려간다. Mistral API 및 Mistral Studio의 Document AI에서 이미 이용 가능하며 Amazon SageMaker, Microsoft Foundry에서도 사용할 수 있다. Snowflake의「Parse Document」에의 대응은 곧 추가될 예정이다.

이러한 구조가 기업에게 중요한 이유는 문서 읽기와 구조 해석을 별도의 시스템에서 수행할 필요가 없어진다는 점이다. 그간에는 OCR로 문자를 추출한 후 별도로 레이아웃 해석 처리를 추가하는 것이 일반적이었다. OCR 4에서는 그 과정을 하나의 모델에서 완결시킬 수 있으므로 개발·운영 비용을 절감할 수 있다는 평가가 가능하다.

특히 주목되는 것은 RAG(검색 확대 생성: AI가 회답할 때 관련 문서를 검색하여 참조하는 구조)와의 상성이다. AI가 문서에서 정보를 끌어낼 때「어느 페이지의 어느 부분에 근거가 있는가」를 추적할 수 있다는 것은 업무상의 정확성과 감시 대응 측면에서 중요해진다. OCR 4가 제공하는 위치 정보와 확신도 스코어는 이러한 추적을 가능하게 하는 기초로서 기능한다고 위치지어진다.

금융·의료·법무 등 규제가 엄격한 업계에서는 문서 처리를 외부 클라우드에 맡기는 것에 대한 우려가 뿌리 깊다. 자사 인프라 위에서의 완결을 가능하게 하는 OCR 4의 전개 형태는 그러한 기업이 사내의 AI 활용을 진행할 때의 선택지로서 기능할 가능성이 있다. Mistral이 유럽 AI의 기수로서의 입지를 상업적으로 얼마나 확대할 수 있을지, 향후 도입 사례가 하나의 지표가 될 것이다.

#OCR#DocumentAI#RAG#MistralAI#GenerativeAI#EnterpriseAI

AI issue 편집부

댓글을 작성하려면 로그인하세요