AI 기술2026년 6월 15일 08:22

PixelRAG이 텍스트 분석을 초월한 정확도를 실현

UC버클리 등의 연구팀이 텍스트 변환을 전혀 수행하지 않고 스크린샷을 직접 인덱싱하는 RAG 시스템 "PixelRAG"를 발표했다. 위키백과의 3000만 장의 이미지 타일을 이용한 검증에서 텍스트 기반 RAG와 비교하여 최대 18.1%의 정확도 향상을 달성했다. 종래의 HTML 파서에 의한 변환 처리가 RAG의 실패 원인의 대부분을 차지한다는 것을 파악하고, 비전 언어 모델을 활용함으로써 그 문제를 근본적으로 회피하는 새로운 아키텍처를 제안했다.

UC버클리, 프린스턴 대학교, EPFL, Databricks의 연구팀이 기업용 RAG(검색 증강 생성) 파이프라인의 근본적인 결함을 지적하는 논문을 발표했다. 그 결함이란 웹페이지나 문서를 순수 텍스트로 변환하는 "파서" 처리 자체다. 연구팀이 개발한 "PixelRAG"는 이 텍스트 변환 단계를 완전히 제거하는 새로운 아키텍처이다.

PixelRAG의 메커니즘은 단순하다. 문서를 텍스트로 변환하는 대신 웹페이지를 스크린샷으로 렌더링하고 해당 이미지를 인덱싱한다. 그리고 검색한 이미지 타일을 비전 언어 모델(VLM)에 직접 입력하여 답변을 생성한다. 위키백과의 전체 콘텐츠를 포함하는 3000만 장의 스크린샷 타일로 검증한 결과, 6개의 벤치마크에서 텍스트 기반 RAG를 능가했으며, 기준선과 비교하여 최대 18.1%의 정확도 향상을 달성했다.

연구팀은 텍스트 기반 RAG가 답변을 잃는 프로세스를 3단계로 분류했다. 표준 벤치마크 "SimpleQA"에서의 측정에 따르면, 먼저 "파서 손실"로 답변의 36.6%가 HTML 변환 시점에서 손실된다. 다음으로 "순위 손실"로 55.2%의 경우 답변이 존재하지만, 키워드가 밀집된 정보 상자가 75.9%의 쿼리에서 1위를 차지하여 정답을 포함한 단락이 20위 이하로 밀려난다. 나머지 8.2%는 "리더 손실"로서 구조가 평탄화되면서 잘못된 정보가 참조된다.

제1저자이자 UC버클리의 박사과정 학생인 Yichuan Wang은 파서 개선이 근본 해결책이 아닌 이유를 다음과 같이 설명한다. "파서를 개선하려고 하면 끝없는 프로세스가 됩니다. 모든 웹사이트가 개별 처리를 필요로 하기 때문입니다. 우리의 목표는 VLM의 최신 진화를 활용하여 이 문제 전체를 회피하고, 사이트별 엔지니어링 없이도 모든 웹사이트에 대응할 수 있는 검색 시스템을 구축할 수 있는지를 탐색하는 것이었습니다".

Wang은 더 나아가 현대의 웹 RAG 파이프라인이 안고 있는 복잡성 문제에도 언급한다. "렌더링, 파싱, 정제, 청킹 등 많은 수작업 단계가 존재합니다. 각 단계가 캐스케이드 오류와 추상화를 발생시켜 원래의 웹페이지에서 점점 더 멀어집니다". PixelRAG는 이러한 복잡한 단계들을 제거하고 렌더링된 페이지에 직접 작용함으로써 단순하면서도 고정확도의 엔드투엔드 아키텍처를 실현하고 있다. VLM은 텍스트뿐만 아니라 이미지도 입력으로 받아들이기 때문에 레이아웃과 구조를 유지한 채 인간이 웹페이지를 읽는 것과 동일한 형식으로 정보를 처리할 수 있다는 점이 큰 강점이다.

#PixelRAG#비전언어모델#RAG#텍스트추출#이미지인덱싱#정확도향상#멀티모달AI

AI issue 편집부

댓글을 작성하려면 로그인하세요