AI技術2026年6月15日 08:22

PixelRAGがテキスト解析を超える精度を実現

UCバークレーなどの研究チームが、テキスト変換を一切行わずスクリーンショットを直接インデックス化するRAGシステム「PixelRAG」を発表した。Wikipediaの3000万枚の画像タイルを用いた検証で、テキストベースRAGと比較して最大18.1%の精度向上を達成している。従来のHTMLパーサーによる変換処理がRAGの失敗原因の大半を占めることを特定し、ビジョン言語モデルを活用することでその問題を根本から回避する新アーキテクチャを提案した。

UCバークレー、プリンストン大学、EPFL、Databricksの研究チームが、企業向けRAG（検索拡張生成）パイプラインの根本的な欠陥を指摘する論文を発表した。その欠陥とは、ウェブページや文書をプレーンテキストに変換する「パーサー」処理そのものだ。研究チームが開発した「PixelRAG」は、このテキスト変換ステップを完全に排除する新しいアーキテクチャである。

PixelRAGの仕組みはシンプルだ。ドキュメントをテキストに変換する代わりに、ウェブページをスクリーンショットとして描画し、その画像をインデックス化する。そして取得した画像タイルをビジョン言語モデル（VLM）に直接入力して回答を生成する。Wikipediaの全コンテンツをカバーする3000万枚のスクリーンショットタイルで検証した結果、6つのベンチマークでテキストベースRAGを上回り、ベースラインと比較して最大18.1%の精度向上を達成した。

研究チームは、テキストベースRAGが回答を失うプロセスを3段階に分類している。標準ベンチマーク「SimpleQA」での計測によると、まず「パーサーロス」として回答の36.6%がHTML変換時点で失われる。次に「ランクロス」として55.2%のケースで回答は存在するにもかかわらず、キーワードが密集した情報ボックスが75.9%のクエリでランク1位を占め、正解を含む段落が20位以下に押し下げられてしまう。残りの8.2%は「リーダーロス」として、構造が平坦化されることで誤った情報が参照される。

筆頭著者でUCバークレーの博士課程学生であるYichuan Wang氏は、パーサーの改善が根本解決にならない理由をこう語る。「パーサーを改善しようとすれば際限のないプロセスになります。なぜなら、すべてのウェブサイトが個別の処理を必要とするからです。私たちの目標は、VLMの最新の進化を活用してこの問題全体を回避し、サイト固有のエンジニアリングなしにどのウェブサイトにも対応できる検索システムを構築できるかを探ることでした」。

Wang氏はさらに、現代のウェブRAGパイプラインが抱える複雑さの問題にも言及する。「レンダリング、パース、クリーニング、チャンキングなど、多くの手作業ステージが存在します。各ステージがカスケードエラーと抽象化を生み出し、元のウェブページからどんどん遠ざかってしまいます」。PixelRAGはこれらの複雑なステージを排除し、レンダリング済みページに直接作用することでシンプルかつ高精度なエンドツーエンドのアーキテクチャを実現している。VLMはテキストだけでなく画像も入力として受け取るため、レイアウトや構造を保ったまま、人間がウェブページを読むのと同じ形式で情報を処理できる点が大きな強みだ。

#PixelRAG#ビジョン言語モデル#RAG#テキスト抽出#画像インデックス化#精度向上#マルチモーダルAI

AI issue 編集部

コメントするにはログイン