Cos'è ColPali
ColPali è un modello di intelligenza artificiale multimodale progettato per il recupero efficiente di documenti a partire dalle loro caratteristiche visive. Il nome unisce due elementi tecnici: "Col", che rimanda all'architettura ColBERT di ricerca informazione, e "Pali", dal modello PaliGemma-3B sviluppato da Google. A differenza dei sistemi tradizionali di information retrieval su documenti, ColPali non richiede l'estrazione preventiva del testo tramite OCR né la ricostruzione strutturale del layout: prende in input direttamente l'immagine della pagina e la confronta con la query dell'utente.
Il modello è stato proposto nel paper ColPali: Efficient Document Retrieval with Vision Language Models, pubblicato su arXiv con identificativo 2407.01449, dagli autori Manuel Faysse, Hugues Sibille, Tony Wu, Bilel Omrani, Gautier Viaud, Céline Hudelot e Pierre Colombo. Il progetto di ricerca e sviluppo è condotto da Vidore, team specializzato in retrieval visivo e spin-off di Illuin Technology, azienda francese attiva nel campo dell'elaborazione del linguaggio naturale e della computer vision.
A cosa serve
ColPali serve a trovare la pagina o il frammento di documento più rilevante dato una domanda in linguaggio naturale. L'applicazione tipica è il document retrieval all'interno di archivi digitali composti da PDF, presentazioni, report, fatture, contratti, manuali tecnici e pagine scansionate. Invece di convertire ogni pagina in testo puro e poi indicizzarla, ColPali lavora sull'immagine della pagina nel suo insieme, catturando contemporaneamente testo, formattazione, tabelle, grafici, loghi e disposizione spaziale degli elementi.
Questo approccio è particolarmente utile quando il significato di una pagina dipende non solo dalle parole scritte, ma anche da come sono disposte. Un esempio classico è una tabella finanziaria: la posizione di una cifra all'interno di righe e colonne è informativa tanto quanto il numero stesso. Analogamente, slide, brochure tecniche e certificati contengono informazioni distribuite su più blocchi visivi che un semplice flusso di testo perderebbe. ColPali permette di interrogare questi documenti con domande libere, come "qual è il fatturato del terzo trimestre?" o "in quale università lavora James V. Fiorca?", e di recuperare le pagine pertinenti.
