Cos'è PaliGemma 2
PaliGemma 2 è una famiglia di modelli di intelligenza artificiale vision-language sviluppata da Google DeepMind. Appartiene alla famiglia Gemma, la linea di modelli aperti di Google, e rappresenta l'evoluzione del precedente PaliGemma. A differenza dei large language model (LLM) puramente testuali, PaliGemma 2 è progettato per ricevere in input contemporaneamente immagini e testo e produrre output testuali coerenti con il contenuto visivo fornito.
Il modello è disponibile in tre taglie principali: 3 miliardi, 10 miliardi e 28 miliardi di parametri. Ciascuna taglia combina un encoder visivo di tipo SigLIP-So400m con un backbone linguistico derivato da Gemma 2, rispettivamente nelle varianti 2B, 9B e 27B. Le versioni sono inoltre addestrate a diverse risoluzioni, tipicamente 224, 448 e 896 pixel, in modo da offrire un compromesso scalabile tra qualità visiva, velocità di elaborazione e consumo di memoria. La variante più piccola è adatta a prototipi ed edge deployment, mentre quella più grande massimizza la capacità di comprensione su task complessi.
A cosa serve
PaliGemma 2 nasce per task specializzati di comprensione visiva e linguaggio. Non è concepito come un chatbot multimodale generalista a più turni: funziona al meglio come modello base da sottoporre a fine-tuning su compiti specifici. Le sue applicazioni principali includono la didascalia automatica di immagini e brevi video, la risposta a domande visive (VQA), l'estrazione e la lettura di testo da immagini (OCR), la segmentazione semantica e il grounding di oggetti, nonché task scientifici e medici che richiedono l'interpretazione di diagrammi, grafici o immagini tecniche.
