PaliGemma 2 (Google): guida al modello vision-language

Cos'è PaliGemma 2

PaliGemma 2 è una famiglia di modelli di intelligenza artificiale vision-language sviluppata da Google DeepMind. Appartiene alla famiglia Gemma, la linea di modelli aperti di Google, e rappresenta l'evoluzione del precedente PaliGemma. A differenza dei large language model (LLM) puramente testuali, PaliGemma 2 è progettato per ricevere in input contemporaneamente immagini e testo e produrre output testuali coerenti con il contenuto visivo fornito.

Il modello è disponibile in tre taglie principali: 3 miliardi, 10 miliardi e 28 miliardi di parametri. Ciascuna taglia combina un encoder visivo di tipo SigLIP-So400m con un backbone linguistico derivato da Gemma 2, rispettivamente nelle varianti 2B, 9B e 27B. Le versioni sono inoltre addestrate a diverse risoluzioni, tipicamente 224, 448 e 896 pixel, in modo da offrire un compromesso scalabile tra qualità visiva, velocità di elaborazione e consumo di memoria. La variante più piccola è adatta a prototipi ed edge deployment, mentre quella più grande massimizza la capacità di comprensione su task complessi.

A cosa serve

PaliGemma 2 nasce per task specializzati di comprensione visiva e linguaggio. Non è concepito come un chatbot multimodale generalista a più turni: funziona al meglio come modello base da sottoporre a fine-tuning su compiti specifici. Le sue applicazioni principali includono la didascalia automatica di immagini e brevi video, la risposta a domande visive (VQA), l'estrazione e la lettura di testo da immagini (OCR), la segmentazione semantica e il grounding di oggetti, nonché task scientifici e medici che richiedono l'interpretazione di diagrammi, grafici o immagini tecniche.

PaliGemma 2 (Google): modello vision-language open

Cos'è PaliGemma 2

A cosa serve

🤔 Hai domande su questo argomento?

Continua a leggere

Veo 3 (Google): modello di generazione video AI con audio nativo

Stable Video Diffusion (Stability AI): image-to-video open

Come funziona

Perché conta per founder, PMI e agenzie italiane

Dove trovarlo e come usarlo

Limiti da considerare

Sora (OpenAI): modello di generazione video da testo e immagini

Sana (NVIDIA): modello open di sintesi immagini ad alta risoluzione