Llama 3.2 Vision (Meta): scheda tecnica e usi

Llama 3.2 Vision (Meta): modello multimodale open per immagini e testo

Famiglia di modelli multimodali di Meta che legge immagini e testo per rispondere in linguaggio naturale, con varianti da 11 e 90 miliardi di parametri.

20 giugno 20265 min di lettura

Llama 3.2 VisionMeta AImodello multimodalevision language modelAI open sourcemodelli LLMintelligenza artificiale immagini

Cos'è Llama 3.2 Vision

Llama 3.2 Vision è la famiglia di modelli multimodali rilasciata da Meta che estende i modelli testuali Llama 3.1 con la capacità di ricevere in input sia testo sia immagini e generare output testuali. Annunciata il 25 settembre 2024, la famiglia esiste in due dimensioni principali: 11B (circa 10,6 miliardi di parametri effettivi) e 90B (circa 88,8 miliardi). Entrambe le varianti condividono un contesto massimo di 128.000 token, utilizzano la Grouped-Query Attention (GQA) per rendere l'inferenza più efficiente e sono state addestrate su circa 6 miliardi di coppie immagine-testo. Il knowledge cutoff dei dati di pre-training è dicembre 2023.

A differenza dei modelli testuali puri, Llama 3.2 Vision può descrivere il contenuto di una foto, rispondere a domande su un'immagine, estrarre informazioni da documenti scansionati e collegare regioni visive a descrizioni linguistiche. È rilasciato sotto la Llama 3.2 Community License, una licenza commerciale personalizzata che permette l'uso in ricerca e in produzione, con l'unica clausola rilevante che obbliga le aziende con oltre 700 milioni di utenti attivi mensili a richiedere un'autorizzazione specifica a Meta.

A cosa serve

Il modello è progettato per compiti di image reasoning: non si limita a riconoscere oggetti, ma cerca di ragionare sulle relazioni tra gli elementi visivi e il testo. Gli use case ufficiali includono:

Visual Question Answering (VQA): rispondere a domande in linguaggio naturale su un'immagine.
DocVQA: estrarre e comprendere testo e layout da documenti, moduli, mappe o contratti.
Image Captioning: generare didascalie descrittive e contestuali.

Llama 3.2 Vision (Meta): modello multimodale open per immagini e testo

Cos'è Llama 3.2 Vision

A cosa serve

🤔 Hai domande su questo argomento?

Continua a leggere

Veo 3 (Google): modello di generazione video AI con audio nativo

Stable Video Diffusion (Stability AI): image-to-video open

Come funziona

Perché conta per founder, PMI e agenzie italiane

Dove trovarlo e come usarlo

Limiti e cautele

Sora (OpenAI): modello di generazione video da testo e immagini

Sana (NVIDIA): modello open di sintesi immagini ad alta risoluzione