Cos'è Llama 3.2 Vision
Llama 3.2 Vision è la famiglia di modelli multimodali rilasciata da Meta che estende i modelli testuali Llama 3.1 con la capacità di ricevere in input sia testo sia immagini e generare output testuali. Annunciata il 25 settembre 2024, la famiglia esiste in due dimensioni principali: 11B (circa 10,6 miliardi di parametri effettivi) e 90B (circa 88,8 miliardi). Entrambe le varianti condividono un contesto massimo di 128.000 token, utilizzano la Grouped-Query Attention (GQA) per rendere l'inferenza più efficiente e sono state addestrate su circa 6 miliardi di coppie immagine-testo. Il knowledge cutoff dei dati di pre-training è dicembre 2023.
A differenza dei modelli testuali puri, Llama 3.2 Vision può descrivere il contenuto di una foto, rispondere a domande su un'immagine, estrarre informazioni da documenti scansionati e collegare regioni visive a descrizioni linguistiche. È rilasciato sotto la Llama 3.2 Community License, una licenza commerciale personalizzata che permette l'uso in ricerca e in produzione, con l'unica clausola rilevante che obbliga le aziende con oltre 700 milioni di utenti attivi mensili a richiedere un'autorizzazione specifica a Meta.
A cosa serve
Il modello è progettato per compiti di image reasoning: non si limita a riconoscere oggetti, ma cerca di ragionare sulle relazioni tra gli elementi visivi e il testo. Gli use case ufficiali includono:
- Visual Question Answering (VQA): rispondere a domande in linguaggio naturale su un'immagine.
- DocVQA: estrarre e comprendere testo e layout da documenti, moduli, mappe o contratti.
- Image Captioning: generare didascalie descrittive e contestuali.
