Llama 3.2 1B Meta: scheda tecnica e usi per PMI

Cos'è Llama 3.2 1B

Llama 3.2 1B è un Large Language Model (LLM) generativo sviluppato da Meta e appartenente alla famiglia Llama 3.2. Con circa 1,23 miliardi di parametri, è il modello testuale più leggero della serie, pensato per girare su dispositivi con risorse limitate come smartphone, tablet, laptop e edge device. È un modello text-in/text-out: riceve in ingresso del testo e restituisce testo in uscita. A differenza delle varianti 11B e 90B Vision, non ha capacità visive native. È disponibile in due versioni: una base, pre-addestrata su un vasto corpus di dati pubblici, e una versione Instruct, ulteriormente allineata per dialogare e seguire istruzioni in linguaggio naturale.

A cosa serve

Grazie alle dimensioni compatte, Llama 3.2 1B è progettato per l'intelligenza artificiale generativa in locale. I casi d'uso tipici includono la riscrittura di prompt, il riassunto di testi, il recupero di informazioni strutturate, le risposte a domande, la classificazione di documenti e l'assistenza scrittura leggera. La versione Instruct supporta anche il tool use in modalità zero-shot, cioè la capacità di invocare funzioni o API definite dallo sviluppatore senza averle viste in fase di addestramento. Inoltre, il modello può essere impiegato come "draft model" nella tecnica dello speculative decoding: genera bozze rapide che vengono poi verificate da un LLM più grande, riducendo la latenza percepita.

Come funziona

L'architettura è un transformer auto-regressivo ottimizzato, analogo a quello di Llama 3.1, con Grouped-Query Attention (GQA) per ridurre l'occupazione di memoria e migliorare la scalabilità dell'inferenza. Il contesto massimo è di 128.000 token, una cifra elevata per un modello di questa taglia. L'addestramento si è svolto su un mix di dati pubblicamente disponibili, fino a circa 9 trilioni di token. Per i modelli 1B e 3B, Meta ha applicato strutturale e a partire dai modelli teacher Llama 3.1 8B e 70B: i logit dei modelli più grandi sono stati usati come target a livello di token durante il pre-training, permettendo di recuperare prestazioni dopo la riduzione di dimensione. La versione Instruct è stata poi allineata con Supervised Fine-Tuning (SFT), Rejection Sampling e Direct Preference Optimization (DPO).

Llama 3.2 1B (Meta): LLM leggero per AI on-device

Cos'è Llama 3.2 1B

A cosa serve

Come funziona

🤔 Hai domande su questo argomento?

Continua a leggere

Veo 3 (Google): modello di generazione video AI con audio nativo

Stable Video Diffusion (Stability AI): image-to-video open

Perché conta per founder, PMI e agenzie italiane

Dove trovarlo e come usarlo

Limiti e cautele

Sora (OpenAI): modello di generazione video da testo e immagini

Sana (NVIDIA): modello open di sintesi immagini ad alta risoluzione