Cos'è Llama 3.2 1B
Llama 3.2 1B è un Large Language Model (LLM) generativo sviluppato da Meta e appartenente alla famiglia Llama 3.2. Con circa 1,23 miliardi di parametri, è il modello testuale più leggero della serie, pensato per girare su dispositivi con risorse limitate come smartphone, tablet, laptop e edge device. È un modello text-in/text-out: riceve in ingresso del testo e restituisce testo in uscita. A differenza delle varianti 11B e 90B Vision, non ha capacità visive native. È disponibile in due versioni: una base, pre-addestrata su un vasto corpus di dati pubblici, e una versione Instruct, ulteriormente allineata per dialogare e seguire istruzioni in linguaggio naturale.
A cosa serve
Grazie alle dimensioni compatte, Llama 3.2 1B è progettato per l'intelligenza artificiale generativa in locale. I casi d'uso tipici includono la riscrittura di prompt, il riassunto di testi, il recupero di informazioni strutturate, le risposte a domande, la classificazione di documenti e l'assistenza scrittura leggera. La versione Instruct supporta anche il tool use in modalità zero-shot, cioè la capacità di invocare funzioni o API definite dallo sviluppatore senza averle viste in fase di addestramento. Inoltre, il modello può essere impiegato come "draft model" nella tecnica dello speculative decoding: genera bozze rapide che vengono poi verificate da un LLM più grande, riducendo la latenza percepita.
Come funziona
L'architettura è un transformer auto-regressivo ottimizzato, analogo a quello di Llama 3.1, con Grouped-Query Attention (GQA) per ridurre l'occupazione di memoria e migliorare la scalabilità dell'inferenza. Il contesto massimo è di 128.000 token, una cifra elevata per un modello di questa taglia. L'addestramento si è svolto su un mix di dati pubblicamente disponibili, fino a circa 9 trilioni di token. Per i modelli 1B e 3B, Meta ha applicato strutturale e a partire dai modelli teacher Llama 3.1 8B e 70B: i logit dei modelli più grandi sono stati usati come target a livello di token durante il pre-training, permettendo di recuperare prestazioni dopo la riduzione di dimensione. La versione Instruct è stata poi allineata con Supervised Fine-Tuning (SFT), Rejection Sampling e Direct Preference Optimization (DPO).
