Cos'è
Llama 4 Scout è un modello fondazionale di intelligenza artificiale generativa sviluppato da Meta, tra i primi della famiglia Llama a essere nativamente multimodale. La denominazione tecnica è Llama-4-Scout-17B-16E: durante ogni passo di calcolo vengono attivati circa 17 miliardi di parametri, selezionati dinamicamente tra 16 esperti specializzati, per un totale complessivo di 109 miliardi di parametri. Questa architettura a Mixture of Experts (MoE) permette di ottenere capacità di modellazione molto ampie mantenendo però il carico computazionale concentrato su una frazione dei pesi totali. Il risultato è un modello che offre prestazioni elevate pur essendo più compatto ed efficiente rispetto a molti concorrenti di dimensioni simili in termini di parametri totali.
A cosa serve
Scout è progettato per compiti di linguaggio e visione combinati. Può essere usato come assistente conversazionale multilingue, per generare e commentare codice, per descrivere e ragionare sul contenuto di immagini, per rispondere a domande su grafici, tabelle e documenti scansionati, e per produrre didascalie automatiche. La sua caratteristica più distintiva è la finestra contestuale: può elaborare contesti fino a 10 milioni di token, una capacità che lo rende adatto all'analisi di interi libri, a codebase molto estese, a report annuali o a interi archivi normativi in un'unica inferenza. Meta ha testato il modello anche con input multipli, fino a cinque immagini contemporanee, aprendo scenari come il confronto visivo tra prodotti, l'analisi di sequenze di screenshot o la comprensione di documenti multipagina arricchiti da figure.
Come funziona
Llama 4 Scout si basa su un transformer autoregressivo che utilizza l'architettura MoE. In un modello denso classico tutti i parametri partecipano a ogni passo; in Scout, invece, un meccanismo di routing indirizza ogni token verso un sottoinsieme degli esperti disponibili, riducendo il numero di operazioni attive. La multimodalità è ottenuta tramite early fusion: le informazioni visive e testuali vengono integrate fin dalle prime fasi di elaborazione, anziché affidarsi a moduli separati collegati in cascata. Questo rende il modello più coerente su compiti che richiedono di collegare parole e pixel.
