Cos'è
Gemma 4 12B è un modello di linguaggio multimodale a pesi aperti sviluppato da Google DeepMind. È stato annunciato il 3 giugno 2026 come nuovo membro di taglia media della famiglia Gemma 4, inserendosi tra la variante edge E4B e il modello 26B a miscela di esperti (MoE). A differenza dei modelli precedenti della serie ottimizzati per dispositivi mobili o workstation, il 12B è pensato per laptop e server privati: un target hardware che include molte macchine consumer attuali.
Il modello è un transformer decoder-only denso con circa 11,95 miliardi di parametri. Accetta in input testo, immagini, audio e video in un'unica passata, producendo solo testo in output. È distribuito in due varianti: un checkpoint pre-addestrato (base) e una versione instruction-tuned (gemma-4-12b-it) per chat, assistenza e workflow agentici. I pesi sono pubblici sotto licenza Apache 2.0, che consente uso commerciale, modifica e redistribuzione senza i vincoli tipici delle licenze source-available.
A cosa serve / dove eccelle
Gemma 4 12B è progettato per portare capacità multimodali avanzate direttamente su hardware locale. Il suo punto di forza non è il punteggio assoluto su benchmark frontier, ma l'equilibrio tra prestazioni e footprint di memoria. Google dichiara che il 12B si avvicina al più grande Gemma 4 26B MoE su benchmark standard, con meno della metà dell'occupazione di memoria, e supera il precedente Gemma 3 27B su compiti di ragionamento e comprensione documentale.
Eccelle in scenari che richiedono:
- elaborazione multimodale locale senza dipendere da API cloud;
- ragionamento su documenti lunghi, codice e materiale visivo;
- workflow agentici con tool use su macchine consumer;
- applicazioni in cui la privacy e la sovranità dei dati sono prioritarie.
