Gemma 4 12B: modello multimodale open di Google per laptop

Cos'è

Gemma 4 12B è un modello di linguaggio multimodale a pesi aperti sviluppato da Google DeepMind. È stato annunciato il 3 giugno 2026 come nuovo membro di taglia media della famiglia Gemma 4, inserendosi tra la variante edge E4B e il modello 26B a miscela di esperti (MoE). A differenza dei modelli precedenti della serie ottimizzati per dispositivi mobili o workstation, il 12B è pensato per laptop e server privati: un target hardware che include molte macchine consumer attuali.

Il modello è un transformer decoder-only denso con circa 11,95 miliardi di parametri. Accetta in input testo, immagini, audio e video in un'unica passata, producendo solo testo in output. È distribuito in due varianti: un checkpoint pre-addestrato (base) e una versione instruction-tuned (gemma-4-12b-it) per chat, assistenza e workflow agentici. I pesi sono pubblici sotto licenza Apache 2.0, che consente uso commerciale, modifica e redistribuzione senza i vincoli tipici delle licenze source-available.

A cosa serve / dove eccelle

Gemma 4 12B è progettato per portare capacità multimodali avanzate direttamente su hardware locale. Il suo punto di forza non è il punteggio assoluto su benchmark frontier, ma l'equilibrio tra prestazioni e footprint di memoria. Google dichiara che il 12B si avvicina al più grande Gemma 4 26B MoE su benchmark standard, con meno della metà dell'occupazione di memoria, e supera il precedente Gemma 3 27B su compiti di ragionamento e comprensione documentale.

Eccelle in scenari che richiedono:

elaborazione multimodale locale senza dipendere da API cloud;
ragionamento su documenti lunghi, codice e materiale visivo;
workflow agentici con tool use su macchine consumer;
applicazioni in cui la privacy e la sovranità dei dati sono prioritarie.

Aspetto	Dettaglio
Parametri	~11,95 miliardi (denso)
Architettura	Decoder-only transformer, encoder-free per visione e audio
Modelli input	Testo, immagini, audio, video
Output	Testo
Contesto massimo	256.000 token (262.144)
Attenzione	Ibrida: sliding window locale più attenzione globale
Licenza	Apache 2.0
Pesi disponibili	Hugging Face, Kaggle
Varianti	base e instruction-tuned (it)

Gemma 4 12B: modello multimodale open di Google per laptop

Cos'è

A cosa serve / dove eccelle

🤔 Hai domande su questo argomento?

Continua a leggere

Qwen3-Embedding: embedding testuali multilingui open source di Alibaba Cloud

SmolLM3: scheda del modello di linguaggio compatto di Hugging Face

Caratteristiche e specifiche

Punti di forza

Quando ha senso (e quando no)

Casi d'uso concreti

Alternative e contesto

In sintesi

Risorse

Moondream: famiglia di Vision-Language Model open source efficienti

Kokoro TTS: modello open-weight di sintesi vocale da 82M parametri