SmolVLM Hugging Face: modello VLM open source

SmolVLM (Hugging Face): VLM piccolo, open source e multimodale

Una famiglia di modelli di visione-linguaggio compatti sviluppata da Hugging Face, rilasciata in open source con licenza Apache 2.0 per elaborare immagini, documenti e video su hardware leggero.

20 giugno 20265 min di lettura

SmolVLMHugging FaceVision Language ModelVLM open sourcemultimodal AIApache 2.0edge AIdocument understanding

Cos'è SmolVLM

SmolVLM è una famiglia di modelli artificiali multimodali sviluppata da Hugging Face. L'obiettivo è offrire un modello di visione-linguaggio — in gergo Vision Language Model (VLM) — che sia abbastanza piccolo da girare su hardware consumer o server modesti, pur mantenendo capacità competitive su compiti di comprensione visiva e testuale. Il nome gioca sul contrasto tra "small" e le prestazioni percepite: l'intenzione è dimostrare che un VLM non deve per forza occupare decine di gigabyte per essere utile.

Le versioni principali pubblicate su Hugging Face Hub includono varianti con 256 milioni, 500 milioni e 2,2 miliardi di parametri, oltre alle versioni base, affinate su dati sintetici e ottimizzate per seguire istruzioni (Instruct). Questa scala permette di scegliere il modello più adatto in base alla memoria disponibile, alla latenza richiesta e alla complessità del compito.

A cosa serve

SmolVLM è progettato per analizzare immagini e produrre descrizioni, rispondere a domande sui contenuti visivi, estrarre testo da documenti, interpretare diagrammi e tabelle, e — nelle versioni più recenti — lavorare anche con più immagini e brevi sequenze video. Esempi pratici includono: la classificazione automatica di screenshot, la generazione di caption per asset multimediali, l'estrazione di informazioni da fatture o moduli, il supporto a chatbot che ricevono allegati visivi e l'indicizzazione di contenuti grafici.

La famiglia si distingue per l'attenzione alla comprensione documentale: una parte significativa dei dati di addestramento proviene da collezioni come Docmatix e The Cauldron, che enfatizzano documenti, diagrammi e testo presente nelle immagini. Per questo SmolVLM si rivela particolarmente interessante per chi deve digitalizzare flussi documentali o arricchire knowledge base a partire da file scansionati.

SmolVLM (Hugging Face): VLM piccolo, open source e multimodale

Cos'è SmolVLM

A cosa serve

🤔 Hai domande su questo argomento?

Continua a leggere

Veo 3 (Google): modello di generazione video AI con audio nativo

Stable Video Diffusion (Stability AI): image-to-video open

Come funziona

Perché conta per founder, PMI e agenzie italiane

Dove trovarlo

Considerazioni

Sora (OpenAI): modello di generazione video da testo e immagini

Sana (NVIDIA): modello open di sintesi immagini ad alta risoluzione