Qwen2.5-VL (Alibaba): modello vision-language open source
Modello multimodale di Alibaba in grado di leggere immagini, documenti, video e agire come agente visivo.
20 giugno 2026·6 min di lettura
Qwen2.5-VLAlibaba Cloudvision language modelmodello multimodaleOCR AIagente visivoHugging Faceopen source AI
Cos'è Qwen2.5-VL
Qwen2.5-VL è una famiglia di modelli di intelligenza artificiale vision-language (VL) sviluppata dal Qwen Team di Alibaba Cloud. Rappresenta l'evoluzione della linea Qwen-VL e integra un modello linguistico di grandi dimensioni (LLM) con un encoder visivo, consentendo al sistema di ricevere in input contemporaneamente testo, immagini e video e di generare risposte testuali coerenti.
Il modello è stato rilasciato in più varianti di dimensione: 3B, 7B, 32B e 72B di parametri. Le versioni più piccole sono pensate per essere eseguite localmente su workstation o server con GPU consumer, mentre la variante da 72B è orientata a deployment su infrastrutture cloud o enterprise. Le varianti 3B, 7B e 32B sono generalmente disponibili con licenza Apache 2.0, che ne permette l'uso commerciale, la modifica e l'integrazione in prodotti proprietari; la versione 72B è invece distribuita con una licenza specifica di Alibaba, più restrittiva per gli usi commerciali di grandi dimensioni.
A cosa serve
Qwen2.5-VL è nato per risolvere compiti in cui il linguaggio naturale da solo non basta: è necessario "vedere" e interpretare contenuti visivi. Le sue principali applicazioni includono:
OCR e lettura documentale: estrazione di testo da scansioni, fatture, moduli, contratti, screenshot e PDF.
Comprensione di grafici e diagrammi: interpretazione di chart, tabelle, infografiche e layout complessi.
Analisi di immagini: riconoscimento di oggetti, scene, icone, testo sovrapposto e relazioni spaziali.
Comprensione video: capacità di analizzare video lunghi (anche oltre un'ora), individuare eventi specifici e rispondere a domande temporali.
Hai letto fino a qui
🤔 Hai domande su questo argomento?
Posso aiutarti a capire come applicarlo al tuo business. Scegli come vuoi parlarmi.
Agenticità visiva: il modello può funzionare come agente capace di interagire con interfacce grafiche (computer use, phone use), individuando elementi sullo schermo e generando coordinate per clic, bounding box o azioni strutturate.
Output strutturato: generazione di JSON con coordinate, attributi e campi estratti, utile per l'automazione di processi documentali.
Queste capacità lo rendono uno strumento versatile per chi deve automatizzare l'elaborazione di contenuti visivi senza affidarsi esclusivamente a servizi API proprietari.
Come funziona
Dal punto di vista architetturale, Qwen2.5-VL combina tre componenti principali:
Vision Transformer (ViT): un encoder visivo che trasforma immagini e frame video in token visivi. È ottimizzato con tecniche come window attention, SwiGLU e RMSNorm per ridurre i costi computazionali e allinearsi meglio alla componente linguistica.
Proiettore visivo-linguistico: collega lo spazio delle rappresentazioni visive a quello del linguaggio, permettendo al transformer di ragionare su entrambi i domini.
LLM backbone: il modello di linguaggio Qwen2.5, che riceve i token testuali e visivi e genera la risposta.
Un elemento distintivo è il mRoPE (multimodal Rotary Position Embedding), una rappresentazione posizionale che gestisce simultaneamente dimensioni spaziali (altezza e larghezza delle immagini) e temporali (sequenza dei frame video). Nella versione 2.5 questa meccanica è stata estesa con un campionamento dinamico del frame rate e un allineamento temporale assoluto, migliorando la comprensione di video lunghi e la capacità di localizzare eventi nel tempo.
Il modello supporta la risoluzione nativa delle immagini, con un range configurabile di token visivi (tipicamente da 4 a 16.384 token per immagine). Questo permette di bilanciare accuratezza e consumo di memoria a seconda del caso d'uso. Per testi lunghi è previsto l'uso di YaRN per l'estrapolazione del contesto, anche se questo può influire negativamente sui compiti di localizzazione spaziale e temporale.
Perché conta per founder, PMI e agenzie italiane
Per startup, piccole e medie imprese e agenzie creative italiane, Qwen2.5-VL offre un vantaggio importante: accesso a un modello multimodale avanzato senza costi di API ricorrenti e senza lock-in su un solo provider. La licenza Apache 2.0 delle varianti leggere consente di integrarlo in prodotti commerciali, sia on-premise che in cloud privato, mantenendo il controllo sui dati dei clienti.
Ecco alcuni scenazi concreti:
Automazione back-office: una PMI può usare Qwen2.5-VL per estrarre dati da fatture elettroniche, bolle e CMR, riducendo l'inserimento manuale.
Customer care visivo: un'azienda di e-commerce può permettere agli utenti di inviare foto di prodotti difettosi e ricevere risposte automatiche basate sul contenuto visivo.
Content moderation e catalogazione: agenzie e piattaforme possono classificare automaticamente immagini e video, generando metadati e descrizioni strutturate.
Assistenti per settori regolamentati: in ambito legale, sanitario o finanziario, la possibilità di eseguire il modello in ambienti controllati è un requisito rilevante per la conformità al GDPR e alla riservatezza.
Prototipazione rapida: founder e team tecnici possono sperimentare agenti visivi, UI automation e analisi documentale con modelli da 7B o 32B, prima di decidere se scalare su infrastrutture più potenti.
La disponibilità di varianti leggere (3B e 7B) abbassa la soglia di accesso: con una GPU consumer moderna è possibile ottenere prestazioni competitive per molti compiti di OCR e comprensione documentale, anche superiori a modelli chiusi di dimensione comparabile su alcuni benchmark.
Dove trovarlo e come usarlo
Qwen2.5-VL è distribuito attraverso i principali hub di modelli aperti:
Hugging Face: i checkpoint ufficiali sono pubblicati sotto l'organizzazione Qwen (ad esempio Qwen/Qwen2.5-VL-7B-Instruct e Qwen/Qwen2.5-VL-32B-Instruct).
ModelScope: hub preferenziale per gli utenti in Cina continentale, con gli stessi checkpoint ufficiali.
GitHub: il repository QwenLM/Qwen2.5-VL contiene esempi di utilizzo, script di fine-tuning e documentazione tecnica.
Qwen Chat: una demo web ufficiale per testare il modello 72B via browser.
Per l'uso in locale, il modello è integrato nella libreria Transformers di Hugging Face. È sufficiente installare transformers e il pacchetto qwen-vl-utils per gestire immagini e video, quindi caricare il modello con Qwen2_5_VLForConditionalGeneration. Il codice ufficiale fornisce esempi per inferenza su immagini singole, batch, video e input multi-modali interleaved.
Per chi cerca prestazioni migliori, è consigliato attivare Flash Attention 2 e utilizzare tipi di dato a precisione ridotta (bfloat16 o float16) per ridurre l'occupazione di memoria GPU. La variante 32B richiede una GPU con memoria VRAM più elevata o tecniche di quantizzazione, mentre la 7B è gestibile su schede da 16-24 GB.
Limiti da considerare
Nonostante le capacità avanzate, Qwen2.5-VL presenta alcuni vincoli. Le varianti più piccole, pur essendo efficienti, possono perdere precisione su compiti molto complessi o su documenti con layout estremamente densi. I video lunghi richiedono ancora risorse significative e una configurazione attenta del frame rate e della risoluzione. Inoltre, come tutti i modelli generativi, può produrre allucinazioni o interpretazioni errate, specialmente su contenuti ambigui o con testo distorto: è buona pratica prevedere un controllo umano nei flussi critici.
Infine, la licenza della variante 72B non è Apache 2.0: chi intende usarla a scopo commerciale su larga scala deve verificare i termini specifici pubblicati da Alibaba Cloud.
🧠Osservatorio Modelli AI
Sora (OpenAI): modello di generazione video da testo e immagini