InternVL 3: modello multimodale open source da Shanghai AI Lab
Una famiglia di modelli visione-linguaggio addestrati nativamente su testo e immagini, competitiva con i sistemi proprietari più avanzati.
20 giugno 2026·5 min di lettura
InternVL 3Shanghai AI LabOpenGVLabmultimodal AIvision language modelOCRopen source AIdocument understanding
Cos'è
InternVL 3 è una famiglia di modelli di intelligenza artificiale multimodale sviluppata da Shanghai AI Lab e rilasciata dal gruppo di ricerca OpenGVLab. Il nome indica la terza generazione della serie InternVL, una linea di large multimodal language model (MLLM) progettata per elaborare contemporaneamente testo e immagini, e più in generale contenuti visivi come grafici, documenti, video e scene 3D.
A differenza di molti sistemi multimodali costruiti a partire da un modello linguistico testuale a cui viene poi aggiunto un modulo visivo, InternVL 3 adotta un paradigma di pre-addestramento multimodale nativo: durante la fase iniziale il modello viene esposto contemporaneamente a corpora di testo puro e a dati multimodali, come coppie immagine-testo, sequenze video-testo e documenti interleaved. Questo approccio unificato mira a ridurre i problemi di allineamento tra modaliità che si osservano nelle pipeline tradizionali, in cui un LLM testuale viene successivamente adattato alla visione.
La serie comprende varianti che vanno da 1 a 78 miliardi di parametri: InternVL3-1B, InternVL3-2B, InternVL3-8B, InternVL3-9B, InternVL3-14B, InternVL3-38B e InternVL3-78B. Ciascuna taglia combina un encoder visivo InternViT (nelle versioni da 300 milioni o 6 miliardi di parametri) con un modello linguistico della famiglia Qwen 2.5 o InternLM 3, collegati da un proiettore MLP. La variante più grande, InternVL3-78B, ha raggiunto 72,2 punti sul benchmark MMMU, posizionandosi ai vertici tra i modelli open source per ragionamento multidisciplinare su contenuti visivi.
A cosa serve
InternVL 3 è pensato per qualsiasi applicazione in cui un sistema AI debba comprendere e ragionare su immagini, documenti, grafici, video o interfacce utente. Le sue capacità coprono diversi ambiti operativi:
Hai letto fino a qui
🤔 Hai domande su questo argomento?
Posso aiutarti a capire come applicarlo al tuo business. Scegli come vuoi parlarmi.
Descrizione e ragionamento visivo: può generare didascalie dettagliate, rispondere a domande su immagini e confrontare contenuti visivi multipli.
OCR e comprensione documentale: legge testo presente in immagini, scansioni, PDF e infographic, ed è valutato su benchmark come DocVQA, TextVQA, OCRBench e ChartQA.
Matematica e ragionamento scientifico: interpreta formule, grafici e diagrammi scientifici, con performance competitive su MathVista, MathVision e MathVerse.
Multi-image e video understanding: gestisce più immagini nella stessa conversazione e analizza sequenze video, utile per applicazioni di sorveglianza, editing assistito o catalogazione di contenuti.
Agenti e interfacce: il modello è stato addestrato anche su dati relativi a tool usage, operazioni GUI e comprensione di scene 3D, aprendo scenari di automazione di interfacce e assistenti visuali.
In sintesi, InternVL 3 si colloca come alternativa open source a sistemi proprietari multimodali, adatta sia a esperimenti di ricerca che a prototipi industriali.
Come funziona
L'architettura di InternVL 3 segue lo schema ormai consolidato ViT-MLP-LLM: un vision transformer (InternViT) estrae le rappresentazioni visive, un piccolo proiettore MLP le traduce nello spazio di embedding del modello linguistico, e il large language model genera la risposta testuale.
Rispetto alle generazioni precedenti, InternVL 3 introduce alcuni elementi distintivi:
Native Multimodal Pre-Training: testo e contenuti visivi vengono elaborati insieme fin dalla fase di pre-addestramento, senza dividere l'apprendimento linguistico da quello visivo. Questo consente di ottimizzare tutti i parametri contemporaneamente e riduce la necessità di allineamenti successivi.
Variable Visual Position Encoding (V2PE): un meccanismo di codifica posizionale variabile per i token visivi, che utilizza incrementi frazionari rispetto a quelli testuali. In questo modo il modello gestisce contesti multimodali più lunghi senza esaurire la finestra posizionale.
Mixed Preference Optimization (MPO): una fase di post-addestramento che combina supervised fine-tuning, preference loss, quality loss e generation loss per allineare meglio la distribuzione delle risposte generate con quelle di riferimento, migliorando il ragionamento a catena.
Test-Time Scaling: per compiti che richiedono ragionamento complesso, InternVL 3 può generare più risposte candidate e selezionare la migliore tramite un modello critico visivo (VisualPRM-8B), aumentando l'affidabilità senza modificare l'architettura.
Dynamic resolution e pixel unshuffle: le immagini vengono suddivise in tile di 448×448 pixel e il numero di token visivi viene ridotto a un quarto tramite pixel unshuffle, permettendo di elaborare immagini ad alta risoluzione con un costo computazionale contenuto.
L'addestramento è stato condotto su circa 200 miliardi di token, di cui circa 50 miliardi di testo puro e 150 miliardi di dati multimodali, con un rapporto language-to-multimodal di 1:3.
Perché conta per founder, PMI e agenzie italiane
Per chi sviluppa prodotti digitali in Italia, InternVL 3 rappresenta un'opzione concreta per integrare l'intelligenza visiva senza dipendere esclusivamente da API cloud proprietarie. I vantaggi principali sono quattro.
Primo, la disponibilità open source e il rilascio pubblico dei pesi su piattaforme come Hugging Face e ModelScope permettono di eseguire il modello on-premise o in cloud dedicato, con maggiore controllo sui dati e sui costi a volume elevato.
Secondo, la scalabilità delle taglie: le versioni da 1B a 14B sono accessibili anche a hardware consumer o workstation con GPU di fascia media, mentre le varianti 38B e 78B richiedono infrastrutture più robuste ma offrono prestazioni comparabili ai modelli commerciali. Questo consente di scegliere il modello in base al budget e al caso d'uso.
Terzo, le capacità documentali e OCR sono particolarmente rilevanti per il mercato italiano: digitalizzazione di fatture, contratti, verbali, documenti amministrativi e analisi di report con grafici. Un modello che comprende contemporaneamente testo, layout e figure può accelerare l'automazione di processi in aziende e pubblica amministrazione.
Quarto, la versatilità applicativa copre esigenze di ecommerce (ricerca visiva, generazione di descrizioni prodotto), marketing (analisi di creative, social listening visivo), industria (ispezione qualità, lettura di schemi) e sviluppo software (assistenti per interfacce e documentazione tecnica).
Naturalmente, come per ogni modello open source, occorre valutare i costi di deployment, la manutenzione dell'infrastruttura e il rispetto delle normative sui dati, in particolare GDPR e proprietà intellettuale dei contenuti di addestramento.
Dove trovarlo
InternVL 3 è distribuito attraverso i canali ufficiali di OpenGVLab e Shanghai AI Lab:
Repository GitHub: OpenGVLab/InternVL, contenente codice, documentazione, esempi di inferenza e script di fine-tuning.
Hugging Face: i pesi delle diverse varianti sono pubblicati sotto l'organizzazione OpenGVLab, ad esempio OpenGVLab/InternVL3-8B.
ModelScope: disponibili anche i checkpoint per l'ecosistema cinese ModelScope.
Paper tecnico: il lavoro è descritto nel paper "InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models", pubblicato su arXiv con riferimento 2504.10479.
Secondo il repository ufficiale, il progetto è rilasciato sotto licenza MIT; i singoli pesi su Hugging Face riportano in genere licenza Apache 2.0. Per usi commerciali è consigliabile verificare sempre le condizioni specifiche associate alla variante scelta.
🧠Osservatorio Modelli AI
Sora (OpenAI): modello di generazione video da testo e immagini