InternVL 3: il modello multimodale open source di Shanghai A

Cos'è

InternVL 3 è una famiglia di modelli di intelligenza artificiale multimodale sviluppata da Shanghai AI Lab e rilasciata dal gruppo di ricerca OpenGVLab. Il nome indica la terza generazione della serie InternVL, una linea di large multimodal language model (MLLM) progettata per elaborare contemporaneamente testo e immagini, e più in generale contenuti visivi come grafici, documenti, video e scene 3D.

A differenza di molti sistemi multimodali costruiti a partire da un modello linguistico testuale a cui viene poi aggiunto un modulo visivo, InternVL 3 adotta un paradigma di pre-addestramento multimodale nativo: durante la fase iniziale il modello viene esposto contemporaneamente a corpora di testo puro e a dati multimodali, come coppie immagine-testo, sequenze video-testo e documenti interleaved. Questo approccio unificato mira a ridurre i problemi di allineamento tra modaliità che si osservano nelle pipeline tradizionali, in cui un LLM testuale viene successivamente adattato alla visione.

La serie comprende varianti che vanno da 1 a 78 miliardi di parametri: InternVL3-1B, InternVL3-2B, InternVL3-8B, InternVL3-9B, InternVL3-14B, InternVL3-38B e InternVL3-78B. Ciascuna taglia combina un encoder visivo InternViT (nelle versioni da 300 milioni o 6 miliardi di parametri) con un modello linguistico della famiglia Qwen 2.5 o InternLM 3, collegati da un proiettore MLP. La variante più grande, InternVL3-78B, ha raggiunto 72,2 punti sul benchmark MMMU, posizionandosi ai vertici tra i modelli open source per ragionamento multidisciplinare su contenuti visivi.

A cosa serve

InternVL 3 è pensato per qualsiasi applicazione in cui un sistema AI debba comprendere e ragionare su immagini, documenti, grafici, video o interfacce utente. Le sue capacità coprono diversi ambiti operativi:

InternVL 3: modello multimodale open source da Shanghai AI Lab

Cos'è

A cosa serve

🤔 Hai domande su questo argomento?

Continua a leggere

Veo 3 (Google): modello di generazione video AI con audio nativo

Stable Video Diffusion (Stability AI): image-to-video open

Come funziona

Perché conta per founder, PMI e agenzie italiane

Dove trovarlo

Sora (OpenAI): modello di generazione video da testo e immagini

Sana (NVIDIA): modello open di sintesi immagini ad alta risoluzione