CogVideoX Zhipu: modello AI open-source per video da testo

Cos'è CogVideoX

CogVideoX è una famiglia di modelli generativi di video open source sviluppata da THUDM (Tsinghua University) e Zhipu AI. Rappresenta la controparte aperta del motore video commerciale QingYing. A differenza di molte piattaforme video chiuse, CogVideoX rende disponibili pesi, codice, documentazione tecnica e checkpoint intermedi, permettendo a ricercatori, sviluppatori e aziende di sperimentare la generazione di clip direttamente sul proprio hardware o su infrastrutture cloud scelte autonomamente.

La famiglia include diversi modelli ottimizzati per esigenze diverse: CogVideoX-2B (versione entry-level), CogVideoX-5B (più potente), CogVideoX-5B-I2V (image-to-video) e CogVideoX1.5-5B (evoluzione con risoluzione e frame rate superiori). I checkpoint sono distribuiti principalmente in formato Diffusers, compatibile con l'ecosistema Hugging Face, e in formato SAT per chi vuole lavorare direttamente sull'architettura originale.

A cosa serve

CogVideoX serve a generare brevi clip video a partire da un prompt testuale o da un'immagine. Supporta tre compiti principali: text-to-video (T2V), image-to-video (I2V) e video continuation, ovvero l'estensione di un filmato già esistente. È pensato per prototipazione creativa, contenuti social, storyboard dinamici, materiali promozionali, visualizzazioni di prodotto e ricerca accademica.

La documentazione ufficiale mostra scene complesse generate dal modello: un panda che suona la chitarra in una foresta di bambù, un astronauta che stringe la mano a un extraterrestre su Marte, un cane con occhiali da sole che corre su un terrazzo bagnato. L'obiettivo non è solo produrre pixel in movimento, ma mantenere coerenza temporale, rispetto del prompt e plausibilità fisica nel breve arco di pochi secondi.

Come funziona

CogVideoX è un modello di diffusione latente basato su transformer (DiT, Diffusion Transformer). Il processo è analogo a quello delle immagini stable-diffusion-like, ma esteso al dominio spazio-temporale. Il modello parte da rumore casuale e lo denoisa progressivamente, condizionandosi sul prompt testuale codificato da un text encoder basato su T5.

Modello	Compito	Risoluzione tipica	Durata	Note
CogVideoX-2B	T2V	720 × 480	6 s	Leggero, adatto a GPU consumer e sperimentazione
CogVideoX-5B	T2V	720 × 480	6 s	Maggiore qualità, addestrato in BF16
CogVideoX-5B-I2V	I2V	variabile	6 s	Genera video a partire da un'immagine di sfondo
CogVideoX1.5-5B	T2V	1360 × 768	10 s	16 fps, risoluzione e fluidità superiori

CogVideoX (Zhipu/THUDM): modello generativo video open-source

Cos'è CogVideoX

A cosa serve

Come funziona

🤔 Hai domande su questo argomento?

Continua a leggere

Veo 3 (Google): modello di generazione video AI con audio nativo

Stable Video Diffusion (Stability AI): image-to-video open

Modelli della famiglia

Licenza e accesso

Perché conta per founder, PMI e agenzie in Italia

Dove trovarlo

Sora (OpenAI): modello di generazione video da testo e immagini

Sana (NVIDIA): modello open di sintesi immagini ad alta risoluzione