Cos'è CogVideoX
CogVideoX è una famiglia di modelli generativi di video open source sviluppata da THUDM (Tsinghua University) e Zhipu AI. Rappresenta la controparte aperta del motore video commerciale QingYing. A differenza di molte piattaforme video chiuse, CogVideoX rende disponibili pesi, codice, documentazione tecnica e checkpoint intermedi, permettendo a ricercatori, sviluppatori e aziende di sperimentare la generazione di clip direttamente sul proprio hardware o su infrastrutture cloud scelte autonomamente.
La famiglia include diversi modelli ottimizzati per esigenze diverse: CogVideoX-2B (versione entry-level), CogVideoX-5B (più potente), CogVideoX-5B-I2V (image-to-video) e CogVideoX1.5-5B (evoluzione con risoluzione e frame rate superiori). I checkpoint sono distribuiti principalmente in formato Diffusers, compatibile con l'ecosistema Hugging Face, e in formato SAT per chi vuole lavorare direttamente sull'architettura originale.
A cosa serve
CogVideoX serve a generare brevi clip video a partire da un prompt testuale o da un'immagine. Supporta tre compiti principali: text-to-video (T2V), image-to-video (I2V) e video continuation, ovvero l'estensione di un filmato già esistente. È pensato per prototipazione creativa, contenuti social, storyboard dinamici, materiali promozionali, visualizzazioni di prodotto e ricerca accademica.
La documentazione ufficiale mostra scene complesse generate dal modello: un panda che suona la chitarra in una foresta di bambù, un astronauta che stringe la mano a un extraterrestre su Marte, un cane con occhiali da sole che corre su un terrazzo bagnato. L'obiettivo non è solo produrre pixel in movimento, ma mantenere coerenza temporale, rispetto del prompt e plausibilità fisica nel breve arco di pochi secondi.
Come funziona
CogVideoX è un modello di diffusione latente basato su transformer (DiT, Diffusion Transformer). Il processo è analogo a quello delle immagini stable-diffusion-like, ma esteso al dominio spazio-temporale. Il modello parte da rumore casuale e lo denoisa progressivamente, condizionandosi sul prompt testuale codificato da un text encoder basato su T5.
