Qwen-Image: modello AI open-source di generazione e editing

Qwen-Image (Alibaba): modello open-source di generazione e editing di immagini

Un foundation model da 20 miliardi di parametri sviluppato da Alibaba Cloud che unisce generazione testo-immagine, rendering accurato di testo multilingue e editing semantico preciso.

20 giugno 20265 min di lettura

Qwen-ImageAlibaba Cloudgenerazione immagini AItext-to-image open sourceediting immagini AIMMDiTApache 2.0multilingual text rendering

Cos'è Qwen-Image

Qwen-Image è un foundation model per la generazione e la manipolazione di immagini sviluppato dal team Tongyi Qianwen di Alibaba Cloud. Appartiene alla famiglia Qwen, nota principalmente per i large language model, e rappresenta l'ingresso di Alibaba nel campo dei modelli di diffusione per la sintesi visiva. La versione principale è un modello denso da 20 miliardi di parametri con architettura MMDiT (Multimodal Diffusion Transformer), rilasciato con licenza Apache 2.0.

A differenza di molti generatori di immagini che faticano a inserire testo leggibile nelle scene, Qwen-Image è progettato per produrre testo in lingue diverse con alta fedeltà tipografica. Il modello è in grado di gestire layout multilinea, paragrafi e dettagli stilistici del carattere, integrando la scritta nella composizione visiva invece di sovrapporla in modo approssimativo. Oltre alla generazione da zero, esiste una variante dedicata all'editing, Qwen-Image-Edit, che estende le stesse capacità alla modifica di immagini esistenti.

A cosa serve

Qwen-Image copre due macro-ambiti: la generazione testo-immagine e l'editing visivo guidato da istruzioni in linguaggio naturale.

Nella generazione, il modello trasforma descrizioni testuali dettagliate in immagini fotorealistiche o stilizzate. È particolarmente efficace quando il prompt richiede la presenza di testo leggibile all'interno dell'immagine, come titoli su poster, insegne di negozi, copertine di libri o interfacce grafiche. Supporta più lingue, con particolare attenzione all'inglese, al cinese, al coreano, al giapponese e, secondo la documentazione della community, anche all'italiano.

Nell'editing, Qwen-Image-Edit permette di modificare un'immagine mantenendo la coerenza semantica e visiva. Le operazioni supportate includono l'aggiunta, la rimozione o la sostituzione di oggetti, il cambio di sfondo, il trasferimento di stile, la manipolazione della posa umana e la modifica diretta di testo già presente. Il modello combina il controllo semantico, affidato a Qwen2.5-VL per comprendere il contenuto dell'immagine, con il controllo dell'aspetto visivo, gestito dall'encoder VAE, in modo da preservare l'identità del soggetto e la qualità dei dettagli.

Qwen-Image (Alibaba): modello open-source di generazione e editing di immagini

Cos'è Qwen-Image

A cosa serve

🤔 Hai domande su questo argomento?

Continua a leggere

Veo 3 (Google): modello di generazione video AI con audio nativo

Stable Video Diffusion (Stability AI): image-to-video open

Come funziona

Perché conta per founder, PMI e agenzie italiane

Dove trovarlo

Sora (OpenAI): modello di generazione video da testo e immagini

Sana (NVIDIA): modello open di sintesi immagini ad alta risoluzione