Cos'è Qwen-Image
Qwen-Image è un foundation model per la generazione e la manipolazione di immagini sviluppato dal team Tongyi Qianwen di Alibaba Cloud. Appartiene alla famiglia Qwen, nota principalmente per i large language model, e rappresenta l'ingresso di Alibaba nel campo dei modelli di diffusione per la sintesi visiva. La versione principale è un modello denso da 20 miliardi di parametri con architettura MMDiT (Multimodal Diffusion Transformer), rilasciato con licenza Apache 2.0.
A differenza di molti generatori di immagini che faticano a inserire testo leggibile nelle scene, Qwen-Image è progettato per produrre testo in lingue diverse con alta fedeltà tipografica. Il modello è in grado di gestire layout multilinea, paragrafi e dettagli stilistici del carattere, integrando la scritta nella composizione visiva invece di sovrapporla in modo approssimativo. Oltre alla generazione da zero, esiste una variante dedicata all'editing, Qwen-Image-Edit, che estende le stesse capacità alla modifica di immagini esistenti.
A cosa serve
Qwen-Image copre due macro-ambiti: la generazione testo-immagine e l'editing visivo guidato da istruzioni in linguaggio naturale.
Nella generazione, il modello trasforma descrizioni testuali dettagliate in immagini fotorealistiche o stilizzate. È particolarmente efficace quando il prompt richiede la presenza di testo leggibile all'interno dell'immagine, come titoli su poster, insegne di negozi, copertine di libri o interfacce grafiche. Supporta più lingue, con particolare attenzione all'inglese, al cinese, al coreano, al giapponese e, secondo la documentazione della community, anche all'italiano.
Nell'editing, Qwen-Image-Edit permette di modificare un'immagine mantenendo la coerenza semantica e visiva. Le operazioni supportate includono l'aggiunta, la rimozione o la sostituzione di oggetti, il cambio di sfondo, il trasferimento di stile, la manipolazione della posa umana e la modifica diretta di testo già presente. Il modello combina il controllo semantico, affidato a Qwen2.5-VL per comprendere il contenuto dell'immagine, con il controllo dell'aspetto visivo, gestito dall'encoder VAE, in modo da preservare l'identità del soggetto e la qualità dei dettagli.
