Cos'è Aria
Aria è un modello di intelligenza artificiale multimodale nativo sviluppato da Rhymes AI, una startup di ricerca sull'intelligenza artificiale con un team internazionale. Presentato nell'ottobre 2024 e descritto nel paper accademico arXiv:2410.05993, Aria è rilasciato con licenza Apache 2.0: i pesi del modello, il codice e la documentazione sono liberamente scaricabili, modificabili e utilizzabili anche per scopi commerciali.
Il tratto distintivo di Aria è essere un modello "multimodale nativo". Questo significa che non si tratta di un modello di linguaggio a cui è stata aggiunta in un secondo momento una componente visiva, bensì di un'architettura progettata fin dall'allenamento per integrare testo, immagini e video all'interno di un unico sistema. L'obiettivo è ottenere una comprensione più coerente tra modalità diverse, riducendo i problemi di allineamento che spesso emergono quando moduli specializzati vengono combinati ex post.
Come funziona
Aria si basa su un'architettura Mixture-of-Experts (MoE), una tecnica che suddivide il modello in sottoreti specializzate chiamate "esperti". Per ogni token in ingresso, un meccanismo di routing ne attiva solo una parte, instradando il calcolo verso gli esperti più pertinenti. In numeri concreti, Aria ha 25,3 miliardi di parametri totali, ma attiva circa 3,9 miliardi di parametri per token visivo e 3,5 miliardi per token testuale. Questa sparsità permette di avere un modello molto capace senza dover pagare il costo computazionale di un'architettura "densa" della stessa scala.
Il modello supporta un contesto multimodale fino a 64.000 token, una caratteristica rilevante per l'analisi di documenti lunghi, presentazioni, PDF ricchi di immagini e video estesi. Secondo la scheda tecnica pubblicata su Hugging Face, Aria è in grado di generare una didascalia per un video di 256 frame in circa 10 secondi su hardware adeguato. Per l'inferenza, con precisione bfloat16, il modello può essere caricato su una singola GPU , una configurazione accessibile per data center e laboratori di ricerca ma non per workstation entry-level.
