NVIDIA Parakeet: modelli ASR open per speech-to-text

Cos'è NVIDIA Parakeet

Parakeet è una famiglia di modelli di riconoscimento vocale automatico (ASR, Automatic Speech Recognition) sviluppata da NVIDIA all'interno dell'ecosistema NeMo. Il suo obiettivo è convertire audio parlato in testo scritto con alta accuratezza, supportando anche punteggiatura, capitalizzazione e la generazione di timestamp a livello di parola.

Il nome più conosciuto è Parakeet-TDT-0.6B, un modello con circa 600 milioni di parametri che rappresenta il punto di equilibrio tra qualità della trascrizione e velocità di elaborazione. Esistono però più varianti: la versione v2 è ottimizzata per l'inglese, mentre la v3 estende il supporto a circa 25 lingue europee. Accanto a queste, NVIDIA ha rilasciato anche modelli più grandi come Parakeet-RNNT-1.1B, con circa 1,1 miliardi di parametri e architettura Transducer, pensato per scenari multilingue più complessi.

I modelli Parakeet sono distribuiti principalmente tramite Hugging Face e il catalogo NVIDIA NGC, con licenze permissive che ne facilitano l'adozione in progetti commerciali e interni.

Come funziona

L'architettura alla base di Parakeet-TDT è FastConformer, una evoluzione efficiente della famiglia Conformer, molto usata per l'ASR. FastConformer riduce la complessità computazionale dell'attenzione rispetto ai modelli Conformer tradizionali, mantenendo la capacità di catturare dipendenze a lungo raggio nel segnale audio.

La sigla TDT sta per Token-and-Duration Transducer: si tratta di un decoder che, rispetto alle classiche architetture CTC o RNN-T, introduce token espliciti per la durata dei suoni. Questo approccio permette di predire non solo la sequenza di parole, ma anche i relativi intervalli temporali con maggiore precisione, riducendo allo stesso tempo i passi di decodifica necessari. Il risultato è una generazione più rapida e una migliore allineamento tra audio e testo.

NVIDIA Parakeet: famiglia di modelli ASR open

Cos'è NVIDIA Parakeet

Come funziona

🤔 Hai domande su questo argomento?

Continua a leggere

Veo 3 (Google): modello di generazione video AI con audio nativo

Stable Video Diffusion (Stability AI): image-to-video open

Cosa sa fare

Perché conta per founder, PMI e agenzie italiane

Dove trovarlo e come usarlo

Sora (OpenAI): modello di generazione video da testo e immagini

Sana (NVIDIA): modello open di sintesi immagini ad alta risoluzione