Cos'è NVIDIA Parakeet
Parakeet è una famiglia di modelli di riconoscimento vocale automatico (ASR, Automatic Speech Recognition) sviluppata da NVIDIA all'interno dell'ecosistema NeMo. Il suo obiettivo è convertire audio parlato in testo scritto con alta accuratezza, supportando anche punteggiatura, capitalizzazione e la generazione di timestamp a livello di parola.
Il nome più conosciuto è Parakeet-TDT-0.6B, un modello con circa 600 milioni di parametri che rappresenta il punto di equilibrio tra qualità della trascrizione e velocità di elaborazione. Esistono però più varianti: la versione v2 è ottimizzata per l'inglese, mentre la v3 estende il supporto a circa 25 lingue europee. Accanto a queste, NVIDIA ha rilasciato anche modelli più grandi come Parakeet-RNNT-1.1B, con circa 1,1 miliardi di parametri e architettura Transducer, pensato per scenari multilingue più complessi.
I modelli Parakeet sono distribuiti principalmente tramite Hugging Face e il catalogo NVIDIA NGC, con licenze permissive che ne facilitano l'adozione in progetti commerciali e interni.
Come funziona
L'architettura alla base di Parakeet-TDT è FastConformer, una evoluzione efficiente della famiglia Conformer, molto usata per l'ASR. FastConformer riduce la complessità computazionale dell'attenzione rispetto ai modelli Conformer tradizionali, mantenendo la capacità di catturare dipendenze a lungo raggio nel segnale audio.
La sigla TDT sta per Token-and-Duration Transducer: si tratta di un decoder che, rispetto alle classiche architetture CTC o RNN-T, introduce token espliciti per la durata dei suoni. Questo approccio permette di predire non solo la sequenza di parole, ma anche i relativi intervalli temporali con maggiore precisione, riducendo allo stesso tempo i passi di decodifica necessari. Il risultato è una generazione più rapida e una migliore allineamento tra audio e testo.
