Cos'è F5-TTS
F5-TTS è un sistema di text-to-speech (TTS) completamente non autoregressivo basato su flow matching con Diffusion Transformer (DiT). Il nome completo del progetto, riportato nel paper accademico, è "F5-TTS: A Fairytaler that Fakes Fluent and Faithful Speech with Flow Matching". È stato proposto da un gruppo di ricerca coordinato sotto lo pseudonimo SWivid, con autori affiliati a Shanghai Jiao Tong University, University of Cambridge e Geely Automobile Research Institute.
Il modello si distingue per la sua architettura semplificata: non usa un modello di durata fonetica, non richiede un allineamento esplicito tra testo e spettrogramma, e non dipende da un text encoder separato. L'input testuale viene trattato come una sequenza di caratteri, riempita con token fittizi fino alla lunghezza dello spettrogramma vocale, e poi elaborata insieme all'audio di riferimento per generare la voce sintetica.
A cosa serve
F5-TTS serve a trasformare testo scritto in voce parlata naturale. La sua caratteristica più rilevante è la clonazione zero-shot: con pochi secondi di audio di riferimento (tipicamente 5-15 secondi) è in grado di riprodurre le caratteristiche timbriche di un parlante e sintetizzare nuove frasi nella stessa voce.
Il modello è addestrato su un corpus multilingue di circa 100.000 ore, denominato Emilia, che contiene parlato spontaneo in diverse lingue. Questo gli consente di gestire la generazione vocale in più lingue, inclusi scenari di code-switching (passaggio spontaneo da una lingua all'altra all'interno della stessa frase). Le applicazioni tipiche includono:
- produzione di audiolibri e podcast;
