F5-TTS: sintesi vocale open source con flow matching

Cos'è F5-TTS

F5-TTS è un sistema di text-to-speech (TTS) completamente non autoregressivo basato su flow matching con Diffusion Transformer (DiT). Il nome completo del progetto, riportato nel paper accademico, è "F5-TTS: A Fairytaler that Fakes Fluent and Faithful Speech with Flow Matching". È stato proposto da un gruppo di ricerca coordinato sotto lo pseudonimo SWivid, con autori affiliati a Shanghai Jiao Tong University, University of Cambridge e Geely Automobile Research Institute.

Il modello si distingue per la sua architettura semplificata: non usa un modello di durata fonetica, non richiede un allineamento esplicito tra testo e spettrogramma, e non dipende da un text encoder separato. L'input testuale viene trattato come una sequenza di caratteri, riempita con token fittizi fino alla lunghezza dello spettrogramma vocale, e poi elaborata insieme all'audio di riferimento per generare la voce sintetica.

A cosa serve

F5-TTS serve a trasformare testo scritto in voce parlata naturale. La sua caratteristica più rilevante è la clonazione zero-shot: con pochi secondi di audio di riferimento (tipicamente 5-15 secondi) è in grado di riprodurre le caratteristiche timbriche di un parlante e sintetizzare nuove frasi nella stessa voce.

Il modello è addestrato su un corpus multilingue di circa 100.000 ore, denominato Emilia, che contiene parlato spontaneo in diverse lingue. Questo gli consente di gestire la generazione vocale in più lingue, inclusi scenari di code-switching (passaggio spontaneo da una lingua all'altra all'interno della stessa frase). Le applicazioni tipiche includono:

produzione di audiolibri e podcast;

F5-TTS: modello open source per sintesi vocale e clonazione zero-shot

Cos'è F5-TTS

A cosa serve

🤔 Hai domande su questo argomento?

Continua a leggere

Veo 3 (Google): modello di generazione video AI con audio nativo

Stable Video Diffusion (Stability AI): image-to-video open

Come funziona

Perché conta per founder, PMI e agenzie italiane

Dove trovarlo

Considerazioni tecniche

Sora (OpenAI): modello di generazione video da testo e immagini

Sana (NVIDIA): modello open di sintesi immagini ad alta risoluzione