Cos'è
Kokoro è un modello di text-to-speech (TTS) open-weight con soli 82 milioni di parametri, pubblicato sotto licenza Apache 2.0. Il nome deriva dal giapponese kokoro (cuore, spirito). Il modello è stato rilasciato inizialmente il 25 dicembre 2024 con la versione v0.19 e aggiornato alla versione v1.0 il 27 gennaio 2025. L'autore è noto come @rzvzn all'interno della community di sviluppo.
Kokoro è basato sull'architettura StyleTTS 2, con vocoder ISTFTNet, ed è progettato come decoder-only: non utilizza diffusione né rilascia un encoder separato. La particolarità del modello è di offrire una qualità di sintesi vocale comparabile a modelli molto più grandi pur mantenendo dimensioni ridotte, velocità di inferenza elevate e requisiti hardware contenuti. Il successo di Kokoro ha attirato l'attenzione di sviluppatori indipendenti e aziende, spingendo anche NVIDIA a rilasciare una versione ONNX ottimizzata per l'inferenza su CPU e GPU.
A cosa serve / dove eccelle
Kokoro trasforma testo scritto in audio parlato. Eccelle in scenari dove contano efficienza, leggerezza e libertà di licenza:
- Sintesi vocale in tempo reale o in streaming per applicazioni interattive.
- Deploy su hardware limitato, inclusi CPU consumer e dispositivi edge.
- Progetti commerciali e open source che richiedono una licenza permissiva.
- Produzione di audiolibri, podcast, contenuti accessibili e assistenti vocali.
- Pipeline di sintesi vocale integrate in sistemi più ampi, come agenti conversazionali o piattaforme di content creation.
