Kokoro TTS: modello open-weight di sintesi vocale da 82M par

Cos'è

Kokoro è un modello di text-to-speech (TTS) open-weight con soli 82 milioni di parametri, pubblicato sotto licenza Apache 2.0. Il nome deriva dal giapponese kokoro (cuore, spirito). Il modello è stato rilasciato inizialmente il 25 dicembre 2024 con la versione v0.19 e aggiornato alla versione v1.0 il 27 gennaio 2025. L'autore è noto come @rzvzn all'interno della community di sviluppo.

Kokoro è basato sull'architettura StyleTTS 2, con vocoder ISTFTNet, ed è progettato come decoder-only: non utilizza diffusione né rilascia un encoder separato. La particolarità del modello è di offrire una qualità di sintesi vocale comparabile a modelli molto più grandi pur mantenendo dimensioni ridotte, velocità di inferenza elevate e requisiti hardware contenuti. Il successo di Kokoro ha attirato l'attenzione di sviluppatori indipendenti e aziende, spingendo anche NVIDIA a rilasciare una versione ONNX ottimizzata per l'inferenza su CPU e GPU.

A cosa serve / dove eccelle

Kokoro trasforma testo scritto in audio parlato. Eccelle in scenari dove contano efficienza, leggerezza e libertà di licenza:

Sintesi vocale in tempo reale o in streaming per applicazioni interattive.
Deploy su hardware limitato, inclusi CPU consumer e dispositivi edge.
Progetti commerciali e open source che richiedono una licenza permissiva.
Produzione di audiolibri, podcast, contenuti accessibili e assistenti vocali.
Pipeline di sintesi vocale integrate in sistemi più ampi, come agenti conversazionali o piattaforme di content creation.

Caratteristica	Dettaglio
Parametri	82 milioni
Architettura	StyleTTS 2 + ISTFTNet, decoder-only
Licenza	Apache 2.0 (pesi e codice di inferenza principale)
Lingue supportate (v1.0)	Inglese americano, inglese britannico, spagnolo, francese, hindi, italiano, giapponese, portoghese brasiliano, cinese mandarino
Voci predefinite (v1.0)	54 voci organizzate per lingua e genere
Risoluzione audio	24 kHz, mono
Requisiti hardware	< 2 GB VRAM, eseguibile anche su CPU
Dipendenza G2P	`misaki` (con fallback su `espeak-ng` per alcune lingue)
Costo di training stimato	circa 1.000 USD per ~1.000 ore di A100 80 GB
Dataset di training	alcune centinaia di ore di audio permessivo/non soggetto a copyright (v1.0)

Kokoro TTS: modello open-weight di sintesi vocale da 82M parametri

Cos'è

A cosa serve / dove eccelle

🤔 Hai domande su questo argomento?

Continua a leggere

Qwen3-Embedding: embedding testuali multilingui open source di Alibaba Cloud

SmolLM3: scheda del modello di linguaggio compatto di Hugging Face

Caratteristiche e specifiche

Punti di forza

Quando ha senso (e quando no)

Casi d'uso concreti

Alternative e contesto

In sintesi

Risorse

Moondream: famiglia di Vision-Language Model open source efficienti

Whisper large-v3: scheda del modello ASR open source di OpenAI