Sintetizator govora, poznat i kao tekst-u-govor (TTS), tehnologija je koja pretvara tekst u govor. Koristi se za pomoć osobama s invaliditetom, učenje jezika, GPS navigaciju i još mnogo toga. S pojavom open source rješenja, nastao je čitav niz novih TTS alata. Ovaj članak zaviruje u svijet open source sintetizatora govora.
Važno je napomenuti da nisu svi alati za sintezu govora open source. Primjerice, Google Text-to-Speech (TTS) nudi snažan API za programere, ali nije open source. Također, Amazon Polly, poznata po realističnim glasovima, nije open source.
S druge strane, Coqui AI je kvalitetan open source TTS alat dostupan na GitHubu. Nastao je iz Mozilla TTS projekta i nudi snažno sučelje za sintezu govora kroz naredbeni redak. Coqui AI ima svoj "glas" – koristi Tacotron2 za generiranje govora i fokusiran je na stvaranje novih glasova pomoću dubokog učenja.
Microsoft Speech Platform, uključujući TTS mogućnosti, također nije open source. No, Speech API (SAPI5) dostupan je programerima na Windowsu.
S druge strane, open source područje ne oskudijeva alatima za prepoznavanje govora. Odličan primjer je CMU Sphinx, skup sustava za prepoznavanje govora razvijen na Carnegie Mellon Universityju.
Kad je riječ o kvalitetnim open source alatima za sintezu govora, posebno se ističu:
- eSpeak: Kompaktan open source softver za sintezu govora na engleskom i drugim jezicima. Radi na Windowsu, Linuxu i pogodan je za male robotske aplikacije.
- Mycroft: Open source glasovni asistent koji koristi strojno učenje za TTS i prepoznavanje govora.
- MaryTTS: Fleksibilna, višejezična open source TTS platforma napisana u Javi.
- Mozilla TTS: TTS engine temeljen na dubokom učenju, dio Voice projekta, s ciljem stvaranja baze podataka za treniranje aplikacija s podrškom za govor.
- Festival Speech Synthesis System: Razvio ga je The Centre for Speech Technology Research u UK-u, nudi okvir za izradu sustava za sintezu govora i razne glasove.
- Flite (Festival-lite): Lagan engine za sintezu govora temeljen na Festivalu, pogodan za ugrađene sustave i servere s velikom količinom govora.
- HTS: HMM-Based Speech Synthesis System (HTS) sustav je za treniranje i sintezu govora iz teksta, cijenjen zbog kvalitetne sinteze.
- Docker: Iako Docker nije TTS alat, mnogi TTS alati poput Coqui mogu se koristiti kroz Docker, pa lako postaju prenosivi između platformi.
Svaki alat ima svoje prednosti i mane. Open source sintetizatori govora nude besplatnu, prilagodljivu, zajednicom podržanu platformu za developere i korisnike. Često dolaze s već istreniranim modelima za strojno i duboko učenje. No, mogu zahtijevati više tehničkog znanja za korištenje te ponekad imati lošiju kvalitetu, konzistentnost ili podršku jezika u odnosu na komercijalne alate.
Kako open source i dalje mijenja IT svijet, sintetizatori govora i TTS sustavi nastavit će se razvijati. Nude velik potencijal za aplikacije u stvarnom vremenu te za napredak strojnog i dubokog učenja i umjetne inteligencije u prepoznavanju i sintezi govora.

