Kõnetehis, tuntud ka kui tekst-kõneks (TTS) süntees, on tehnoloogia, mis muudab kirjutatud teksti räägitavaks. Sellel on mitmeid rakendusi: puuetega inimeste abistamine, keeleõpe, GPS-navigeerimine jm. Avatud lähtekoodi levikuga on välja töötatud palju TTS-vahendeid. Selles artiklis uurime avatud lähtekoodiga hääl-süntesaatorite maailma.
Kõik kõnesüntesaatori tööriistad ei ole avatud lähtekoodiga. Näiteks Google Text-to-Speech (TTS) pakub arendajatele tugevat API-t, kuid pole avatud lähtekoodiga. Sama kehtib Amazon Polly kohta – hääled on elutruud, kuid lahendus ei ole avatud lähtekoodiga.
Samas on Coqui AI kvaliteetne TTS-tööriist ja avatud lähtekoodiga projekt GitHubis. See on pärit Mozillast ning pakub võimekat käsurealiidest kõnesünteesiks. Coqui AI-l on oma "hääl" – kasutatakse Tacotron2 tehnoloogiat ja keskendutakse uute häälte loomisele süvaõppe abil.
Microsofti Speech Platform ja selle TTS ei ole samuti avatud lähtekoodiga. Windowsi platvormil pakutakse siiski arendajatele Speech API-d (SAPI5).
Hea uudis on see, et avatud lähtekoodi maailmas pole puudust kõnetuvastuslahendustest. Näiteks CMU Sphinx – Carnegie Melloni ülikoolis loodud kõnetuvastussüsteemid.
Kui rääkida kvaliteetsetest avatud lähtekoodiga häälsüntesaatoritest, tõuseb esile mitu tarkvara:
- eSpeak: Kompaktne avatud lähtekoodiga kõnesüntesaator inglise ja paljude teiste keelte jaoks, töötab Windowsis ja Linuxis, sobib väikese mahuga lahendustele ja robotitele.
- Mycroft: Avatud lähtekoodiga häälassistent, mis kasutab masinõpet nii TTS-i kui ka kõnetuvastuse jaoks.
- MaryTTS: Paindlik mitmekeelne TTS-platvorm, kirjutatud Javas, täielikult avatud lähtekoodiga.
- Mozilla TTS: Süvaõppepõhine TTS-mootor, osa Common Voice projektist, mille eesmärk on luua treeningandmeid häälrakendustele.
- Festival Speech Synthesis System: Ühendkuningriigi Kõnetehnoloogia Uurimiskeskuses arendatud süsteem, mis pakub üldraamistikku kõnesünteesi loomiseks ja palju erinevaid hääli.
- Flite (Festival-lite): Kergekaaluline Festivalil põhinev mootor, sobib hästi manussüsteemidesse ja suurte kõneserverite jaoks.
- HTS: HMM-põhine (HTS) süsteem tekstist kõne sünteesiks, tuntud kvaliteetse sünteesi poolest.
- Docker: Docker ise pole TTS-vahend, kuid paljusid näiteks Coqui TTS-süsteeme saab jooksutada Dockeris, mis annab platvormiülese paindlikkuse.
Igal tööriistal on oma plussid ja miinused. Avatud lähtekoodiga häälsüntesaatorid pakuvad tasuta, kohandatavat ja kogukonna toel arenevat platvormi nii arendajatele kui ka tavakasutajatele. Sageli on olemas eeltreenitud mudelid süva- ja masinõppe kasutamiseks. Samas eeldab nende kasutamine tihti tehnilist pädevust. Mõni lahendus võib jääda alla kvaliteedis või keeletoes võrreldes kommertstoodetega.
Avatud lähtekood kujundab jätkuvalt tehnoloogiamaailma ning häälsüntesaatorid ja TTS arenevad pidevalt. Neil on suur potentsiaal reaalajarakendustes ning tulevikus tehisintellekti, masinõppe ja kõnetuvastuse valdkonnas.

