Kõnesüntees on põnev tehisintellekti (AI) valdkond, mida on põhjalikult arendanud suured tehnoloogiafirmad nagu Microsoft, Amazon ja Google Cloud. See kasutab süvaõpet, masinõpet ja loomuliku keele töötlust (NLP), et muuta kirjalik tekst kõneks.
Kõnesünteesi põhitõed
Kõnesüntees ehk tekst kõneks (TTS) tähendab automaatset inimkõne loomist. Seda kasutatakse laialdaselt reaalajas transkribeerimisel, automaatvastajates ja abitehnoloogiates nägemispuudega inimestele. Sõnade, sealhulgas „robot“, hääldus saavutatakse sõnade jagamisega helitähisteks ehk foneemideks, mis seejärel ühendatakse tervikuks.
Kõnesünteesi kolm etappi
Kõnesünteesil on kolm peamist etappi: tekstianalüüs, prosoodiline analüüs ja kõne genereerimine.
- Tekstianalüüs: Sünteesitav tekst analüüsitakse ja jaotatakse foneemideks, mis on väikseimad kõlahõlmad. Selles etapis jagatakse laused sõnadeks ja sõnad foneemideks.
- Prosoodiline analüüs: Määratakse kõne intonatsioon, rõhud ja rütm. Süntees kasutab neid loomuliku kõne jäljendamiseks.
- Kõne genereerimine: Süsteem loob helid vastavalt foneemidele ja prosoodiale. Peamised tüübid on konkateneeriv ja üksusevalikuga süntees. Konkateneeriv kasutab salvestatud kõnelõike, üksusevalikuga otsib parima sobivuse suurest andmebaasist.
Realistlikumad TTS-id ja parim TTS Androidile
Kuigi enamiku TTS-de loodud kõne on kvaliteetne, paistavad silma Google'i TTS (Google Cloud) ja Amazoni Alexa. Need kasutavad masinõpet ja süvaõpet, et luua sujuv ning peaaegu inimkõnele sarnane tulemus. Androidi parim TTS-mootor on Google Text-to-Speech — mitmekeelne ja kvaliteetne.
Parim Python’i teek teksti kõneks
Python-arendajatele on gTTS (Google Text-to-Speech) esile tõusnud lihtsuse ja kvaliteedi tõttu. See töötab Google Translate’i TTS API-ga ja pakub lihtsa ning kvaliteetse lahenduse.
Kõnetuvastus ja tekst kõneks
Kõnesüntees muudab teksti kõneks, kõnetuvastus teeb vastupidi. Automaatne kõnetuvastus (ASR), nagu IBM Watson või Apple Siri, muudab kõne tekstiks. See on hääleassistentide ja transkriptsiooni alus.
Sõna "robot" hääldus
Sõna „robot“ hääldus kõigub veidi vastavalt aktsendile, kuid standardne ameerika inglise hääldus on /ˈroʊ.bɒt/. Jaotus:
- Esimene silp „ro“ kõlab nagu 'row' paadisõidus.
- Teine silp „bot“ kõlab nagu 'bot' sõnas 'bottom', ilma 'om'-ita.
Tekstist kõneks programmi näide
Heaks näiteks TTS-programmist on Google Text-to-Speech. See muudab kirjaliku teksti kõneks ja on laialt kasutusel Google’i teenustes nagu Google Translate, Assistant ja Androidi seadmetes.
Parim TTS-mootor Androidile
Androidi parim TTS-mootor on Google Text-to-Speech: toetab mitut keelt, erinevaid hääli ja on süsteemi osa, tagades sujuva kasutuse.
Konkateneeriva ja üksusevaliku sünteesi erinevused
Konkateneeriv ja üksusevalikuga süntees on kõne loomisel kaks peamist meetodit.
- Konkateneeriv süntees: Põhineb eelnevalt salvestatud kõnelõikude ühendamisel. Kõne jaotatakse väikesteks osadeks (foneemideks). Uue kõne loomiseks pannakse sobivad lõigud kokku.
- Üksusevalikuga süntees: Kasutab suurt salvestatud kõnevormide andmebaasi ja valib iga tekstiosa jaoks parima sobivuse. Vähendab ühendamise vajadust ning kõlab loomulikumalt, arvestades ka prosoodiat, foneetilist konteksti ja emotsiooni.
8 parimat kõnesünteesi tarkvara või rakendust
- Google Text-to-Speech: Mitmekülgne TTS-tarkvara Androidis. Toetab erinevaid keeli ja kvaliteetseid hääli.
- Amazon Polly: AWS-teenus, mis kasutab süvaõpet loomuliku kõne loomiseks.
- Microsoft Azure Text to Speech: Tugev TTS-süsteem närvivõrkudega, mis annab loomuliku kõne.
- IBM Watson Text to Speech: Kasutab AI-d, et luua inimliku intonatsiooniga kõne.
- Apple'i Siri: Siri on hääleassistent ja pakub ka kvaliteetset TTS-i mitmes keeles.
- iSpeech: Ulatuslik TTS-platvorm, mis toetab eri vorminguid, sh WAV.
- TextAloud 4: Windowsi TTS, mis võimaldab eri vormingutes teksti kõneks muuta.
- NaturalReader: Veebipõhine TTS-teenus loomulike häälte valikuga.

