Generatiivinen tekoäly ja tekoäly ovat kehittyneet pitkälle. Tekstistä puheeksi on varsin vanha konsepti ja ollut markkinoilla jo kauan. Aiheesta riittää puhuttavaa, ja käyn sen läpi monesta kulmasta. Olitpa aloittelija tai konkari, tästä saat kattavan käsityksen Googlen Text to Speech API:sta.
Ennen kuin mennään syvemmälle, on tärkeää sopia perusasioista. Määritellään muutama termi, jotta pohja on kunnossa.
Puretellaan ensin kahta teknologiaa – tekstistä puheeksi -ratkaisuja ja API:eja – sekä sitä, mikä on Google Cloudin rooli.
Toimittajan huomio: Etsitkö huippuluokan tekstistä puheeksi -API:a? Kurkkaa Speechifyn hyvin dokumentoitu ja helppokäyttöinen tekstistä puheeksi API.
Tekstistä puheeksi
Olen kirjoittanut aiheesta paljon; voit lukea Mitä on tekstistä puheeksi -blogini ja perehtyä myös puheensynteesiin. Ne menevät syvemmälle, mutta tässä vedän yhteen tärkeimmät.
Tekstistä puheeksi perustuu puheensynteesiin, joka muuttaa sanat tekoälyn tuottamaksi puheeksi. Käyttökohteita on paljon: se auttaa esimerkiksi lukivaikeuksista, kuten dysleksiasta tai heikosta näöstä kärsiviä, ja tukee myös heitä, jotka haluavat tehostaa työntekoaan.
API
API tarkoittaa sovellusohjelmointirajapintaa. Se toimii siltana kahden sovelluksen välillä. Jos kehität sovellusta, jossa tarvitaan äänisisältöä ja tekstistä puheeksi -ominaisuuksia, voit joko rakentaa kaiken itse tai vain liittää mukaan valmiin tekstistä puheeksi API:n.
Voit näin keskittyä sovelluksesi kehittämiseen ja luottaa kolmannen osapuolen API:in tuomaan tekstistä puheeksi -toiminnon mukaan.
Google Cloud API
Tässä kohtaa Google Cloud astuu kuvaan. Google on kehittänyt vahvan tekstistä puheeksi API:n ja tarjoaa sitä kehittäjille eri hinnoittelumalleilla. Sovelluskehittäjä voi hyödyntää Googlen TTS-ominaisuuksia rakentaakseen omia sovelluksiaan. TTS on lyhenne sanoista text to speech.
Pääset alkuun nopeasti Google Cloud Consolessa osoitteessa https://cloud.google.com/. Löydät tutoriaaleja, hallinnoit palvelutiliä, käytät wavenet-ääniä ja paljon muuta.
Google Cloud on Googlen pilvialusta, joka koostuu useista modulaarisista palveluista. Voit valita yhden, useita tai vaikka kaikki. Tarvitset vain käyttöavaimet API-tunnistusta varten. Useimmat palvelut ovat maksullisia, mutta monissa on ilmainen käyttöraja.
Google osti DeepMindin vuonna 2014 tekstistä puheeksi -teknologian ja neuroverkkokehityksen takia. DeepMind on nyt Google DeepMind, eli osa samaa yhtiötä.
Nyt kun perusymmärrys on kasassa, sukelletaan Google Cloud Text to Speech API:n yksityiskohtiin.
Google Text to Speech API:n ominaisuudet
Google on kansainvälinen teknologia-alan edelläkävijä. TTS API sisältää huipputason ominaisuuksia, joita kehitetään jatkuvasti eteenpäin.
Korkealaatuinen puhe
Googlen tekstistä puheeksi -äänet ovat alan parhaimmistoa. Ne kuulostavat hyvin ihmismäisiltä ja luonnollisilta. TTS-kehitys on vielä alkuvaiheessa, ja se, joka onnistuu tuottamaan luonnollisimman äänen, vie pisimmän korren.
Äänivalikoima
Google tarjoaa erittäin laajan äänivalikoiman, joten projektisi voi erottua massasta eikä kuulosta samalta kuin kilpailevat sovellukset.
Luo oma äänesi
Tämä lähenee äänen kloonaus -teknologiaa. Voit luoda oman äänesi nauhoittamalla itsesi tai jonkun muun luvalla. Tämän jälkeen voit käyttää tätä ääninäytettä lukemaan kaiken tekstisi ääneen.
Neuraaliäänet
Neuraaliäänet tarjoavat parhaan laadun koko laajasta valikoimasta. Voit myös kansainvälistää nämä äänet ja tavoittaa globaalin yleisön.
Studio-äänet
Studio-äänet ovat huippuluokan ääniä ja kuulostavat ammattimaisilta – lähes kuin ne olisi nauhoitettu perinteisessä studiossa.
Äänen muokkaus
Valitse ääni ja säädä nopeutta, korkeutta ja muita asetuksia, jotta saat juuri haluamasi äänensävyn.
Mitä Google Text to Speech API maksaa?
Kaikki riippuu äänen laadusta ja tekstin pituudesta. Mitä luonnollisemmalta äänen haluat kuulostavan, sitä enemmän maksat. Toisaalta kalliskin on suhteellista, sillä huippulaatuiset äänet ovat yllättävän edullisia.
| Äänityyppi | Ilmainen/kk | Maksun jälkeen |
| Neural2-äänet | 0–1 miljoonaa tavua | $16 / miljoona tavua |
| Polyglot-äänet | 0–1 miljoonaa tavua | $16 / miljoona tavua |
| Studio-äänet | 0–100 000 tavua | $160 / miljoona tavua |
| Vakiot-äänet | 0–4 miljoonaa merkkiä | $4 / miljoona merkkiä |
| Wavenet-äänet | 0–1 miljoona merkkiä | $16 / miljoona merkkiä |
Mikä ero on merkeillä & tavuilla?
Kuten huomaat, hinta vaihtelee paljon äänenlaadun mukaan. Tekstin koodaus ja käsittely puheeksi eroavat eri tasoilla. Alemmissa, kuten Standard-äänissä, hinta lasketaan merkkien mukaan.
Jos projektissasi on siis 4 miljoonaa merkkiä, maksat $16 siitä, että Standard-merkit muunnetaan puheeksi.
Studio-äänet taas vaativat enemmän laskentatehoa, ja veloitus perustuu tavuisiin. Joissain kielissä, kuten japanissa, yksi merkki voi koostua useista tavuista.
Tarkan hinnan arvioimiseksi on tärkeää tietää, millä kielellä työskentelet, ja arvioida keskimääräinen tavujen määrä merkkiä kohden.
Miten Google Cloud Platform Text to Speech API -projekti otetaan käyttöön?
- Luo Google Cloud -tili tai kirjaudu sisään täällä
- Luo uusi projekti ja nimeä se kuvaavasti
- Lisää maksutapa. Maksat vain käytöstä.
- Valitse projekti ja liitä se maksutiliisi.
- Aktivoi Text-to-Speech API. Etsi yläreunan hakupalkista "speech".
- Valitse tuloksista Cloud Text-to-Speech API.
- Määritä tunnistautuminen kehitysympäristössäsi. Katso ohjeet Text-to-Speech -autentikointiin.
Voit kokeilla Text-to-Speech -toimintoa myös ilman projektin liittämistä:
- Valitse TRY THIS API -vaihtoehto.
- Ota Text-to-Speech API käyttöön projektiisi klikkaamalla ENABLE.
Katso lisää ohjeita Google Cloudin dokumentaatiosta.
Miten Text to Speech API poistetaan käytöstä
Poista Text-to-Speech API käytöstä Google Cloud Platformin hallintapaneelista klikkaamalla "Go to APIs overview" -linkkiä sovelluslaatikon sisällä. Etsi Text-to-Speech API, klikkaa sitä ja valitse yläreunasta "DISABLE API".
Aloita Google Text to Speech API:n käyttö
Kun projektisi on valmis, voit aloittaa käyttämällä komentoriviä.
gcloud initLuo paikallinen tunnistautuminen
gcloud auth application-default loginVoit nyt asentaa asiakaskirjaston. Tässä esimerkissä käytetään Node.js:ää.
npm install --save @google-cloud/text-to-speechGoogle Cloud Text to Speech API tukee näitä kieliä:
- Go
- Java
- Node.js
- C++
- C#
- PHP
- Python
- Ruby
- TypeScript
- Terraform
- YAML
Kuinka Google Cloud API toimii?
Kaikki alkaa yksinkertaisesta API-kutsusta. Lähetät tekstin ja saat takaisin puhutun äänitiedoston. Voit määrittää pyynnössäsi äänen, kielen ja muuta, ja tekstistä puheeksi API palauttaa sinulle äänen.
Voit opetella tekstistä puheeksi -asiakaskirjastojen käytön täältä. Koodiesimerkit ovat Node.js:lle, mutta voit käyttää myös esim. Pythonia tai PHP:tä.
const textToSpeech = require('@google-cloud/text-to-speech');
const fs = require('fs');
const util = require('util');
const client = new textToSpeech.TextToSpeechClient();
/**
* TODO(developer): Uncomment the following lines before running the sample.
*/
// const text = 'Text to synthesize, eg. hello';
// const outputFile = 'Local path to save audio file to, e.g. output.mp3';
const request = {
input: {text: text},
voice: {languageCode: 'en-US', ssmlGender: 'FEMALE'},
audioConfig: {audioEncoding: 'MP3'},
};
const [response] = await client.synthesizeSpeech(request);
const writeFile = util.promisify(fs.writeFile);
await writeFile(outputFile, response.audioContent, 'binary');
console.log(`Audio content written to file: ${outputFile}`);Siinä kaikki. Olet ottanut Google Cloud Text to Speech API:n käyttöön ja lähettänyt ensimmäisen pyyntösi tekstin muuntamiseksi puheeksi. Saat tiedoston takaisin eri muodoissa, kuten OGG- tai MP3-tiedostona.
Näin voit hyödyntää Google Text to Speech API:ta
Google Text to Speech (TTS) API sopii moniin käyttötarkoituksiin eri toimialoilla. Esimerkkejä käyttökohteista:
- Tekstistä puheeksi näkövammaisille: TTS-toiminnolla kirjoitettu sisältö muuttuu puheeksi ja parantaa näkövammaisten saavutettavuutta.
- Automaattiset puhelinjärjestelmät: TTS:llä luodaan luonnollisia puheohjeita ja vastauksia asiakaspalvelunumeroihin.
- Voiceoverit mediasisältöön: Synteettiset, mutta luonnolliset puheäänet videoihin, podcasteihin ja muuhun mediaan.
- Tekstistä puheeksi käännetylle sisällölle: Käännetty teksti puheeksi helpottaa kielten opiskelua, kansainvälistä viestintää ja sisällön kuluttamista.
- Lukuapu dyslektiasta kärsiville: TTS lukee tekstin henkilöille, joilla on lukivaikeuksia.
- Puheopastus sovelluksissa: TTS tarjoaa kuuluvia ajo- ja sijaintiohjeita navigointisovelluksissa.
- Tekstistä puheeksi opetussisältöihin: TTS parantaa e-oppimisen saavutettavuutta muuntamalla tekstin puheeksi.
- Puheensynteesi tuottavuussovelluksiin: TTS mahdollistaa puhutun palautteen ja tiedonhaun esimerkiksi muistiinpanosovelluksissa.
- Luonnollinen ääni virtuaaliassistenteille: Parantaa käyttökokemusta luonnollisella TTS-puheella virtuaaliavustajissa.
- Äänivaroitukset ja ilmoitukset: TTS tuottaa selkeitä kuuluvia ilmoituksia ja tilapäivityksiä esim. IoT-laitteissa.
Parhaat vaihtoehdot Google Cloud TTS API:lle
Tietojeni mukaan tammikuussa 2022 oli useita vaihtoehtoja Google Text to Speech API:lle. Palveluiden suosio ja ominaisuudet voivat muuttua, mutta tässä tunnetuimpia vaihtoehtoja:
- Speechify Text to Speech API: Speechify Text to Speech API tarjoaa yli 1000 elävää ja tunnelatautunutta tekoälyääntä yli 60 kielellä ja murteella. Varaa paikkasi tänään.
- Amazon Polly: Amazon Web Servicesin Polly tarjoaa luonnollista puhesynteesiä useilla kielillä ja äänillä. Se integroituu helposti muihin AWS-palveluihin.
- Microsoft Azure Speech Service: Azure Speech Service sisältää tekstistä puheeksi -ominaisuudet ja sopii esimerkiksi ääniassistenteihin tai navigaatiojärjestelmiin.
- IBM Watson Text to Speech: IBM Watsonin Text to Speech -palvelulla muutat tekstin aidon kuuloiseksi puheeksi eri äänillä.
- Nuance Communications: Nuance tarjoaa monia puhe- ja äänentunnistusratkaisuja, kuten tekstistä puheeksi -palvelut terveydenhuoltoon ja asiakaspalveluun.
- CereProc: CereProc on tekstistä puheeksi -teknologiayritys, joka tarjoaa laadukkaita synteettisiä ääniä saavutettavuus- ja viihdetarkoituksiin.
- iSpeech: iSpeech tarjoaa pilvipohjaisia tekstistä puheeksi -palveluja monille eri kielille ja äänille. Sopii esimerkiksi mobiilisovelluksiin ja verkkosivuille.
- ResponsiveVoice: ResponsiveVoice on yksinkertainen ja edullinen tekstistä puheeksi API monille kielille ja verkkosovelluksiin.
- Neospeech: Neospeech tarjoaa tekstistä puheeksi -ratkaisuja, joissa painotetaan luonnollista ääntä. Sopii mm. e-oppimiseen ja viihteeseen.
- ReadSpeaker: ReadSpeaker tarjoaa online- ja offline-tekstistä puheeksi -palveluja mm. verkkosivuille, e-oppimiseen ja saavutettavuuteen.
- Acapelabox: Acapela Group tarjoaa pilvipohjaisen tekstistä puheeksi API:n, Acapelaboxin, monilla kielillä ja äänillä.
FAQ
Googlen äänivalikoimassa on eri tasoja ja lähes kaikissa on ilmainen käyttöraja. Esimerkiksi vakiotäänet ovat ilmaisia miljoonaan tavuun saakka. Sen jälkeen hinta on $16 / miljoona tavua. Eli kyllä, pienimuotoinen käyttö on ilmaista.
Luo tili osoitteessa https://cloud.google.com/text-to-speech/ ja seuraa ohjeita. Olen myös kuvannut prosessin tässä blogissa aiemmin.
Saat Google tekstistä puheeksi API -avaimen kirjautumalla Google Cloudiin ja luomalla projektin. Sen jälkeen voit luoda API-avaimen helposti ohjeiden mukaan.
Google text to speech API:n URL on https://cloud.google.com/text-to-speech/
Varsinaista yhden tuotteen yhtenäistä kokeilujaksoa ei ole. Google Cloudissa on monta palvelua ja jokaisella on omat ehtonsa ja ilmaiset käyttörajansa.
Et voi. Google Cloud Text to Speech API vaatii toimiakseen internet-yhteyden.
Google Cloud -palveluihin, kuten Text to Speech API:in, voi tunnistautua API-avaimilla, OAuth 2.0:lla tai palvelutileillä. Sopiva menetelmä riippuu sovelluksesta ja käyttötapauksesta.
Antaisin 5 tähteä. Se on helppokäyttöinen, hakutoiminto toimii erinomaisesti ja hinnoittelu on maltillista. Kokonaisuutena kyseessä on erittäin hyvä tuote.
Google Text to Speech API:lle on asiakaskirjastot useille ohjelmointikielille, mm. Pythonille. Lisäksi REST API tukee kaikkia kieliä, joilla voi tehdä HTTP-pyyntöjä.
Integrointi Androidiin onnistuu käyttämällä TextToSpeech-luokkaa ja tekemällä API-pyyntöjä. Katso tarkemmat ohjeet Android-kehittäjien dokumentaatiosta.
Voit käyttää Google Text to Speech API:ta JavaScriptissä tekemällä HTTP-pyynnön rajapintaan. Rakenna API-pyyntö ja käsittele vastaus koodissasi. Tarkemmat ohjeet löydät virallisesta dokumentaatiosta.

