1. Etusivu
  2. API
  3. Kaikki Google Cloud Text to Speech API:sta
Updated on API

Kaikki Google Cloud Text to Speech API:sta

Cliff Weitzman

Cliff Weitzman

Speechifyn perustaja ja toimitusjohtaja

Speechify API tarjoaa 300ms 
viiveen, ihmisen kaltaiset äänet, 
ja yli 50 kieltä

apple logo2025 Apple Design Award
50M+ käyttäjää

Generatiivinen tekoäly ja tekoäly ovat kehittyneet pitkälle. Tekstistä puheeksi on varsin vanha konsepti ja ollut markkinoilla jo kauan. Aiheesta riittää puhuttavaa, ja käyn sen läpi monesta kulmasta. Olitpa aloittelija tai konkari, tästä saat kattavan käsityksen Googlen Text to Speech API:sta.

Ennen kuin mennään syvemmälle, on tärkeää sopia perusasioista. Määritellään muutama termi, jotta pohja on kunnossa.

Puretellaan ensin kahta teknologiaa – tekstistä puheeksi -ratkaisuja ja API:eja – sekä sitä, mikä on Google Cloudin rooli.

Toimittajan huomio: Etsitkö huippuluokan tekstistä puheeksi -API:a? Kurkkaa Speechifyn hyvin dokumentoitu ja helppokäyttöinen tekstistä puheeksi API.

Tekstistä puheeksi

Olen kirjoittanut aiheesta paljon; voit lukea Mitä on tekstistä puheeksi -blogini ja perehtyä myös puheensynteesiin. Ne menevät syvemmälle, mutta tässä vedän yhteen tärkeimmät.

Tekstistä puheeksi perustuu puheensynteesiin, joka muuttaa sanat tekoälyn tuottamaksi puheeksi. Käyttökohteita on paljon: se auttaa esimerkiksi lukivaikeuksista, kuten dysleksiasta tai heikosta näöstä kärsiviä, ja tukee myös heitä, jotka haluavat tehostaa työntekoaan.

API

API tarkoittaa sovellusohjelmointirajapintaa. Se toimii siltana kahden sovelluksen välillä. Jos kehität sovellusta, jossa tarvitaan äänisisältöä ja tekstistä puheeksi -ominaisuuksia, voit joko rakentaa kaiken itse tai vain liittää mukaan valmiin tekstistä puheeksi API:n.

Voit näin keskittyä sovelluksesi kehittämiseen ja luottaa kolmannen osapuolen API:in tuomaan tekstistä puheeksi -toiminnon mukaan.

Google Cloud API

Tässä kohtaa Google Cloud astuu kuvaan. Google on kehittänyt vahvan tekstistä puheeksi API:n ja tarjoaa sitä kehittäjille eri hinnoittelumalleilla. Sovelluskehittäjä voi hyödyntää Googlen TTS-ominaisuuksia rakentaakseen omia sovelluksiaan. TTS on lyhenne sanoista text to speech.

Pääset alkuun nopeasti Google Cloud Consolessa osoitteessa https://cloud.google.com/. Löydät tutoriaaleja, hallinnoit palvelutiliä, käytät wavenet-ääniä ja paljon muuta.

Google Cloud on Googlen pilvialusta, joka koostuu useista modulaarisista palveluista. Voit valita yhden, useita tai vaikka kaikki. Tarvitset vain käyttöavaimet API-tunnistusta varten. Useimmat palvelut ovat maksullisia, mutta monissa on ilmainen käyttöraja.

Google osti DeepMindin vuonna 2014 tekstistä puheeksi -teknologian ja neuroverkkokehityksen takia. DeepMind on nyt Google DeepMind, eli osa samaa yhtiötä.

Nyt kun perusymmärrys on kasassa, sukelletaan Google Cloud Text to Speech API:n yksityiskohtiin.

Google Text to Speech API:n ominaisuudet

Google on kansainvälinen teknologia-alan edelläkävijä. TTS API sisältää huipputason ominaisuuksia, joita kehitetään jatkuvasti eteenpäin.

Korkealaatuinen puhe

Googlen tekstistä puheeksi -äänet ovat alan parhaimmistoa. Ne kuulostavat hyvin ihmismäisiltä ja luonnollisilta. TTS-kehitys on vielä alkuvaiheessa, ja se, joka onnistuu tuottamaan luonnollisimman äänen, vie pisimmän korren.

Äänivalikoima

Google tarjoaa erittäin laajan äänivalikoiman, joten projektisi voi erottua massasta eikä kuulosta samalta kuin kilpailevat sovellukset.

Luo oma äänesi

Tämä lähenee äänen kloonaus -teknologiaa. Voit luoda oman äänesi nauhoittamalla itsesi tai jonkun muun luvalla. Tämän jälkeen voit käyttää tätä ääninäytettä lukemaan kaiken tekstisi ääneen.

Neuraaliäänet

Neuraaliäänet tarjoavat parhaan laadun koko laajasta valikoimasta. Voit myös kansainvälistää nämä äänet ja tavoittaa globaalin yleisön.

Studio-äänet

Studio-äänet ovat huippuluokan ääniä ja kuulostavat ammattimaisilta – lähes kuin ne olisi nauhoitettu perinteisessä studiossa.

Äänen muokkaus

Valitse ääni ja säädä nopeutta, korkeutta ja muita asetuksia, jotta saat juuri haluamasi äänensävyn.

Mitä Google Text to Speech API maksaa?

Kaikki riippuu äänen laadusta ja tekstin pituudesta. Mitä luonnollisemmalta äänen haluat kuulostavan, sitä enemmän maksat. Toisaalta kalliskin on suhteellista, sillä huippulaatuiset äänet ovat yllättävän edullisia.

ÄänityyppiIlmainen/kkMaksun jälkeen
Neural2-äänet0–1 miljoonaa tavua$16 / miljoona tavua
Polyglot-äänet0–1 miljoonaa tavua$16 / miljoona tavua
Studio-äänet0–100 000 tavua$160 / miljoona tavua
Vakiot-äänet0–4 miljoonaa merkkiä$4 / miljoona merkkiä
Wavenet-äänet0–1 miljoona merkkiä$16 / miljoona merkkiä

Mikä ero on merkeillä & tavuilla?

Kuten huomaat, hinta vaihtelee paljon äänenlaadun mukaan. Tekstin koodaus ja käsittely puheeksi eroavat eri tasoilla. Alemmissa, kuten Standard-äänissä, hinta lasketaan merkkien mukaan.

Jos projektissasi on siis 4 miljoonaa merkkiä, maksat $16 siitä, että Standard-merkit muunnetaan puheeksi.

Studio-äänet taas vaativat enemmän laskentatehoa, ja veloitus perustuu tavuisiin. Joissain kielissä, kuten japanissa, yksi merkki voi koostua useista tavuista.

Tarkan hinnan arvioimiseksi on tärkeää tietää, millä kielellä työskentelet, ja arvioida keskimääräinen tavujen määrä merkkiä kohden.

Miten Google Cloud Platform Text to Speech API -projekti otetaan käyttöön?

  1. Luo Google Cloud -tili tai kirjaudu sisään täällä
  2. Luo uusi projekti ja nimeä se kuvaavasti
  3. Lisää maksutapa. Maksat vain käytöstä.
  4. Valitse projekti ja liitä se maksutiliisi.
  5. Aktivoi Text-to-Speech API. Etsi yläreunan hakupalkista "speech".
  6. Valitse tuloksista Cloud Text-to-Speech API.
  7. Määritä tunnistautuminen kehitysympäristössäsi. Katso ohjeet Text-to-Speech -autentikointiin.

Voit kokeilla Text-to-Speech -toimintoa myös ilman projektin liittämistä:

  1. Valitse TRY THIS API -vaihtoehto.
  2. Ota Text-to-Speech API käyttöön projektiisi klikkaamalla ENABLE.

Katso lisää ohjeita Google Cloudin dokumentaatiosta.

Miten Text to Speech API poistetaan käytöstä

Poista Text-to-Speech API käytöstä Google Cloud Platformin hallintapaneelista klikkaamalla "Go to APIs overview" -linkkiä sovelluslaatikon sisällä. Etsi Text-to-Speech API, klikkaa sitä ja valitse yläreunasta "DISABLE API".

Aloita Google Text to Speech API:n käyttö

Kun projektisi on valmis, voit aloittaa käyttämällä komentoriviä.

gcloud init

Luo paikallinen tunnistautuminen

gcloud auth application-default login

Voit nyt asentaa asiakaskirjaston. Tässä esimerkissä käytetään Node.js:ää.

npm install --save @google-cloud/text-to-speech

Google Cloud Text to Speech API tukee näitä kieliä:

  1. Go
  2. Java
  3. Node.js
  4. C++
  5. C#
  6. PHP
  7. Python
  8. Ruby
  9. TypeScript
  10. Terraform
  11. YAML

Kuinka Google Cloud API toimii?

Kaikki alkaa yksinkertaisesta API-kutsusta. Lähetät tekstin ja saat takaisin puhutun äänitiedoston. Voit määrittää pyynnössäsi äänen, kielen ja muuta, ja tekstistä puheeksi API palauttaa sinulle äänen.

Voit opetella tekstistä puheeksi -asiakaskirjastojen käytön täältä. Koodiesimerkit ovat Node.js:lle, mutta voit käyttää myös esim. Pythonia tai PHP:tä.

const textToSpeech = require('@google-cloud/text-to-speech');
const fs = require('fs');
const util = require('util');

const client = new textToSpeech.TextToSpeechClient();

/**
 * TODO(developer): Uncomment the following lines before running the sample.
 */
// const text = 'Text to synthesize, eg. hello';
// const outputFile = 'Local path to save audio file to, e.g. output.mp3';

const request = {
  input: {text: text},
  voice: {languageCode: 'en-US', ssmlGender: 'FEMALE'},
  audioConfig: {audioEncoding: 'MP3'},
};
const [response] = await client.synthesizeSpeech(request);
const writeFile = util.promisify(fs.writeFile);
await writeFile(outputFile, response.audioContent, 'binary');
console.log(`Audio content written to file: ${outputFile}`);

Siinä kaikki. Olet ottanut Google Cloud Text to Speech API:n käyttöön ja lähettänyt ensimmäisen pyyntösi tekstin muuntamiseksi puheeksi. Saat tiedoston takaisin eri muodoissa, kuten OGG- tai MP3-tiedostona.

Näin voit hyödyntää Google Text to Speech API:ta

Google Text to Speech (TTS) API sopii moniin käyttötarkoituksiin eri toimialoilla. Esimerkkejä käyttökohteista:

  1. Tekstistä puheeksi näkövammaisille: TTS-toiminnolla kirjoitettu sisältö muuttuu puheeksi ja parantaa näkövammaisten saavutettavuutta.
  2. Automaattiset puhelinjärjestelmät: TTS:llä luodaan luonnollisia puheohjeita ja vastauksia asiakaspalvelunumeroihin.
  3. Voiceoverit mediasisältöön: Synteettiset, mutta luonnolliset puheäänet videoihin, podcasteihin ja muuhun mediaan.
  4. Tekstistä puheeksi käännetylle sisällölle: Käännetty teksti puheeksi helpottaa kielten opiskelua, kansainvälistä viestintää ja sisällön kuluttamista.
  5. Lukuapu dyslektiasta kärsiville: TTS lukee tekstin henkilöille, joilla on lukivaikeuksia.
  6. Puheopastus sovelluksissa: TTS tarjoaa kuuluvia ajo- ja sijaintiohjeita navigointisovelluksissa.
  7. Tekstistä puheeksi opetussisältöihin: TTS parantaa e-oppimisen saavutettavuutta muuntamalla tekstin puheeksi.
  8. Puheensynteesi tuottavuussovelluksiin: TTS mahdollistaa puhutun palautteen ja tiedonhaun esimerkiksi muistiinpanosovelluksissa.
  9. Luonnollinen ääni virtuaaliassistenteille: Parantaa käyttökokemusta luonnollisella TTS-puheella virtuaaliavustajissa.
  10. Äänivaroitukset ja ilmoitukset: TTS tuottaa selkeitä kuuluvia ilmoituksia ja tilapäivityksiä esim. IoT-laitteissa.

Parhaat vaihtoehdot Google Cloud TTS API:lle

Tietojeni mukaan tammikuussa 2022 oli useita vaihtoehtoja Google Text to Speech API:lle. Palveluiden suosio ja ominaisuudet voivat muuttua, mutta tässä tunnetuimpia vaihtoehtoja:

  1. Speechify Text to Speech API: Speechify Text to Speech API tarjoaa yli 1000 elävää ja tunnelatautunutta tekoälyääntä yli 60 kielellä ja murteella. Varaa paikkasi tänään.
  2. Amazon Polly: Amazon Web Servicesin Polly tarjoaa luonnollista puhesynteesiä useilla kielillä ja äänillä. Se integroituu helposti muihin AWS-palveluihin.
  3. Microsoft Azure Speech Service: Azure Speech Service sisältää tekstistä puheeksi -ominaisuudet ja sopii esimerkiksi ääniassistenteihin tai navigaatiojärjestelmiin.
  4. IBM Watson Text to Speech: IBM Watsonin Text to Speech -palvelulla muutat tekstin aidon kuuloiseksi puheeksi eri äänillä.
  5. Nuance Communications: Nuance tarjoaa monia puhe- ja äänentunnistusratkaisuja, kuten tekstistä puheeksi -palvelut terveydenhuoltoon ja asiakaspalveluun.
  6. CereProc: CereProc on tekstistä puheeksi -teknologiayritys, joka tarjoaa laadukkaita synteettisiä ääniä saavutettavuus- ja viihdetarkoituksiin.
  7. iSpeech: iSpeech tarjoaa pilvipohjaisia tekstistä puheeksi -palveluja monille eri kielille ja äänille. Sopii esimerkiksi mobiilisovelluksiin ja verkkosivuille.
  8. ResponsiveVoice: ResponsiveVoice on yksinkertainen ja edullinen tekstistä puheeksi API monille kielille ja verkkosovelluksiin.
  9. Neospeech: Neospeech tarjoaa tekstistä puheeksi -ratkaisuja, joissa painotetaan luonnollista ääntä. Sopii mm. e-oppimiseen ja viihteeseen.
  10. ReadSpeaker: ReadSpeaker tarjoaa online- ja offline-tekstistä puheeksi -palveluja mm. verkkosivuille, e-oppimiseen ja saavutettavuuteen.
  11. Acapelabox: Acapela Group tarjoaa pilvipohjaisen tekstistä puheeksi API:n, Acapelaboxin, monilla kielillä ja äänillä.

FAQ

Googlen äänivalikoimassa on eri tasoja ja lähes kaikissa on ilmainen käyttöraja. Esimerkiksi vakiotäänet ovat ilmaisia miljoonaan tavuun saakka. Sen jälkeen hinta on $16 / miljoona tavua. Eli kyllä, pienimuotoinen käyttö on ilmaista.

Luo tili osoitteessa https://cloud.google.com/text-to-speech/ ja seuraa ohjeita. Olen myös kuvannut prosessin tässä blogissa aiemmin.

Saat Google tekstistä puheeksi API -avaimen kirjautumalla Google Cloudiin ja luomalla projektin. Sen jälkeen voit luoda API-avaimen helposti ohjeiden mukaan.

Google text to speech API:n URL on https://cloud.google.com/text-to-speech/

Varsinaista yhden tuotteen yhtenäistä kokeilujaksoa ei ole. Google Cloudissa on monta palvelua ja jokaisella on omat ehtonsa ja ilmaiset käyttörajansa.

Et voi. Google Cloud Text to Speech API vaatii toimiakseen internet-yhteyden.

Google Cloud -palveluihin, kuten Text to Speech API:in, voi tunnistautua API-avaimilla, OAuth 2.0:lla tai palvelutileillä. Sopiva menetelmä riippuu sovelluksesta ja käyttötapauksesta.

Antaisin 5 tähteä. Se on helppokäyttöinen, hakutoiminto toimii erinomaisesti ja hinnoittelu on maltillista. Kokonaisuutena kyseessä on erittäin hyvä tuote.

Google Text to Speech API:lle on asiakaskirjastot useille ohjelmointikielille, mm. Pythonille. Lisäksi REST API tukee kaikkia kieliä, joilla voi tehdä HTTP-pyyntöjä.

Integrointi Androidiin onnistuu käyttämällä TextToSpeech-luokkaa ja tekemällä API-pyyntöjä. Katso tarkemmat ohjeet Android-kehittäjien dokumentaatiosta.

Voit käyttää Google Text to Speech API:ta JavaScriptissä tekemällä HTTP-pyynnön rajapintaan. Rakenna API-pyyntö ja käsittele vastaus koodissasi. Tarkemmat ohjeet löydät virallisesta dokumentaatiosta.

Käytä Speechifyn suosittuja ääniä API:n kautta nopeasti, skaalautuvasti ja kehittäjäystävällisesti

Hanki API-käyttöoikeus
api access banner

Jaa tämä artikkeli

Cliff Weitzman

Cliff Weitzman

Speechifyn perustaja ja toimitusjohtaja

Cliff Weitzman on dysleksian puolestapuhuja sekä Speechifyn perustaja ja toimitusjohtaja. Speechify on maailman johtava tekstin puheeksi -sovellus, jolla on yli 100 000 viiden tähden arvostelua ja joka on App Storen Uutiset & Aikakauslehdet -kategoriassa ykkönen. Vuonna 2017 Weitzman valittiin Forbesin 30 under 30 -listalle työstään internetin saavutettavuuden parantamiseksi oppimisvaikeuksia kokeville. Cliff Weitzman on ollut esillä muun muassa julkaisuissa EdSurge, Inc., PC Mag, Entrepreneur ja Mashable.

speechify logo

Tietoa Speechifystä

#1 Tekstistä puheeksi -lukija

Speechify on maailman johtava tekstistä puheeksi -alusta, johon luottaa yli 50 miljoonaa käyttäjää ja joka on saanut yli 500 000 viiden tähden arvostelua sen iOS-, Android-, Chrome-laajennus-, verkkosovellus- ja Mac-työpöytäsovellus -versioista. Vuonna 2025 Apple myönsi Speechifylle arvostetun Apple Design Award -palkinnon WWDC-tapahtumassa, kutsuen sitä “elintärkeäksi resurssiksi, joka auttaa ihmisiä elämään elämäänsä.” Speechify tarjoaa yli 1 000 luonnollisen kuuloista ääntä yli 60 kielellä ja sitä käytetään lähes 200 maassa. Julkkisäänet sisältävät muun muassa Snoop Doggin, Mr. Beastin ja Gwyneth Paltrow’n. Sisällöntuottajille ja yrityksille Speechify Studio tarjoaa edistyneitä työkaluja, kuten tekoälypohjaisen äänenluonnin, äänen kloonauksen, dubbaustyökalut ja äänimuuntimen. Speechify myös tukee johtavia tuotteita korkealaatuisella ja kustannustehokkaalla tekstistä puheeksi API:lla. Esillä muun muassa julkaisuissa The Wall Street Journal, CNBC, Forbes ja TechCrunch, Speechify on maailman suurin tekstistä puheeksi -palveluntarjoaja. Vieraile osoitteissa speechify.com/news, speechify.com/blog ja speechify.com/press saadaksesi lisätietoja.