1. Hjem
  2. API
  3. Alt om Google Cloud Text to Speech API
Updated on API

Alt om Google Cloud Text to Speech API

Cliff Weitzman

Cliff Weitzman

Administrerende direktør og grunnlegger av Speechify

Speechify API leverer 300 ms 
latens, stemmer i menneskekvalitet 
og 50+ språk

apple logoApple Design Award 2025
50M+ brukere

Generativ AI og kunstig intelligens har kommet langt. Tekst til tale er et relativt gammelt konsept og har vært her en stund. Det er mye å utforske og sortere, så jeg deler det opp og ser på det fra flere vinkler. Enten du er nybegynner eller proff, skal dette gi deg god oversikt over Google Text to Speech API.

Før vi dykker inn, må vi sette noen grunnregler. La oss definere noen begreper og bygge et fundament så vi har et stødig utgangspunkt.

La oss skille mellom tekst til tale og API-er, og se hvilken rolle Google Cloud spiller.

Redaktørens notat: Leter du etter den beste tekst til tale-API-en? Prøv Speechify sin veldokumenterte og brukervennlige tekst til tale-API.

Tekst til tale

Jeg har skrevet mye om dette, og du kan lese min Hva er tekst til tale-blogg og også om talesyntese for å forstå mer. Disse går mer i dybden, men jeg oppsummerer det raskt her.

Tekst til tale bygger på talesyntese for å konvertere tekst til AI-generert tale. Bruksområdene er mange – for å hjelpe dem med lesevansker, nedsatt syn eller de som ønsker mer effektivitet.

API

API betyr Application Programming Interface. Det er som en bro mellom to apper. Lager du en app med lydinnhold og trenger tekst til tale, må du enten bygge funksjonen selv eller koble til en eksisterende tekst til tale-API.

Du kan da konsentrere deg om din egen app og bruke et tredjeparts-API som bro for å hente inn tekst til tale-funksjonen og lage tale fra tekst.

Google Cloud API

Her kommer Google Cloud inn. Google har laget en solid tekst til tale-API tilgjengelig for utviklere med ulike prismodeller. Alle som vil lage egne apper/webapper med tekst til tale kan enkelt bruke Googles TTS-funksjon. TTS er forkortelsen for tekst til tale.

Kom raskt i gang i Google Cloud Console https://cloud.google.com/. Her finner du guider, kan administrere tjenestekontoen din, få tilgang til wavenet-stemmer m.m.

Google Cloud er en skyplattform med mange moduler fra Google. Du kan bruke én, flere eller alle tjenester. For å bruke API-er må du lage tilgangsnøkler for autentisering. De fleste tjenester koster, men det finnes gratisgrenser.

Google kjøpte DeepMind i 2014 for deres tekst til tale-teknologi og arbeid med nevrale nettverk. Ser du DeepMind, er det nå Google DeepMind, alt i ett.

Nå som vi har grunnlaget på plass, la oss se nærmere på Google Cloud Text to Speech API.

Google Text to Speech API-funksjoner

Google er en global teknologileder. For TTS-API-en kan du forvente toppfunksjoner som hele tiden forbedres.

Høy lydkvalitet

Googles tekst til tale-stemmer er blant de beste. De låter nesten menneskelige og svært naturlige. TTS er fortsatt tidlig i utviklingen – de som klarer å gjøre syntetisk tale mest menneskelig, vinner løpet.

Mange stemmer

Google har et av de bredeste stemmeutvalgene, så prosjektet ditt trenger ikke låte likt som konkurrentenes.

Lag din egen stemme

Dette nærmer seg stemme-kloning-teknologi. Du kan lage en personlig stemme ved å spille inn deg selv eller andre, med samtykke. Denne stemmen kan så lese opp all tekst.

Nevrale stemmer

Nevrale stemmer gir best kvalitet. De kan også brukes for å gjøre produktet mer internasjonalt.

Studiostemmer

Studiostemmer er svært profesjonelle og høres ut som de er spilt inn på tradisjonelt vis.

Stemmejustering

Velg en stemme og juster fart, tonehøyde m.m. slik du ønsker for å skreddersy lydbildet.

Hva koster Google Text to Speech API?

Prisene avhenger av stemmekvalitet og tekstlengde. Jo mer naturtro stemme, jo dyrere. Men alt er relativt – selv de beste stemmene er ganske rimelige.

StemmetypeGratis pr. månedEtter gratiskvote brukt
Neural2-stemmer0 til 1 mill. byte$16 pr. mill. byte
Polyglot-stemmer0 til 1 mill. byte$16 pr. mill. byte
Studiostemmer0 til 100 000 byte$160 pr. mill. byte
Standardstemmer0 til 4 mill. tegn$4 pr. mill. tegn
Wavenet-stemmer0 til 1 mill. tegn$16 pr. mill. tegn

Forskjell på tegn & byte

Som du ser varierer prisen ut fra stemmekvalitet. Selve koding og prosessering fra tekst til tale er ulik for hvert nivå. For Standardstemmer telles det med tegn, og prisen er lavere.

Hvis du har et prosjekt med 4 millioner tegn, koster det $16 å konvertere dem til tale med Standardstemmer.

Studiostemmer trenger mer prosessering og prises etter byte. I noen språk, som japansk, kan ett tegn være flere byte.

For mest presis pris må du kjenne språket, snittet på byte pr. tegn og beregne deretter.

Slik setter du opp Google Cloud Platform Text to Speech API-prosjekt

  1. Lag Google Cloud-konto eller logg inn her
  2. Lag et nytt prosjekt og gi det et navn
  3. Legg til betalingsmetode. Du betaler kun for faktisk bruk.
  4. Velg prosjektet og koble det til en betalingskonto.
  5. Aktiver Text-to-Speech API. Søk øverst etter "speech."
  6. Velg Cloud Text-to-Speech API blant resultatene
  7. Sett opp autentisering for utviklingsmiljøet. Se instruksjonene for Text-to-Speech-autentisering.

Du kan også teste Text-to-Speech uten prosjekt:

  1. Velg PRØV DETTE API-alternativet.
  2. For å aktivere Text-to-Speech API for ditt prosjekt, klikk AKTIVER.

Se Google Cloud-dokumentasjon for mer hjelp.

Slik deaktiverer du Text to Speech API

For å deaktivere Text-to-Speech API, gå til Google Cloud Platform dashboard og klikk på "Gå til API-oversikt" i API-boksen. Finn Text-to-Speech API, klikk på den og trykk "DEAKTIVER API" øverst.

Kom i gang med Google Text to Speech API

Når prosjektet er satt opp, kan du bruke kommandolinjen for å starte.

gcloud init

Sett opp lokal autentisering

gcloud auth application-default login

Installer et klientbibliotek. Her viser vi Node.js

npm install --save @google-cloud/text-to-speech

Google Cloud Text to Speech API støtter disse språkene:

  1. Go
  2. Java
  3. Node.js
  4. C++
  5. C#
  6. PHP
  7. Python
  8. Ruby
  9. TypeScript
  10. Terraform
  11. YAML

Slik fungerer Google Cloud API

Alt starter med et enkelt API-kall. Du sender inn teksten din og får tilbake en lydfil. Du kan velge stemme, språk og mer – tekst til tale-API-en gir deg deretter lydfilen.

Lær hvordan du installerer og bruker klientbiblioteker for tekst til tale her. Våre kodeeksempler er for Node.js, men du kan velge andre språk.

const textToSpeech = require('@google-cloud/text-to-speech');
const fs = require('fs');
const util = require('util');

const client = new textToSpeech.TextToSpeechClient();

/**
 * TODO(developer): Uncomment the following lines before running the sample.
 */
// const text = 'Text to synthesize, eg. hello';
// const outputFile = 'Local path to save audio file to, e.g. output.mp3';

const request = {
  input: {text: text},
  voice: {languageCode: 'en-US', ssmlGender: 'FEMALE'},
  audioConfig: {audioEncoding: 'MP3'},
};
const [response] = await client.synthesizeSpeech(request);
const writeFile = util.promisify(fs.writeFile);
await writeFile(outputFile, response.audioContent, 'binary');
console.log(`Audio content written to file: ${outputFile}`);

Og det er det. Nå har du satt opp Google Cloud Text to Speech API og sendt din første forespørsel for tekst til tale. Du kan få filen som OGG, MP3 m.m.

Eksempler på bruk av Google Text to Speech API

Google Text-to-Speech (TTS) API gir fleksible løsninger for mange bruksområder i ulike bransjer. Her er noen vanlige eksempler:

  1. Tekst til tale for synshemmede: Gjør skriftlig innhold hørbart og tilgjengelig for synshemmede brukere.
  2. Automatiserte telefonsystemer: Bruker TTS for naturlige meldinger og svar i kundeservice eller infosystemer.
  3. Voiceover til medier: Lager naturlige voiceovers til videoer, podkaster m.m. for bedre opplevelse.
  4. Tekst til tale for oversatt innhold: Gjør oversatt tekst hørbar for språkinnlæring, kommunikasjon og økt tilgjengelighet.
  5. Lesehjelp for dyslektikere: Tilbyr TTS-funksjon for personer med lesevansker.
  6. Taletnavigasjon i apper: Gir stemmestyrt navigasjon og informasjon i apper.
  7. Tekst til tale for opplæring: Gjør læremateriell hørbart og styrker forståelsen i e-læring.
  8. Tale i produktivitetsapper: Integrerer TTS for talt tilbakemelding eller info i f.eks. notater eller oppgavelister.
  9. Naturlig stemme i assistenter: Gir assistenter naturlig stemme for bedre samtaleopplevelse.
  10. Talevarsler og meldinger: Bruker TTS til hørbare varsler på IoT-enheter m.m. for bedre brukeropplevelse.

De beste alternativene til Google Cloud TTS API

Per januar 2022 finnes det flere alternativer til Google Text-to-Speech API. Merk at popularitet og muligheter kan ha endret seg siden da. Her er noen aktuelle alternativer:

  1. Speechify Text to Speech API: Speechify Text to Speech API tilbyr over 1000 naturtro og emosjonelle AI-stemmer på over 60 språk og dialekter. Sikre din plass i dag.
  2. Amazon Polly: Amazon Web Services (AWS) tilbyr Polly – naturtro tale på mange språk/stemmer. God integrasjon med andre AWS-tjenester.
  3. Microsoft Azure Speech Service: Azure har tekst til tale og støtter apper som stemmeassistenter, navigasjon med mer.
  4. IBM Watson Text to Speech: IBM Watson lar deg konvertere skrevet tekst til naturtro tale med flere stemmer.
  5. Nuance Communications: Nuance tilbyr tale- og stemmeløsninger, inkl. tekst til tale – bl.a. for helse, bil og kundeservice.
  6. CereProc: CereProc tilbyr tekst til tale med høy lydkvalitet, f.eks. for tilgjengelighet, underholdning og kommunikasjon.
  7. iSpeech: iSpeech gir skybasert tekst til tale-støtte for mange språk og stemmer. Passer for apper og nettsider.
  8. ResponsiveVoice: ResponsiveVoice er en enkel og rimelig tekst til tale-API med støtte for flere språk og bruk i nettapplikasjoner.
  9. Neospeech: Neospeech gir tekst til tale med fokus på naturlig stemme for e-læring, underholdning mm.
  10. ReadSpeaker: ReadSpeaker har nett- og offline tekst til tale for bl.a. nettsider, opplæring og tilgjengelighet.
  11. Acapelabox: Acapela Group har skybasert tekst til tale-API (Acapelabox) med flere språk og stemmer for ulike bransjer.

FAQ

Google har ulike nivåer av stemmer og nesten alle har en gratiskvote. Standardstemmen er for eksempel gratis opptil 1 million byte. Etter det koster det $16 per million byte. Så ja, det kan brukes gratis med noen begrensninger.

Lag en konto på https://cloud.google.com/text-to-speech/ og følg stegene der. Jeg har også beskrevet prosessen over.

Logg inn på Google Cloud-kontoen, opprett et prosjekt og generer deretter en API-nøkkel i prosjektet.

URL-en for Google text to speech API er https://cloud.google.com/text-to-speech/

Det er egentlig ingen generell gratis prøveperiode for Google Cloud. Hver tjeneste har egne vilkår og gratisnivåer.

Nei. Google Cloud tekst til tale-API må ha internettforbindelse.

Autentisering til Google Cloud-tjenester, inkludert Text-to-Speech API, kan gjøres med API-nøkler, OAuth 2.0 eller tjenestekontoer. Metoden avgjøres av bruksområde og app-type.

Jeg gir 5 stjerner. Det er brukervennlig, søkefunksjonen er super, prisene er gode, og totalpakken er veldig bra.

Google Text-to-Speech API har klientbiblioteker for flere språk, inkl. Python. Den støtter også REST API og fungerer med språk som kan sende HTTP-forespørsler.

Du integrerer Google Text-to-Speech API i en Android-app via TextToSpeech-klassen og API-kall. Se Androids offisielle dokumentasjon for detaljer.

Bruk Google Text-to-Speech API i en JavaScript-app ved å sende HTTP-forespørsler til API-endepunktet. Lag riktig forespørsel, og håndter svaret i JavaScript. Se offisiell dokumentasjon for detaljer.

Få tilgang til Speechifys mest populære stemmer via API – raskt, skalerbart og utviklervennlig

Få API-tilgang
api access banner

Del denne artikkelen

Cliff Weitzman

Cliff Weitzman

Administrerende direktør og grunnlegger av Speechify

Cliff Weitzman er en forkjemper for dysleksi og administrerende direktør og grunnlegger av Speechify — verdens mest populære tekst-til-tale-app, med over 100 000 femstjerners anmeldelser og som har toppet App Store-kategorien Nyheter og magasiner. I 2017 kom Weitzman på Forbes' «30 under 30»-liste for sitt arbeid med å gjøre internett mer tilgjengelig for personer med lærevansker. Cliff Weitzman har blant annet vært omtalt i EdSurge, Inc., PCMag, Entrepreneur og Mashable.

speechify logo

Om Speechify

#1 tekst-til-tale-leser

Speechify er verdens ledende tekst-til-tale-plattform, med over 50 millioner brukere og mer enn 500 000 femstjerners vurderinger på sine tekst-til-tale-iOS-, Android-, Chrome-utvidelse-, webapp- og Mac-desktop-apper. I 2025 ga Apple Speechify den prestisjetunge Apple Design AwardWWDC, og kalte det «en kritisk ressurs som hjelper folk å leve livene sine». Speechify tilbyr over 1 000 naturtro stemmer på mer enn 60 språk, og brukes i nærmere 200 land. Kjendisstemmer inkluderer Snoop Dogg og Gwyneth Paltrow. For skapere og bedrifter gir Speechify Studio avanserte verktøy, inkludert AI voice generator, AI-stemmekloning, AI-dubbing og AI-stemmebytter. Speechify driver også ledende produkter med sitt høykvalitets, kostnadseffektive tekst-til-tale-API. Omtalt i The Wall Street Journal, CNBC, Forbes, TechCrunch og andre store nyhetskanaler, er Speechify verdens største tekst-til-tale-leverandør. Besøk speechify.com/news, speechify.com/blog og speechify.com/press for å lære mer.