Generatieve AI en kunstmatige intelligentie hebben enorme sprongen gemaakt. Tekst-naar-spraak is een vrij oud concept en bestaat al langer. Er valt veel over te vertellen en op te delen, en ik licht alles toe vanuit elk perspectief. Of je nu beginner of expert bent, dit artikel schept helderheid over de Google Tekst-naar-spraak API.
Voor we ergens induiken, moeten we eerst de basis gelijk trekken. Laten we een paar begrippen uitleggen en een fundament leggen om op verder te bouwen.
Hier splitsen we de twee technologieën: tekst-naar-spraak en API's, en bekijken we welke rol Google Cloud speelt.
Redactionele tip: Op zoek naar de beste tekst-naar-spraak API? Bekijk de goed gedocumenteerde en gebruiksvriendelijke tekst-naar-spraak API van Speechify.
Tekst-naar-spraak
Ik heb hier uitgebreid over geschreven. Lees mijn Wat is tekst-naar-spraak blog en verdiep je in spraak-synthese. Die gaan dieper in op het onderwerp, maar je kunt ze nu overslaan, ik vat het kort samen.
Tekst-naar-spraak gebruikt spraak-synthese technologie om tekst om te zetten naar AI-gegenereerde spraak. Toepassingen zijn er volop: van mensen met leesproblemen en slechtziendheid tot iedereen die sneller en efficiënter wil werken.
API
API staat voor Application Programming Interface. Het is een brug tussen twee applicaties. Bouw je een app met audio en heb je tekst-naar-spraak nodig, dan kun je dit zelf ontwikkelen óf koppelen met een bestaande tekst-naar-spraak API, zoals de tekst-naar-spraak API.
Zo kun jij je richten op het bouwen van je app en vertrouw je op de externe API als brug om tekst-naar-spraak toe te voegen.
Google Cloud API
Hier komt Google Cloud in beeld. Google heeft een krachtige tekst-naar-spraak API gebouwd en biedt die aan in verschillende prijssegmenten. Elke ontwikkelaar kan zo makkelijk tekst-naar-spraak integreren in (web)apps dankzij Google’s TTS-functies. TTS is dus kort voor tekst-naar-spraak.
Bekijk de quickstart in de Google Cloud Console https://cloud.google.com/. Je vindt hier handleidingen, beheert je serviceaccount, krijgt toegang tot wavenet-stemmen en meer.
Google Cloud is een cloudplatform van Google met verschillende modulaire diensten. Je kiest zelf welke services je gebruikt. Je hebt toegangssleutels nodig voor de authenticatie per API, oftewel de brug. Vrijwel alle services kosten geld, al is er vaak een gratis limiet.
Google kocht DeepMind in 2014 vanwege hun tekst-naar-spraak technologie en neurale netwerkontwikkeling. Kom je DeepMind tegen, dan is dat nu Google DeepMind en horen ze bij elkaar.
Nu we de basis helder hebben, gaan we dieper in op de Google Cloud Text to Speech API.
Functies van de Google Text to Speech API
Google is wereldwijd leider in tech, dat staat vast. Bij de TTS API vind je topfuncties die continu worden doorontwikkeld.
Hoge geluidskwaliteit
De tekst-naar-spraak stemmen van Google behoren tot de beste in het veld. Ze klinken heel menselijk, met natuurlijke intonatie. TTS is nog volop in ontwikkeling; wie het meest menselijk klinkt, wint de race.
Keuze uit stemmen
Google biedt de grootste keuze in stemmen. Zo hoeft jouw project niet te klinken als dat van anderen of, erger nog, je concurrent.
Maak je eigen stem
Dit raakt aan stemklonen technologie. Je kunt een persoonlijke stem opnemen (met toestemming) en die laten voorlezen.
Neurale stemmen
Neurale stemmen bieden de beste geluidskwaliteit. Deze stemmen zijn ook internationaal inzetbaar voor een wereldwijd publiek.
Studio stemmen
Studio stemmen zijn professioneel en klinken als traditioneel opgenomen stemmen.
Stem afstemmen
Kies een stem en pas snelheid, toonhoogte en meer aan zodat je het geluid helemaal naar wens maakt.
Wat kost de Google Text to Speech API?
De prijs hangt af van de geluidskwaliteit en de lengte van je tekst. Hoe natuurlijker de stem moet klinken, hoe duurder. Al blijven de kosten relatief laag, zelfs bij stemmen van hoge kwaliteit.
| Stemtype | Gratis per maand | Na gratis aantal gebruikt |
| Neural2 stemmen | 0 tot 1 miljoen bytes | $16 per miljoen bytes |
| Polyglot stemmen | 0 tot 1 miljoen bytes | $16 per miljoen bytes |
| Studio stemmen | 0 tot 100.000 bytes | $160 per miljoen bytes |
| Standaard stemmen | 0 tot 4 miljoen tekens | $4 per miljoen tekens |
| Wavenet stemmen | 0 tot 1 miljoen tekens | $16 per miljoen tekens |
Wat is het verschil tussen tekens & bytes?
Zoals je ziet varieert de prijs sterk per stemkwaliteit. De audio-encoding en verwerking verschillen per type. Voor bijvoorbeeld standaardstemmen tel je per teken en liggen de kosten lager.
Dus: bevat je project 4 miljoen tekens, dan kost het $16 om ze om te zetten naar spraak met standaardstemmen.
Studio stemmen vragen meer verwerkingskracht en daarom betaal je per byte. In sommige talen, zoals Japans, kan één teken uit meerdere bytes bestaan.
Voor nauwkeurige prijzen moet je weten in welke taal je werkt en hoeveel bytes een teken gemiddeld bevat, zodat je daarop kunt schatten.
Hoe stel je je Google Cloud Platform Text to Speech API project in?
- Maak een Google Cloud-account aan of log in op deze pagina
- Maak een nieuw project aan en geef het een passende naam
- Voeg een betaalmethode toe. Je betaalt alleen voor daadwerkelijk gebruik.
- Kies je project en koppel het aan een betaalaccount.
- Activeer de Text-to-Speech API. Zoek bovenaan de pagina naar "speech".
- Kies uit de zoekresultaten Cloud Text-to-Speech API
- Stel authenticatie in voor je ontwikkelomgeving. Instructies vind je bij Authenticatie instellen voor Text-to-Speech.
Je kunt Text-to-Speech ook testen zonder het te koppelen aan je project:
- Kies de optie TRY THIS API.
- Wil je Text-to-Speech API gebruiken met je project? Klik dan op INSCHAKELEN.
Bekijk de Google Cloud documentatie voor extra hulp.
Hoe schakel je de Text to Speech API uit?
Om de Text-to-Speech API uit te schakelen, ga je naar je Google Cloud Platform-dashboard en klik je op "Ga naar API-overzicht" in het API-vak. Zoek Text-to-Speech API, klik erop en selecteer "API UITSCHAKELEN" bovenaan de pagina.
Aan de slag met Google Text to Speech API
Nu je project is ingesteld, kun je aan de slag via de command line.
gcloud initRicht lokale authenticatie in
gcloud auth application-default loginNu kun je een clientbibliotheek installeren. In dit voorbeeld gebruiken we Node.js
npm install --save @google-cloud/text-to-speechGoogle Cloud Text to Speech API ondersteunt deze talen:
- Go
- Java
- Node.js
- C++
- C#
- PHP
- Python
- Ruby
- TypeScript
- Terraform
- YAML
Hoe werkt de Google Cloud API?
Het begint met een simpele API-aanroep. Je stuurt je tekst als transcript en krijgt een audiobestand terug. Je kunt specificaties meegeven: kies een stem, taal en meer en dan stuurt de tekst-naar-spraak API je het audiobestand terug.
Leer hoe je de tekst-naar-spraak clientbibliotheken installeert en gebruikt hier. Onze voorbeeldcode is voor Node.js, maar je kunt Python, PHP en meer gebruiken.
const textToSpeech = require('@google-cloud/text-to-speech');
const fs = require('fs');
const util = require('util');
const client = new textToSpeech.TextToSpeechClient();
/**
* TODO(developer): Uncomment the following lines before running the sample.
*/
// const text = 'Text to synthesize, eg. hello';
// const outputFile = 'Local path to save audio file to, e.g. output.mp3';
const request = {
input: {text: text},
voice: {languageCode: 'en-US', ssmlGender: 'FEMALE'},
audioConfig: {audioEncoding: 'MP3'},
};
const [response] = await client.synthesizeSpeech(request);
const writeFile = util.promisify(fs.writeFile);
await writeFile(outputFile, response.audioContent, 'binary');
console.log(`Audio content written to file: ${outputFile}`);En dat is alles. Je hebt Google Cloud Text to Speech API ingesteld en je eerste aanvraag verstuurd. Je krijgt het bestand terug in diverse formaten, van OGG tot MP3.
Zo kun je de Google Text to Speech API gebruiken
De Google Text to Speech (TTS) API is veelzijdig en wordt in verschillende sectoren gebruikt. Veelgebruikte toepassingen zijn:
- Tekst-naar-spraak voor slechtzienden: Maak digitale info toegankelijk voor visueel beperkten via spraak.
- Automatische telefoonsystemen: Gebruik TTS voor natuurlijke keuzemenu’s en antwoorden bij klantenservice.
- Voice-overs voor media: Genereer natuurlijke voice-overs voor video’s, podcasts of multimedia.
- Tekst-naar-spraak voor vertalingen: Lees vertaalde teksten voor taalstudie of internationaal gebruik.
- Voorleeshulp bij dyslexie: Help mensen met dyslexie of leesproblemen om teksten beter te begrijpen.
- Voice-navigatie in apps: Voeg gesproken navigatie en locatie-info toe aan apps.
- Tekst-naar-spraak voor educatie: Maak e-learning toegankelijker door tekst ook als spraak aan te bieden.
- Spraaksynthese voor productiviteit-apps: Voeg spraakhulp toe aan notitie- of agenda-apps.
- Natuurlijke stem voor virtuele assistenten: Laat voice assistants menselijk klinken voor betere interactie.
- Auditieve meldingen en notificaties: Gebruik TTS voor gesproken meldingen op IoT-apparaten.
Beste alternatieven voor Google Cloud TTS API
Tot mijn laatste update in januari 2022 waren er diverse alternatieven voor de Google Text to Speech API. Let op: de populariteit en mogelijkheden kunnen sindsdien veranderd zijn. Hier zijn een paar bekende alternatieven:
- Speechify Text to Speech API: Speechify Text to Speech API biedt meer dan 1.000 natuurlijke en emotionele AI-stemmen in 60+ talen en dialecten. Reserveer je plek vandaag.
- Amazon Polly: Via Amazon Web Services (AWS) biedt Polly natuurlijke spraaksynthese in allerlei talen en stemmen. Integreert goed met AWS-diensten.
- Microsoft Azure Speech Service: Azure Speech bevat Text to Speech en ondersteunt o.a. voice assistants en navigatiesystemen.
- IBM Watson Text to Speech: IBM Watson maakt van geschreven tekst natuurlijke spraak met verschillende stemmen.
- Nuance Communications: Nuance levert spraak- en stemherkenning, o.a. tekst-naar-spraak, voor zorg, auto's en klantenservice.
- CereProc: CereProc is een tekst-naar-spraak bedrijf met hoogwaardige synthetische stemmen voor o.a. toegankelijkheid en entertainment.
- iSpeech: iSpeech biedt cloud-tekst-naar-spraak in meerdere talen en stemmen voor apps en websites.
- ResponsiveVoice: ResponsiveVoice is een simpele, betaalbare tekst-naar-spraak API voor webtoepassingen.
- Neospeech: Neospeech levert tekst-naar-spraak met focus op natuurlijk klinkende stemmen voor e-learning en media.
- ReadSpeaker: ReadSpeaker biedt online en offline tekst-naar-spraak voor websites, e-learning en toegankelijkheid.
- Acapelabox: Acapela Group biedt de cloud tekst-naar-spraak API Acapelabox in meerdere talen en stemmen voor diverse sectoren.
FAQ
Google biedt verschillende stemniveaus en bijna elk niveau heeft een gratis limiet. Bijvoorbeeld: standaardstemmen zijn gratis tot één miljoen bytes. Daarna $16 per miljoen bytes. Je kunt het dus gratis gebruiken met een beperkt aantal tekens of bytes.
Maak simpelweg een account aan op https://cloud.google.com/text-to-speech/ en volg de stappen. Zie ook de instructies in deze blog hierboven.
Log in op je Google Cloud-account en maak een project aan. Daarna kun je een API-sleutel genereren.
De URL voor Google Text to Speech API is https://cloud.google.com/text-to-speech/
Er is technisch gezien geen gratis proefperiode voor Google Cloud. Elke dienst binnen Google Cloud heeft eigen voorwaarden en gratis limieten.
Nee. De Google Cloud Text to Speech API werkt alleen online.
Authenticatie voor Google Cloud-diensten zoals de Text to Speech API gaat via API-sleutels, OAuth 2.0 of serviceaccounts. Welke methode je kiest hangt af van je app en gebruikssituatie.
Ik geef 5 sterren. Eenvoudig in gebruik, zoekfunctie is top en handig. Prijs is fair en het is een uitstekend product.
Google Text to Speech API biedt clientbibliotheken voor diverse talen, onder andere Python. Ook RESTful API-aanroepen zijn mogelijk via alle talen die HTTP-verzoeken kunnen doen.
Integratie in een Android-app doe je via de TextToSpeech-klasse en API-aanroepen. Bekijk de officiële Android-ontwikkelaarsdocumentatie voor details.
Implementeer Google Text to Speech API in een JavaScript-app met HTTP-verzoeken naar het API-endpoint. Bouw de API-aanroep en verwerk het antwoord in je code. Zie de officiële documentatie voor details.

