L’Intelligenza Artificiale generativa ha fatto molta strada. Il text to speech è un’idea già in uso da anni. Ci sono molti aspetti da chiarire e analizzerò l’argomento da ogni punto di vista. Che tu sia un principiante o un esperto, questa guida ti darà una panoramica sulla Text to Speech API di Google.
Prima di affrontare l’argomento, fissiamo alcune basi. Definiamo i termini principali per costruire una buona comprensione della materia.
Distinguiamo le due tecnologie: text to speech e API, e vediamo qual è il ruolo di Google Cloud.
Nota dell’editore: Cerchi una delle migliori API text to speech? Scopri la documentatissima e intuitiva API text to speech di Speechify.
Text to Speech
Ho scritto molto su questo tema, puoi leggere il mio articolo su cosa è il text to speech e approfondire la sintesi vocale. Sono spiegazioni più dettagliate che puoi saltare per ora; qui le riassumo brevemente.
Il Text to Speech si basa sulla sintesi vocale per trasformare le parole in parlato generato dall’IA. Le applicazioni sono tante: aiutare chi ha difficoltà di lettura (dislessia, problemi visivi) o chi cerca di ottimizzare l’efficienza.
API
API significa Application Programming Interface, cioè un ponte tra due applicazioni. Se sviluppi un’app con contenuti audio e vuoi il text to speech, puoi crearlo tu stesso oppure collegarti a una API text to speech già esistente.
Così puoi concentrarti sulla tua app e affidarti a un’API di terze parti per aggiungere la sintesi vocale ai tuoi testi.
Google Cloud API
Qui entra in gioco Google Cloud. Google offre una solida text to speech API con vari modelli di prezzo. Qualunque sviluppatore che desideri integrare questa funzionalità nelle proprie app può sfruttare le funzionalità TTS (acronimo di text to speech) di Google.
Puoi trovare la guida rapida su Google Cloud Console https://cloud.google.com/. Qui trovi tutorial, account di servizio, voci Wavenet e altro.
Google Cloud è una piattaforma cloud di Google che offre numerosi servizi modulari. Puoi scegliere quanti e quali servizi usare. Serve solo creare le chiavi di accesso per autenticare ogni API — il “ponte”. La maggior parte dei servizi è a pagamento, anche se esistono quote gratuite.
Google ha acquistato DeepMind nel 2014 per la sua tecnologia di text to speech e le reti neurali. DeepMind ora è parte di Google: se lo incontri, si parla sempre dell’attuale Google DeepMind.
Ora che abbiamo una solida base, approfondiamo la Google Cloud Text to Speech API.
Funzionalità Google Text to Speech API
Google è un leader tecnologico mondiale, senza dubbio. La TTS API offre funzionalità di altissimo livello in costante evoluzione.
Voce ad alta fedeltà
Le voci text to speech di Google sono tra le migliori sul mercato: suonano molto umane, con un’intonazione naturale. Chi riuscirà a imitare meglio la voce umana vincerà questa sfida.
Scelta delle voci
Google offre la più ampia selezione di voci: il tuo progetto non dovrà suonare come tutti gli altri o — peggio — come quelli della concorrenza.
Crea la tua voce
Qui entriamo nella clone vocale. Puoi creare una voce personalizzata registrando te stesso o qualcun altro (con permesso), e usare quella voce per leggere i tuoi testi.
Voci neurali
Le voci neurali sono le più avanzate tra quelle disponibili. Inoltre è possibile internazionalizzarle per raggiungere utenti in tutto il mondo.
Voci studio
Le voci studio sono il top di gamma e suonano professionali, come se fossero state registrate in modo tradizionale.
Regolazione voce
Scegli una voce e regola velocità, tono e altri parametri per personalizzare il timbro.
Quanto costa Google Text to Speech API?
Il costo dipende dalla qualità della voce e dalla lunghezza del testo. Più naturale vuoi la voce, maggiore il costo, ma comunque molto basso rispetto alla qualità. Anche le voci top hanno prezzi abbordabili.
| Tipo voce | Gratis al mese | Dopo uso gratuito |
| Voci Neural2 | 0 - 1 milione byte | 16$ per 1 milione byte |
| Voci Polyglot | 0 - 1 milione byte | 16$ per 1 milione byte |
| Voci Studio | 0 - 100.000 byte | 160$ per 1 milione byte |
| Voci Standard | 0 - 4 milioni caratteri | 4$ per 1 milione caratteri |
| Voci Wavenet | 0 - 1 milione caratteri | 16$ per 1 milione caratteri |
Differenza tra caratteri e byte
Come vedi, il prezzo cambia molto a seconda della qualità della voce. L’audioencoding e la potenza richiesta variano per ciascun livello. Per le voci standard, il costo è più basso ed è calcolato sui caratteri.
Se il tuo progetto ha 4 milioni di caratteri, occorrono 16$ per convertirli in parlato usando le voci standard.
Le Voci Studio richiedono più risorse di calcolo e si pagano a byte. In alcune lingue, come il giapponese, un carattere può valere più byte.
Per una stima accurata, scegli la lingua e valuta la media di byte per carattere secondo il tuo progetto.
Come configurare il tuo progetto Google Cloud Platform Text to Speech API?
- Crea un account Google Cloud o accedi qui
- Crea un nuovo progetto e assegnagli un nome
- Aggiungi un metodo di pagamento. Paghi solo quello che usi.
- Scegli il progetto e associalo a un account di fatturazione.
- Attiva l’API Text-to-Speech. Cerca “speech” nella barra in alto della pagina.
- Dai risultati seleziona Cloud Text-to-Speech API
- Configura l’autenticazione per il tuo ambiente di sviluppo. Segui le istruzioni fornite nella documentazione.
Puoi anche provare Text-to-Speech senza collegarla a un progetto:
- Scegli TRY THIS API.
- Per abilitarla sul tuo progetto, clicca ENABLE.
Consulta la Documentazione Google Cloud per altro aiuto.
Come disattivare la Text to Speech API
Per disattivarla, vai sulla dashboard Google Cloud Platform e premi “Vai a panoramica delle API” nella sezione API. Trova la Text-to-Speech API, cliccaci sopra e seleziona “DISABLE API” in alto.
Inizia con Google Text to Speech API
Ora che hai configurato il progetto, puoi partire da riga di comando.
gcloud initCrea l’autenticazione locale
gcloud auth application-default loginOra installa la libreria client. In esempio qui con Node.js
npm install --save @google-cloud/text-to-speechGoogle Cloud Text to Speech API supporta queste lingue:
- Go
- Java
- Node.js
- C++
- C#
- PHP
- Python
- Ruby
- TypeScript
- Terraform
- YAML
Come funziona Google Cloud API?
Si parte da una semplice chiamata API. Invi il testo, lo ricevi come file audio. Puoi scegliere voce, lingua e altro; la API text to speech ti restituisce l’audio.
Trovi come installare e usare le librerie client per text to speech qui. Gli esempi sono per Node.js, ma puoi usare Python, PHP o altri linguaggi.
const textToSpeech = require('@google-cloud/text-to-speech');
const fs = require('fs');
const util = require('util');
const client = new textToSpeech.TextToSpeechClient();
/**
* TODO(developer): Uncomment the following lines before running the sample.
*/
// const text = 'Text to synthesize, eg. hello';
// const outputFile = 'Local path to save audio file to, e.g. output.mp3';
const request = {
input: {text: text},
voice: {languageCode: 'en-US', ssmlGender: 'FEMALE'},
audioConfig: {audioEncoding: 'MP3'},
};
const [response] = await client.synthesizeSpeech(request);
const writeFile = util.promisify(fs.writeFile);
await writeFile(outputFile, response.audioContent, 'binary');
console.log(`Audio content written to file: ${outputFile}`);Tutto qui! Hai configurato Google Cloud Text to Speech API e inviato la tua prima richiesta. Ricevi file in diversi formati: OGG o MP3.
Come usare Google Text to Speech API?
Google Text to Speech (TTS) API è versatile e adatta a tanti ambiti. Ecco alcuni casi d’uso comuni:
- Text to Speech per utenti ipovedenti: Implementare il TTS nelle app per trasformare il testo in parlato, rendendo i contenuti digitali accessibili a persone ipovedenti.
- Sistemi telefonici automatici: Usare TTS per prompt e risposte naturali nei sistemi IVR del servizio clienti.
- Voiceover per contenuti multimediali: Generare voiceover realistici per video, podcast o altro per migliorare l’esperienza utente.
- Text to Speech per contenuti tradotti: Convertire testi tradotti in parlato per il language learning o la fruizione di contenuti in più lingue.
- Supporto lettura per dislessici: TTS per aiutare chi ha dislessia o difficoltà di lettura.
- Navigazione vocale nelle applicazioni: TTS nelle app di navigazione per indicazioni vocali o informazioni geo-localizzate.
- Text to Speech per didattica: Trasformare contenuti educativi in parlato per l’e-learning.
- Sintesi vocale per app di produttività: Integrazione TTS in app per prendere appunti o gestire attività.
- Voce naturale per assistenti virtuali: TTS naturale nei voice assistant per interazioni più fluide.
- Avvisi sonori e notifiche: TTS per notifiche o aggiornamenti vocali nei dispositivi IoT.
Migliori alternative a Google Cloud TTS API
Fino a gennaio 2022, esistono varie alternative alla Google Text to Speech API. Le caratteristiche e la popolarità potrebbero essere cambiate nel frattempo. Ecco alcune opzioni note:
- Speechify Text to Speech API: Speechify Text to Speech API offre oltre 1.000 voci realistiche e emotive AI voices in 60+ lingue e dialetti. Prenota oggi il tuo posto.
- Amazon Polly: Offerta AWS, Polly fornisce voci naturali in varie lingue e si integra bene con altri servizi AWS.
- Microsoft Azure Speech Service: Azure Speech Service include il text to speech e supporta molte applicazioni, dagli assistenti vocali alla navigazione.
- IBM Watson Text to Speech: IBM Watson consente agli sviluppatori di convertire testo scritto in parlato usando diverse voci naturali.
- Nuance Communications: Nuance offre varie soluzioni di riconoscimento vocale, compreso il text to speech, per sanità, automotive e customer service.
- CereProc: CereProc è un’azienda text to speech che offre voci sintetiche di alta qualità per accessibilità, intrattenimento e comunicazione.
- iSpeech: iSpeech offre servizi cloud text to speech con svariate lingue e voci, ideale per app mobile e siti web.
- ResponsiveVoice: ResponsiveVoice offre una API text to speech semplice e conveniente con supporto multilingua per web app.
- Neospeech: Neospeech propone soluzioni text to speech con voci naturali usate in e-learning e intrattenimento.
- ReadSpeaker: ReadSpeaker offre text to speech online e offline per siti, e-learning e accessibilità.
- Acapelabox: Acapela Group propone una API text to speech cloud con molte lingue per varie industrie.
FAQ
Google offre vari livelli di voce e ognuno ha un limite gratis. Per esempio, le voci standard sono gratuite fino al primo milione di byte. Oltre, costano 16$ per milione di byte. Quindi sì, c’è una fascia gratuita per caratteri o byte limitati.
Crea un account su https://cloud.google.com/text-to-speech/ e segui le istruzioni. La procedura è spiegata anche nel blog sopra.
Accedi a Google Cloud, crea un progetto e genera la tua chiave API direttamente da lì.
L’URL della text to speech API di Google è https://cloud.google.com/text-to-speech/
Non esiste una prova gratuita unica. Ogni servizio Google Cloud ha le proprie regole e livelli gratis.
No. Serve la connessione a internet per usare Google Cloud Text to Speech API.
L’autenticazione ai servizi Google Cloud (incluso Text to Speech API) può avvenire con API keys, OAuth 2.0 o account di servizio. Dipende dal caso d’uso e dall’applicazione.
La valuto 5 stelle. È facile da usare, la ricerca è ottima, i prezzi sono onesti: davvero un gran prodotto.
Google Text to Speech API fornisce librerie client per vari linguaggi, incluso Python. Supporta anche richieste RESTful, quindi è compatibile con tutti i linguaggi che possono inviare richieste HTTP.
Per integrare Google Text to Speech API in Android usa la classe TextToSpeech e fai le chiamate API. Trovi i dettagli nella documentazione ufficiale Android.
Per implementare Google Text to Speech API in JavaScript invia richieste HTTP all’endpoint API. Prepara la richiesta e gestisci la risposta nel codice. Segui la documentazione ufficiale per i dettagli.

