1. Home
  2. API
  3. Tutto quello che c'è da sapere su Google Cloud Text to Speech API
Updated on API

Tutto quello che c'è da sapere su Google Cloud Text to Speech API

Cliff Weitzman

Cliff Weitzman

CEO e fondatore di Speechify

L'API di Speechify offre 300 ms di latenza, voci naturali e oltre 50 lingue

apple logoApple Design Award 2025
Oltre 50M di utenti

L’Intelligenza Artificiale generativa ha fatto molta strada. Il text to speech è un’idea già in uso da anni. Ci sono molti aspetti da chiarire e analizzerò l’argomento da ogni punto di vista. Che tu sia un principiante o un esperto, questa guida ti darà una panoramica sulla Text to Speech API di Google.

Prima di affrontare l’argomento, fissiamo alcune basi. Definiamo i termini principali per costruire una buona comprensione della materia.

Distinguiamo le due tecnologie: text to speech e API, e vediamo qual è il ruolo di Google Cloud.

Nota dell’editore: Cerchi una delle migliori API text to speech? Scopri la documentatissima e intuitiva API text to speech di Speechify.

Text to Speech

Ho scritto molto su questo tema, puoi leggere il mio articolo su cosa è il text to speech e approfondire la sintesi vocale. Sono spiegazioni più dettagliate che puoi saltare per ora; qui le riassumo brevemente.

Il Text to Speech si basa sulla sintesi vocale per trasformare le parole in parlato generato dall’IA. Le applicazioni sono tante: aiutare chi ha difficoltà di lettura (dislessia, problemi visivi) o chi cerca di ottimizzare l’efficienza.

API

API significa Application Programming Interface, cioè un ponte tra due applicazioni. Se sviluppi un’app con contenuti audio e vuoi il text to speech, puoi crearlo tu stesso oppure collegarti a una API text to speech già esistente.

Così puoi concentrarti sulla tua app e affidarti a un’API di terze parti per aggiungere la sintesi vocale ai tuoi testi.

Google Cloud API

Qui entra in gioco Google Cloud. Google offre una solida text to speech API con vari modelli di prezzo. Qualunque sviluppatore che desideri integrare questa funzionalità nelle proprie app può sfruttare le funzionalità TTS (acronimo di text to speech) di Google.

Puoi trovare la guida rapida su Google Cloud Console https://cloud.google.com/. Qui trovi tutorial, account di servizio, voci Wavenet e altro.

Google Cloud è una piattaforma cloud di Google che offre numerosi servizi modulari. Puoi scegliere quanti e quali servizi usare. Serve solo creare le chiavi di accesso per autenticare ogni API — il “ponte”. La maggior parte dei servizi è a pagamento, anche se esistono quote gratuite.

Google ha acquistato DeepMind nel 2014 per la sua tecnologia di text to speech e le reti neurali. DeepMind ora è parte di Google: se lo incontri, si parla sempre dell’attuale Google DeepMind.

Ora che abbiamo una solida base, approfondiamo la Google Cloud Text to Speech API.

Funzionalità Google Text to Speech API

Google è un leader tecnologico mondiale, senza dubbio. La TTS API offre funzionalità di altissimo livello in costante evoluzione.

Voce ad alta fedeltà

Le voci text to speech di Google sono tra le migliori sul mercato: suonano molto umane, con un’intonazione naturale. Chi riuscirà a imitare meglio la voce umana vincerà questa sfida.

Scelta delle voci

Google offre la più ampia selezione di voci: il tuo progetto non dovrà suonare come tutti gli altri o — peggio — come quelli della concorrenza.

Crea la tua voce

Qui entriamo nella clone vocale. Puoi creare una voce personalizzata registrando te stesso o qualcun altro (con permesso), e usare quella voce per leggere i tuoi testi.

Voci neurali

Le voci neurali sono le più avanzate tra quelle disponibili. Inoltre è possibile internazionalizzarle per raggiungere utenti in tutto il mondo.

Voci studio

Le voci studio sono il top di gamma e suonano professionali, come se fossero state registrate in modo tradizionale.

Regolazione voce

Scegli una voce e regola velocità, tono e altri parametri per personalizzare il timbro.

Quanto costa Google Text to Speech API?

Il costo dipende dalla qualità della voce e dalla lunghezza del testo. Più naturale vuoi la voce, maggiore il costo, ma comunque molto basso rispetto alla qualità. Anche le voci top hanno prezzi abbordabili.

Tipo voceGratis al meseDopo uso gratuito
Voci Neural20 - 1 milione byte16$ per 1 milione byte
Voci Polyglot0 - 1 milione byte16$ per 1 milione byte
Voci Studio0 - 100.000 byte160$ per 1 milione byte
Voci Standard0 - 4 milioni caratteri4$ per 1 milione caratteri
Voci Wavenet0 - 1 milione caratteri16$ per 1 milione caratteri

Differenza tra caratteri e byte

Come vedi, il prezzo cambia molto a seconda della qualità della voce. L’audioencoding e la potenza richiesta variano per ciascun livello. Per le voci standard, il costo è più basso ed è calcolato sui caratteri.

Se il tuo progetto ha 4 milioni di caratteri, occorrono 16$ per convertirli in parlato usando le voci standard.

Le Voci Studio richiedono più risorse di calcolo e si pagano a byte. In alcune lingue, come il giapponese, un carattere può valere più byte.

Per una stima accurata, scegli la lingua e valuta la media di byte per carattere secondo il tuo progetto.

Come configurare il tuo progetto Google Cloud Platform Text to Speech API?

  1. Crea un account Google Cloud o accedi qui
  2. Crea un nuovo progetto e assegnagli un nome
  3. Aggiungi un metodo di pagamento. Paghi solo quello che usi.
  4. Scegli il progetto e associalo a un account di fatturazione.
  5. Attiva l’API Text-to-Speech. Cerca “speech” nella barra in alto della pagina.
  6. Dai risultati seleziona Cloud Text-to-Speech API
  7. Configura l’autenticazione per il tuo ambiente di sviluppo. Segui le istruzioni fornite nella documentazione.

Puoi anche provare Text-to-Speech senza collegarla a un progetto:

  1. Scegli TRY THIS API.
  2. Per abilitarla sul tuo progetto, clicca ENABLE.

Consulta la Documentazione Google Cloud per altro aiuto.

Come disattivare la Text to Speech API

Per disattivarla, vai sulla dashboard Google Cloud Platform e premi “Vai a panoramica delle API” nella sezione API. Trova la Text-to-Speech API, cliccaci sopra e seleziona “DISABLE API” in alto.

Inizia con Google Text to Speech API

Ora che hai configurato il progetto, puoi partire da riga di comando.

gcloud init

Crea l’autenticazione locale

gcloud auth application-default login

Ora installa la libreria client. In esempio qui con Node.js

npm install --save @google-cloud/text-to-speech

Google Cloud Text to Speech API supporta queste lingue:

  1. Go
  2. Java
  3. Node.js
  4. C++
  5. C#
  6. PHP
  7. Python
  8. Ruby
  9. TypeScript
  10. Terraform
  11. YAML

Come funziona Google Cloud API?

Si parte da una semplice chiamata API. Invi il testo, lo ricevi come file audio. Puoi scegliere voce, lingua e altro; la API text to speech ti restituisce l’audio.

Trovi come installare e usare le librerie client per text to speech qui. Gli esempi sono per Node.js, ma puoi usare Python, PHP o altri linguaggi.

const textToSpeech = require('@google-cloud/text-to-speech');
const fs = require('fs');
const util = require('util');

const client = new textToSpeech.TextToSpeechClient();

/**
 * TODO(developer): Uncomment the following lines before running the sample.
 */
// const text = 'Text to synthesize, eg. hello';
// const outputFile = 'Local path to save audio file to, e.g. output.mp3';

const request = {
  input: {text: text},
  voice: {languageCode: 'en-US', ssmlGender: 'FEMALE'},
  audioConfig: {audioEncoding: 'MP3'},
};
const [response] = await client.synthesizeSpeech(request);
const writeFile = util.promisify(fs.writeFile);
await writeFile(outputFile, response.audioContent, 'binary');
console.log(`Audio content written to file: ${outputFile}`);

Tutto qui! Hai configurato Google Cloud Text to Speech API e inviato la tua prima richiesta. Ricevi file in diversi formati: OGG o MP3.

Come usare Google Text to Speech API?

Google Text to Speech (TTS) API è versatile e adatta a tanti ambiti. Ecco alcuni casi d’uso comuni:

  1. Text to Speech per utenti ipovedenti: Implementare il TTS nelle app per trasformare il testo in parlato, rendendo i contenuti digitali accessibili a persone ipovedenti.
  2. Sistemi telefonici automatici: Usare TTS per prompt e risposte naturali nei sistemi IVR del servizio clienti.
  3. Voiceover per contenuti multimediali: Generare voiceover realistici per video, podcast o altro per migliorare l’esperienza utente.
  4. Text to Speech per contenuti tradotti: Convertire testi tradotti in parlato per il language learning o la fruizione di contenuti in più lingue.
  5. Supporto lettura per dislessici: TTS per aiutare chi ha dislessia o difficoltà di lettura.
  6. Navigazione vocale nelle applicazioni: TTS nelle app di navigazione per indicazioni vocali o informazioni geo-localizzate.
  7. Text to Speech per didattica: Trasformare contenuti educativi in parlato per l’e-learning.
  8. Sintesi vocale per app di produttività: Integrazione TTS in app per prendere appunti o gestire attività.
  9. Voce naturale per assistenti virtuali: TTS naturale nei voice assistant per interazioni più fluide.
  10. Avvisi sonori e notifiche: TTS per notifiche o aggiornamenti vocali nei dispositivi IoT.

Migliori alternative a Google Cloud TTS API

Fino a gennaio 2022, esistono varie alternative alla Google Text to Speech API. Le caratteristiche e la popolarità potrebbero essere cambiate nel frattempo. Ecco alcune opzioni note:

  1. Speechify Text to Speech API: Speechify Text to Speech API offre oltre 1.000 voci realistiche e emotive AI voices in 60+ lingue e dialetti. Prenota oggi il tuo posto.
  2. Amazon Polly: Offerta AWS, Polly fornisce voci naturali in varie lingue e si integra bene con altri servizi AWS.
  3. Microsoft Azure Speech Service: Azure Speech Service include il text to speech e supporta molte applicazioni, dagli assistenti vocali alla navigazione.
  4. IBM Watson Text to Speech: IBM Watson consente agli sviluppatori di convertire testo scritto in parlato usando diverse voci naturali.
  5. Nuance Communications: Nuance offre varie soluzioni di riconoscimento vocale, compreso il text to speech, per sanità, automotive e customer service.
  6. CereProc: CereProc è un’azienda text to speech che offre voci sintetiche di alta qualità per accessibilità, intrattenimento e comunicazione.
  7. iSpeech: iSpeech offre servizi cloud text to speech con svariate lingue e voci, ideale per app mobile e siti web.
  8. ResponsiveVoice: ResponsiveVoice offre una API text to speech semplice e conveniente con supporto multilingua per web app.
  9. Neospeech: Neospeech propone soluzioni text to speech con voci naturali usate in e-learning e intrattenimento.
  10. ReadSpeaker: ReadSpeaker offre text to speech online e offline per siti, e-learning e accessibilità.
  11. Acapelabox: Acapela Group propone una API text to speech cloud con molte lingue per varie industrie.

FAQ

Google offre vari livelli di voce e ognuno ha un limite gratis. Per esempio, le voci standard sono gratuite fino al primo milione di byte. Oltre, costano 16$ per milione di byte. Quindi sì, c’è una fascia gratuita per caratteri o byte limitati.

Crea un account su https://cloud.google.com/text-to-speech/ e segui le istruzioni. La procedura è spiegata anche nel blog sopra.

Accedi a Google Cloud, crea un progetto e genera la tua chiave API direttamente da lì.

L’URL della text to speech API di Google è https://cloud.google.com/text-to-speech/

Non esiste una prova gratuita unica. Ogni servizio Google Cloud ha le proprie regole e livelli gratis.

No. Serve la connessione a internet per usare Google Cloud Text to Speech API.

L’autenticazione ai servizi Google Cloud (incluso Text to Speech API) può avvenire con API keys, OAuth 2.0 o account di servizio. Dipende dal caso d’uso e dall’applicazione.

La valuto 5 stelle. È facile da usare, la ricerca è ottima, i prezzi sono onesti: davvero un gran prodotto.

Google Text to Speech API fornisce librerie client per vari linguaggi, incluso Python. Supporta anche richieste RESTful, quindi è compatibile con tutti i linguaggi che possono inviare richieste HTTP.

Per integrare Google Text to Speech API in Android usa la classe TextToSpeech e fai le chiamate API. Trovi i dettagli nella documentazione ufficiale Android.

Per implementare Google Text to Speech API in JavaScript invia richieste HTTP all’endpoint API. Prepara la richiesta e gestisci la risposta nel codice. Segui la documentazione ufficiale per i dettagli.

Accedi alle voci più amate di Speechify tramite API: veloce, scalabile e perfetta per gli sviluppatori

Richiedi accesso API
api access banner

Condividi questo articolo

Cliff Weitzman

Cliff Weitzman

CEO e fondatore di Speechify

Cliff Weitzman è un sostenitore delle persone con dislessia e CEO e fondatore di Speechify, la app di sintesi vocale leader a livello mondiale, con oltre 100.000 recensioni a 5 stelle e prima in classifica sull’App Store nella categoria News & Magazines. Nel 2017 Weitzman è stato inserito nella lista Forbes 30 Under 30 per il suo lavoro volto a rendere Internet più accessibile alle persone con disturbi dell’apprendimento. Cliff Weitzman è stato menzionato da testate come EdSurge, Inc., PC Mag, Entrepreneur e Mashable, tra le altre pubblicazioni di rilievo.

speechify logo

Informazioni su Speechify

Il lettore di sintesi vocale n.1

Speechify è la piattaforma di sintesi vocale leader al mondo, scelta da oltre 50 milioni di utenti e sostenuta da più di 500.000 recensioni a cinque stelle delle sue app di sintesi vocale disponibili per iOS, Android, estensione Chrome, web app e app desktop Mac. Nel 2025, Apple ha premiato Speechify con il prestigioso Apple Design Award al WWDC, definendolo “una risorsa essenziale che aiuta le persone a vivere meglio la propria vita”. Speechify offre più di 1.000 voci naturali in oltre 60 lingue ed è utilizzato in quasi 200 paesi. Tra le voci celebri ci sono Snoop Dogg e Gwyneth Paltrow. Per creatori e aziende, Speechify Studio offre strumenti avanzati tra cui l'AI Voice Generator, la clonazione vocale AI, il doppiaggio AI e il cambia voce AI. Speechify alimenta anche prodotti leader con la sua API di sintesi vocale di alta qualità e dal prezzo conveniente text to speech API. Citato su The Wall Street Journal, CNBC, Forbes, TechCrunch e molte altre importanti testate giornalistiche, Speechify è il principale fornitore di sintesi vocale al mondo. Visita speechify.com/news, speechify.com/blog e speechify.com/press per saperne di più.