La IA generativa y la inteligencia artificial han avanzado mucho. Texto a voz es un concepto relativamente antiguo y lleva ya un tiempo existiendo. Hay bastante que explicar y ordenar; lo resumiré y lo veré desde todos los ángulos. Seas principiante o profesional, esto te dará claridad sobre la API de Google Text to Speech.
Antes de entrar en materia, hay que sentar las bases. Definamos algunos términos y armemos el fundamento para avanzar con seguridad.
Separemos aquí las dos tecnologías: texto a voz y APIs, además de qué papel juega Google Cloud.
Nota del editor: ¿Buscas la mejor API de texto a voz? Prueba la API de texto a voz de Speechify, bien documentada y fácil de usar API de texto a voz.
Text to Speech
He escrito mucho sobre este tema; puedes leer mi ¿Qué es texto a voz? en el blog y también adentrarte a fondo en la síntesis de voz para entenderlo mejor. Estos artículos van más profundo, pero puedes brincártelos por ahora. Los resumo en unas frases.
Texto a voz usa la síntesis de voz para convertir texto en habla generada por IA. Sus usos son muchos: ayuda a personas con barreras lectoras como dislexia o baja visión y también a quienes buscan más eficiencia.
API
API significa Interfaz de Programación de Aplicaciones. Es un puente entre dos aplicaciones. Si desarrollas una app con audio que necesita texto a voz, puedes crear la función tú o simplemente conectarte a una API de texto a voz existente.
Concéntrate en construir tu app y usa una API de un tercero como puente para importar la función de texto a voz y sintetizar tu texto.
Google Cloud API
Aquí entra Google Cloud. Google creó una API robusta de texto a voz y la ofrece a desarrolladores bajo distintos esquemas de pago. Cualquier desarrollador que quiera apps personalizadas con texto a voz puede usar las funciones TTS de Google. Sí, TTS es la abreviación de texto a voz.
Consulta la guía rápida en Google Cloud Console https://cloud.google.com/. Ahí tienes tutoriales, administración, acceso a voces wavenet y más.
Google Cloud es una plataforma en la nube de Google con muchos servicios modulares. Puedes usar uno, varios o todos. Solo necesitas crear llaves de acceso para autenticar cada API (el puente). Casi todos los servicios se cobran, aunque hay niveles gratuitos.
Google compró DeepMind en 2014 por su tecnología de texto a voz y avances en redes neuronales. DeepMind ahora es Google DeepMind y son parte de lo mismo.
Ahora que tenemos claro el panorama, vamos a fondo con Google Cloud Text to Speech API.
Funciones de la API Google Text to Speech
Google es un líder mundial en tecnología, no hay duda. En cuanto a la API TTS, tiene funciones de primer nivel que siguen evolucionando.
Voces de alta fidelidad
Las voces de texto a voz de Google son de las mejores. Suenan muy naturales, casi humanas. TTS está en etapas iniciales y quien logre que el audio suene humano se llevará la competencia.
Selección de voces
Google presume la mayor variedad de voces, así que tu proyecto no sonará igual que todos los demás ni como la app de tu competencia.
Crea tu propia voz
Esto roza la clonación de voz. Puedes grabar tu voz (o la de otra persona con permiso) y usarla para leer tus textos en voz alta.
Voces neuronales
Las voces neuronales tienen mejor calidad. También pueden adaptarse a diferentes idiomas para llegar a más público global.
Voces de estudio
Las voces de estudio son las más profesionales: suenan como si fueran grabadas de forma tradicional.
Ajuste de voz
Elige una voz y ajusta velocidad, tono y más para personalizarla a tu gusto.
¿Cuánto cuesta la API Google Text to Speech?
El precio depende de la calidad de voz y la longitud del texto. Cuanto más natural suene, más costará. Aun así, incluso las voces premium son bastante accesibles.
| Tipo de voz | Gratis por mes | Después del uso gratuito |
| Voces Neural2 | 0 a 1 millón bytes | $16 por millón bytes |
| Voces Polyglot | 0 a 1 millón bytes | $16 por millón bytes |
| Voces de estudio | 0 a 100,000 bytes | $160 por millón bytes |
| Voces estándar | 0 a 4 millones caracteres | $4 por millón caracteres |
| Voces Wavenet | 0 a 1 millón caracteres | $16 por millón caracteres |
¿Diferencia entre caracteres y bytes?
Como ves, el precio cambia según la calidad de voz. El procesamiento para convertir texto en habla varía en cada nivel. Por ejemplo, las voces estándar cuestan menos y se cobran por cantidad de caracteres.
Eso significa que si tienes 4 millones de caracteres, pagarías $16 para convertirlos a voz usando voces estándar.
Pero las voces de estudio requieren más procesamiento y se cobran por bytes. Por ejemplo, en japonés, un carácter puede ser varios bytes.
Para obtener un precio preciso debes saber el idioma y cuántos bytes en promedio ocupa cada carácter y calcularlo así.
¿Cómo configurar tu proyecto en Google Cloud Platform Text to Speech API?
- Crea una cuenta en Google Cloud o inicia sesión aquí
- Crea un proyecto y ponle nombre
- Agrega un método de pago. Sólo se cobra lo que usas.
- Elige el proyecto y asígnalo a una cuenta de pago.
- Activa la API Text-to-Speech. Ve a la barra superior y busca "speech".
- De los resultados, elige Cloud Text-to-Speech API
- Configura la autenticación de tu entorno de desarrollo. Consulta "Set up authentication for Text-to-Speech" para instrucciones.
También puedes probar Text-to-Speech sin vincularlo a tu proyecto:
- Elige la opción PROBAR ESTA API.
- Para habilitar la API Text-to-Speech, haz clic en HABILITAR.
Consulta la documentación de Google Cloud para más ayuda.
Cómo desactivar la API Text to Speech
Para desactivar la API Text-to-Speech, ve al panel de Google Cloud Platform y haz clic en "Ir a resumen de APIs" en el recuadro de APIs. Busca Text-to-Speech API, haz clic y luego pulsa el botón "DESACTIVAR API" arriba.
Empieza con Google Text to Speech API
Ya con el proyecto listo, puedes usar la terminal para empezar.
gcloud initCrea autenticación local
gcloud auth application-default loginAhora instala una biblioteca cliente. Por ejemplo, Node.js:
npm install --save @google-cloud/text-to-speechLa API Google Cloud Text to Speech es compatible con estos lenguajes:
- Go
- Java
- Node.js
- C++
- C#
- PHP
- Python
- Ruby
- TypeScript
- Terraform
- YAML
¿Cómo funciona la API Google Cloud?
Todo inicia con una llamada a la API. Envías tu texto y recibes un archivo de audio con tu texto hablado. En la solicitud eliges voz, idioma y otros detalles, la API de texto a voz te regresa el audio.
Puedes aprender cómo instalar y usar las bibliotecas cliente de texto a voz aquí. Nuestros ejemplos son para Node.js, pero también puedes usar Python, PHP o el que prefieras.
const textToSpeech = require('@google-cloud/text-to-speech');
const fs = require('fs');
const util = require('util');
const client = new textToSpeech.TextToSpeechClient();
/**
* TODO(developer): Uncomment the following lines before running the sample.
*/
// const text = 'Text to synthesize, eg. hello';
// const outputFile = 'Local path to save audio file to, e.g. output.mp3';
const request = {
input: {text: text},
voice: {languageCode: 'en-US', ssmlGender: 'FEMALE'},
audioConfig: {audioEncoding: 'MP3'},
};
const [response] = await client.synthesizeSpeech(request);
const writeFile = util.promisify(fs.writeFile);
await writeFile(outputFile, response.audioContent, 'binary');
console.log(`Audio content written to file: ${outputFile}`);Y listo. Configuraste Google Cloud Text to Speech API y mandaste tu primera solicitud de texto a voz. Puedes recibir archivos en distintos formatos: OGG, MP3, etc.
Algunas formas de usar Google Text to Speech API
Google Text to Speech (TTS) API es una solución muy versátil para muchos sectores. Entre los usos más comunes están:
- Texto a voz para usuarios con discapacidad visual: Permite convertir contenido escrito en audio, haciendo accesible la información digital para usuarios con discapacidad visual.
- Sistemas telefónicos automatizados: Usar TTS para mensajes naturales en IVR y atención a clientes.
- Narraciones para medios: Voz automatizada natural para videos, podcasts u otros, mejorando la experiencia del usuario.
- Texto a voz para contenido traducido: Convertir textos traducidos en audio para aprendizaje de idiomas o consumo global en distintos idiomas.
- Asistencia de lectura para dislexia: TTS para ayudar a quien tiene dislexia u otras dificultades lectoras.
- Navegación por voz en apps: Integrar TTS para dar direcciones o info de lugares por voz en apps de navegación.
- Texto a voz en educación: Mejorar e-learning leyendo textos para mayor comprensión y atención.
- Síntesis de voz en apps de productividad: Añadir TTS a herramientas como notas para feedback o lectura de información.
- Voz natural para asistentes virtuales: Darle a los asistentes una voz natural usando TTS para mejorar la interacción.
- Alertas y notificaciones audibles: TTS para avisos de voz o cambios de estado en dispositivos IoT y así mejorar la atención del usuario.
Mejores alternativas a Google Cloud TTS API
Hasta enero 2022, existen varias opciones aparte de la API de texto a voz de Google. Su popularidad y funciones pueden haber cambiado. Algunas alternativas destacadas son:
- Speechify Text to Speech API: Speechify Text to Speech API ofrece más de 1000 voces realistas y emocionales IA en 60+ idiomas y dialectos. Reserva tu lugar hoy.
- Amazon Polly: De AWS, Polly ofrece síntesis de voz natural en varios idiomas y voces. Se integra muy bien con otros servicios de AWS.
- Microsoft Azure Speech Service: Azure Speech Service incluye TTS y soporta diversos usos como asistentes de voz, navegación y más.
- IBM Watson Text to Speech: IBM Watson permite convertir texto en voz natural usando diversas voces.
- Nuance Communications: Nuance brinda soluciones de voz y reconocimiento, incluyendo texto a voz para salud, autos y atención a clientes.
- CereProc: CereProc es una empresa de tecnología de texto a voz que ofrece voces sintéticas de alta calidad para accesibilidad, entretenimiento y comunicación.
- iSpeech: iSpeech brinda TTS basado en la nube para apps, soportando varios idiomas y voces.
- ResponsiveVoice: ResponsiveVoice es una API de texto a voz sencilla y económica con soporte multilenguaje para apps web.
- Neospeech: Neospeech ofrece texto a voz con foco en voces realistas para e-learning y entretenimiento.
- ReadSpeaker: ReadSpeaker da soluciones online y offline de texto a voz en sitios web, e-learning y accesibilidad.
- Acapelabox: Acapela Group ofrece API de texto a voz en la nube, Acapelabox, con soporte multilenguaje y voces para varios sectores.
FAQ
Google ofrece varios niveles de voz y casi cada uno tiene un límite gratis. Por ejemplo, las voces estándar son gratis hasta el primer millón de bytes. Después, cuesta $16 por millón. Sí, puede ser gratis con límites.
Solo crea una cuenta en https://cloud.google.com/text-to-speech/ y sigue los pasos ahí. También detallo el proceso en este blog, líneas arriba.
Consíguela iniciando sesión en Google Cloud, crea un proyecto y genera una llave de API.
La URL para Google Text to Speech API es https://cloud.google.com/text-to-speech/
En sí, no hay un periodo de prueba gratis general para Google Cloud. Cada servicio tiene sus reglas y nivel gratuito propio.
No. La API de texto a voz de Google Cloud requiere conexión a internet.
La autenticación para Google Cloud (incluida Text to Speech API) puede ser por API key, OAuth 2.0 o cuentas de servicio. El método depende del caso de uso y tipo de app.
Le doy 5 estrellas. Es fácil de usar, la búsqueda funciona muy bien y es de lo más utilizado. Los precios son decentes y en general es un gran producto.
La API Google Text to Speech tiene bibliotecas cliente en Python y otros lenguajes. También soporta peticiones REST, así que es compatible con cualquier lenguaje capaz de hacer solicitudes HTTP.
Para integrar Google Text to Speech API en Android usa la clase TextToSpeech y realiza peticiones a la API. Hay instrucciones detalladas en la documentación oficial para desarrolladores Android.
Para implementar la API en JavaScript haz solicitudes HTTP al endpoint correspondiente. El proceso es preparar el request adecuado y manejar la respuesta en tu código JS. Hay más detalles en la documentación oficial.

