A IA generativa evoluiu bastante. Ler texto em voz alta é um conceito mais antigo e já está presente há algum tempo. Tem muito o que explorar, organizar e eu vou explicar de diferentes ângulos. Seja você iniciante ou avançado, este guia vai trazer clareza sobre a API Google Ler texto em voz alta.
Antes de mergulharmos no assunto, precisamos alinhar o básico. Vamos definir alguns termos e construir uma base firme para seguir em frente.
Vamos separar as duas tecnologias aqui: ler texto em voz alta e APIs, além do papel do Google Cloud em tudo isso.
Nota do editor: Procurando a principal API de ler texto em voz alta? Conheça a API super bem documentada e fácil de usar da Speechify API de ler texto em voz alta.
Ler texto em voz alta
Já escrevi bastante sobre esse tema, você pode ler o blog O que é ler texto em voz alta e também sobre síntese de voz para se aprofundar. Eles são mais detalhados, mas vou resumir em poucas frases.
A leitura em voz alta usa a tecnologia chamada síntese de fala para transformar texto em fala gerada por IA. Existem muitos usos, desde ajudar quem tem barreiras de leitura como dislexia e baixa visão até aumentar a produtividade de qualquer pessoa.
API
API significa Interface de Programação de Aplicações. Funciona como uma ponte entre sistemas. Se você desenvolve um app com áudio e precisa de leitura em voz alta, pode criar a função do zero ou conectar a uma API de ler texto em voz alta já pronta.
Assim, você foca no seu app e usa uma API externa como ponte para incluir a funcionalidade de ler em voz alta.
API do Google Cloud
Aqui entra o Google Cloud. O Google criou uma API robusta de leitura em voz alta e a oferece aos desenvolvedores com várias faixas de preço. Quem precisa construir apps com ler texto em voz alta pode usar os recursos TTS do Google. Sim, TTS é a sigla de ler texto em voz alta.
Veja o guia rápido no Google Cloud Console https://cloud.google.com/. Encontre tutoriais, gerencie sua conta de serviço, acesse vozes wavenet e muito mais.
O Google Cloud é a plataforma de nuvem do Google, com um conjunto de serviços modulares. É possível usar cada serviço de forma independente ou combinada, apenas criando chaves de acesso para autenticação em cada API. A maioria é paga, mas algumas possuem limite gratuito.
O Google comprou a DeepMind em 2014, principalmente pela tecnologia de ler texto em voz alta e também pelo trabalho em redes neurais. DeepMind agora é Google DeepMind, tudo junto.
Agora que temos a base, vamos aprofundar na Google Cloud Text to Speech API.
Funcionalidades da API Google Ler Texto em Voz Alta
O Google é referência global em tecnologia. A API TTS traz recursos de alto nível e está sempre evoluindo.
Áudio de Alta Fidelidade
As vozes de ler texto em voz alta do Google estão entre as melhores do setor. São muito naturais, com ótima entonação, e o TTS só tende a melhorar. Quem conseguir chegar mais perto da fala humana vai sair na frente.
Variedade de Vozes
O Google oferece uma das maiores variedades de vozes para que o seu projeto tenha identidade própria, sem ficar igual a dezenas de outros ou aos concorrentes.
Crie sua Própria Voz
Aqui entra a tecnologia de clonagem de voz. Grave você mesmo (ou alguém, com autorização) e a sua nova voz personalizada será usada para ler seus textos em voz alta.
Vozes Neurais
Vozes neurais têm a melhor qualidade dentre todas, e é possível internacionalizá-las para ampliar seu público global.
Vozes Studio
As vozes Studio são ainda mais profissionais, com qualidade de estúdio, como se fossem gravadas de modo tradicional.
Ajuste de Voz
Escolha a voz e ajuste velocidade, tom, entre outros detalhes, para personalizar totalmente a narração.
Quanto custa a Google Ler Texto em Voz Alta API?
O valor depende da qualidade da voz e do tamanho do texto. Quanto mais natural, maior o custo. Ainda assim, até as vozes premium têm preços acessíveis.
| Tipo de voz | Grátis por mês | Após uso gratuito |
| Vozes Neural2 | 0 a 1 milhão de bytes | US$16 por um milhão de bytes |
| Vozes Polyglot | 0 a 1 milhão de bytes | US$16 por um milhão de bytes |
| Vozes Studio | 0 a 100.000 bytes | US$160 por um milhão de bytes |
| Vozes padrão | 0 a 4 milhões de caracteres | US$4 por um milhão de caracteres |
| Vozes Wavenet | 0 a 1 milhão de caracteres | US$16 por um milhão de caracteres |
Qual a diferença entre caracteres & bytes?
Como pode ver, o preço varia bastante de acordo com a qualidade da voz. A forma como o áudio é processado para virar fala muda conforme o tipo. Para vozes padrão, a cobrança é por caracteres.
Se seu projeto tem 4 milhões de caracteres, custaria US$16 para converter tudo em fala usando vozes padrão.
Já nas vozes Studio, o processamento é maior e a cobrança é por bytes. Em alguns idiomas, como japonês, um caractere pode ocupar vários bytes.
Assim, para calcular o valor exato, verifique o idioma e a média de bytes por caractere para fazer o cálculo correto.
Como configurar seu projeto Google Cloud Ler Texto em Voz Alta API?
- Crie uma conta Google Cloud ou faça login aqui
- Crie um novo projeto e dê um nome a ele
- Adicione uma forma de pagamento. Você só paga pelo que usar.
- Escolha o projeto e associe a uma conta de cobrança.
- Ative a API Ler Texto em Voz Alta. Procure "speech" na barra de busca de produtos e recursos, no topo da página.
- Nos resultados, escolha a Cloud Ler Texto em Voz Alta API
- Configure a autenticação do seu ambiente de desenvolvimento. Veja as instruções na documentação da API.
Você também pode testar a API sem vinculá-la ao seu projeto:
- Escolha a opção TRY THIS API.
- Para habilitar a API para seu projeto, clique em ENABLE.
Acesse a Documentação do Google Cloud para mais informações.
Como desativar a API Ler Texto em Voz Alta
Para desativar, acesse o painel do Google Cloud Platform e clique em "Ir para visão geral das APIs" na área de APIs. Ache a API Ler Texto em Voz Alta, clique nela e depois em "DESATIVAR API" no topo da página.
Comece a usar a Google Ler Texto em Voz Alta API
Com o projeto pronto, use o terminal para começar.
gcloud initCrie a autenticação local
gcloud auth application-default loginAgora instale a biblioteca cliente. Neste exemplo, vamos usar Node.js
npm install --save @google-cloud/text-to-speechGoogle Cloud Text to Speech API suporta estes idiomas:
- Go
- Java
- Node.js
- C++
- C#
- PHP
- Python
- Ruby
- TypeScript
- Terraform
- YAML
Como funciona a API Google Cloud?
Tudo começa com uma chamada simples na API. Você envia o texto e recebe de volta um arquivo de áudio gerado. Dá para personalizar: escolher voz, idioma, entre outros ajustes, e então a API de ler texto em voz alta devolve o áudio pronto.
Veja como instalar e usar as bibliotecas de cliente de ler texto em voz alta aqui. Os exemplos são em Node.js, mas também dá para usar Python, PHP ou outra linguagem que você preferir.
const textToSpeech = require('@google-cloud/text-to-speech');
const fs = require('fs');
const util = require('util');
const client = new textToSpeech.TextToSpeechClient();
/**
* TODO(developer): Uncomment the following lines before running the sample.
*/
// const text = 'Text to synthesize, eg. hello';
// const outputFile = 'Local path to save audio file to, e.g. output.mp3';
const request = {
input: {text: text},
voice: {languageCode: 'en-US', ssmlGender: 'FEMALE'},
audioConfig: {audioEncoding: 'MP3'},
};
const [response] = await client.synthesizeSpeech(request);
const writeFile = util.promisify(fs.writeFile);
await writeFile(outputFile, response.audioContent, 'binary');
console.log(`Audio content written to file: ${outputFile}`);E pronto. Você configurou a Google Cloud Ler Texto em Voz Alta API e enviou sua primeira solicitação para gerar áudio. Dá para baixar os arquivos em vários formatos, como OGG ou MP3.
Veja alguns usos da Google Ler Texto em Voz Alta API
A API da Google Ler Texto em Voz Alta (TTS) é versátil e serve para vários setores. Veja aplicações comuns:
- Leitura em Voz Alta para Pessoas com Deficiência Visual: Use TTS para transformar texto em voz e tornar conteúdo digital acessível para pessoas com deficiência visual.
- Sistemas Telefônicos Automáticos: Use TTS para criar prompts e respostas naturais em centrais de atendimento ou hotlines.
- Voz para Mídia e Vídeos: Gere narrações naturais para vídeos, podcasts e conteúdo multimídia.
- Leitura em Voz Alta para Conteúdo Traduzido: Converta texto traduzido em voz para facilitar aprendizado de idiomas ou consumo internacional.
- Ajuda para Usuários com Dislexia: Use TTS para auxiliar pessoas com dislexia ou dificuldades de leitura a consumir conteúdo escrito.
- Navegação por Voz em Aplicativos: Use TTS em apps de navegação para direções por voz ou informações baseadas em localização.
- Ler Texto em Voz Alta para Educação: Turbine o e-learning com conteúdo didático falado, aumentando engajamento e compreensão.
- Síntese de Fala em Apps de Produtividade: Inclua feedback falado em anotações, tarefas e ferramentas de produtividade.
- Voz Natural para Assistentes Virtuais: Ofereça assistentes de voz com TTS natural para melhorar conversas e repassar informações.
- Alertas e Notificações Sonoras: Use TTS para alertas, notificações ou status audíveis em dispositivos IoT, melhorando a experiência.
Melhores alternativas à Google Cloud TTS API
Até janeiro de 2022, existiam várias alternativas à API de Ler Texto em Voz Alta do Google. A popularidade de cada serviço pode mudar, mas estes eram os principais nomes:
- Speechify Text to Speech API: Speechify Text to Speech API oferece mais de 1.000 vozes realistas e emocionais Vozes IA em 60+ idiomas e sotaques. Garanta sua vaga agora.
- Amazon Polly: Da Amazon Web Services (AWS), Polly gera fala natural em vários idiomas e vozes. Integra fácil com outros serviços AWS.
- Microsoft Azure Speech Service: Inclui Ler Texto em Voz Alta para apps, assistentes, navegação e mais.
- IBM Watson Text to Speech: Watson converte texto em fala natural em várias vozes.
- Nuance Communications: Nuance tem soluções de fala e reconhecimento para ler texto em voz alta, usadas em saúde, carros e atendimento ao cliente.
- CereProc: CereProc é uma empresa de ler texto em voz alta que oferece vozes sintéticas de alta qualidade para acessibilidade, entretenimento e comunicação.
- iSpeech: iSpeech tem TTS na nuvem com suporte a múltiplos idiomas e vozes para apps mobile e web.
- ResponsiveVoice: ResponsiveVoice é uma API de ler texto em voz alta simples, barata, com suporte a vários idiomas para aplicações web.
- Neospeech: Neospeech oferece soluções de ler texto em voz alta com foco em vozes naturais para e-learning e mídia.
- ReadSpeaker: ReadSpeaker traz soluções online/offline para sites, e-learning e acessibilidade com API de leitura em voz alta.
- Acapelabox: Acapela Group tem a API Acapelabox multi-idiomas e multi-vozes para empresas de diferentes setores.
FAQ
O Google oferece vários tipos de voz e quase todos têm limite grátis. Exemplo: as vozes padrão são grátis até um milhão de bytes. Depois, US$16 por milhão de bytes. Ou seja, dá para usar grátis até um certo limite.
Basta criar uma conta em https://cloud.google.com/text-to-speech/ e seguir as etapas. Também detalho neste blog, logo acima.
Entre em sua conta Google Cloud e crie um projeto. Depois disso, você pode gerar uma chave de API.
O link da API Google Ler Texto em Voz Alta é https://cloud.google.com/text-to-speech/
Tecnicamente não há um único período de teste grátis. Existem vários serviços no Google Cloud e cada um tem seus próprios termos e limites gratuitos.
Não. A API exige conexão à internet.
A autenticação para os serviços Google Cloud, incluindo Ler Texto em Voz Alta, pode ser feita por API Key, OAuth 2.0 ou contas de serviço. O método depende do tipo de app e do uso.
Dou nota 5 estrelas. É fácil de usar, a busca é ótima, o preço é justo e o produto é excelente no geral.
A API oferece bibliotecas em várias linguagens, incluindo Python. Também aceita chamadas REST, então pode ser usada em qualquer linguagem que faça requisições HTTP.
Integrar Ler Texto em Voz Alta em apps Android envolve usar a classe TextToSpeech e fazer requisições à API. As instruções completas estão na documentação oficial para Android developers.
Para usar no JavaScript, faça requisições HTTP para a API. Monte o request e trate o retorno no código JS. Veja os detalhes na documentação oficial.

