生成式 AI 和人工智能已经取得了巨大进步。 文字转语音 属于较早提出的技术,已经发展多年。这个领域内容很多,接下来我会从多个角度系统讲清楚。不论你是小白还是老手,相信这篇文章都能帮你全面了解 Google 文字转语音 API。
在深入探讨任何话题前,我们都需要先立好规则。这里先把一些基础概念说清楚,为后文打个底。
我们先搞清楚两块:文字转语音与 API 分别是什么,以及 Google Cloud 在其中扮演什么角色。
编者注:在找业界领先的文字转语音 API?不妨试试 Speechify 功能完善、上手简单的 文字转语音 API。
文字转语音
我之前专门写过不少相关文章,你可以查看 什么是文字转语音 这篇博客,也可以了解 语音合成,帮你更深入地认识这个话题。如果想先略过,我也会用几句话概括一下重点。
文字转语音依托语音合成技术,将文本转成 AI 生成的语音。应用场景非常多,从帮助阅读障碍(如阅读困难、视力受限的人士)到提升效率,都能派上用场。
API
API 即应用程序编程接口,本质上是两个应用之间的“桥梁”。如果你在开发一款带音频内容、需要文字转语音功能的应用,可以自己从头做一套 文字转语音,也可以直接接入现成成熟的 文字转语音 API。
这样你就能把精力放在打造自己的应用上,把文字转语音这块交给第三方 API 来完成,把文本合成为语音。
Google Cloud API
这就是 Google Cloud 发挥作用的地方。谷歌提供了功能很强的文字转语音 API,并配有多种计费方案。开发者如果需要在自研或 Web 应用中集成 文字转语音 功能,只要调用 Google 的 TTS 就行。TTS 是 文字转语音 的英文缩写。
你可以在 Google Cloud 控制台 https://cloud.google.com/找到快速入门、教程,管理服务账号、访问 Wavenet 声音等。
Google Cloud 本身是谷歌推出的云平台,提供种类丰富、灵活组合的服务模块。你可以按需选择单项、打包或全部服务。只要为每个 API 创建访问密钥做身份认证即可。大部分服务是付费的,但有些会提供一定免费额度。
谷歌在 2014 年收购了 DeepMind,用于其 文字转语音 技术和神经网络研发。所以如果你看到 DeepMind,现在其实已经并入谷歌,叫 Google DeepMind,本质上还是同一个团队。
现在有了这些背景知识,我们就可以正式深入 Google Cloud 文字转语音 API。
Google 文字转语音 API 的功能亮点
谷歌是全球科技领军者,这点毋庸置疑。它的 TTS API 也具备世界级水准,并在持续更新迭代。
高保真语音
谷歌的 文字转语音 语音效果在业内名列前茅。声音自然、富有情感,听起来更接近真人。TTS 仍处发展早期,谁的“发声”更自然,谁就更占优势。
丰富语音选择
谷歌拥有极其丰富的语音库,让你的项目音色不再千篇一律,也更容易和竞品拉开差距。
自定义专属声音
这和 声音克隆 技术非常接近。你可以录制自己或他人(在获得授权前提下)的声音,让文本以这条专属音色朗读出来。
神经网络语音
神经网络语音是所有类型里品质最高的一档。它还能很好地做多语言、多地区适配,方便你触达全球用户。
Studio 专业级语音
Studio 语音定位高端专业,听感非常接近传统录音棚录制的效果。
音色调节
你可以选择不同语音,并对语速、音调等参数进行微调,定制出符合项目风格的音色。
Google 文字转语音 API 价格是多少?
价格主要取决于语音质量和文本长度。越接近真人自然语音,价格通常越高。但整体来看依然算亲民,就算是最高等级语音也仍在可接受范围内。
| 语音类型 | 每月免费额度 | 超出免费额度后 |
| Neural2 语音 | 0 至 100 万字节 | $16/100 万字节 |
| Polyglot 语音 | 0 至 100 万字节 | $16/100 万字节 |
| Studio 语音 | 0 至 10 万字节 | $160/100 万字节 |
| 标准语音 | 0 至 400 万字符 | $4/100 万字符 |
| Wavenet 语音 | 0 至 100 万字符 | $16/100 万字符 |
字符与字节有何区别?
从上表可以看出,语音质量不同,价格差别很大。不同等级的文本在转语音时编码和处理方式也不同。比如标准语音按字符计费,单价相对更低。
这意味着,如果你的项目包含 400 万字符,使用标准语音合成大约需要 $16。
而 Studio 语音因为需要更强的处理能力,费用是按字节来算的。比如像日语等语言,一个字符可能就占多个字节。
如果想算得更精确,就要先确认使用的语言,大致掌握每个字符平均对应的字节数,再据此估算。
如何设置 Google Cloud 文字转语音 API 项目?
- 创建 Google Cloud 账号,或 登录此页面
- 新建项目,并为项目命名
- 添加结算方式。只需为实际用量付费。
- 选择你的项目并将其关联到结算账号。
- 启用文字转语音 API。点击页面顶部“搜索产品和资源”,输入 “speech”。
- 在搜索结果中选择 Cloud Text-to-Speech API。
- 为开发环境配置认证。详细步骤请参考官方“设置认证”文档。
你也可以先不绑项目,直接在线体验文字转语音:
- 选择 TRY THIS API 选项。
- 如果需要启用 API,请点击 ENABLE。
更多细节请参阅 Google Cloud 文档。
如何禁用文字转语音 API
如果想停用文字转语音 API,请进入 Google Cloud 控制台仪表盘,在 APIs 区点击“转到 API 概览”,找到 Text-to-Speech API,点进去后再点击页面顶部的 “DISABLE API” 按钮即可。
快速上手 Google 文字转语音 API
项目创建并配置好后,就可以直接用命令行开干。
gcloud init创建本地认证:
gcloud auth application-default login现在可以安装客户端库了。下面以 Node.js 为例。
npm install --save @google-cloud/text-to-speechGoogle Cloud 文字转语音 API 支持这些语言:
- Go
- Java
- Node.js
- C++
- C#
- PHP
- Python
- Ruby
- TypeScript
- Terraform
- YAML
Google Cloud API 如何工作?
你只需发起一次 API 调用,把文本作为参数传进去,就能拿到合成后的语音音频。你可以指定声音、语言等选项,文字转语音 API 会返回对应的语音文件。
文字转语音客户端库的安装与使用方法详见 这里。示例代码主要用 Node.js 演示,也同样支持 Python、PHP 等主流语言。
const textToSpeech = require('@google-cloud/text-to-speech');
const fs = require('fs');
const util = require('util');
const client = new textToSpeech.TextToSpeechClient();
/**
* TODO(developer): Uncomment the following lines before running the sample.
*/
// const text = 'Text to synthesize, eg. hello';
// const outputFile = 'Local path to save audio file to, e.g. output.mp3';
const request = {
input: {text: text},
voice: {languageCode: 'en-US', ssmlGender: 'FEMALE'},
audioConfig: {audioEncoding: 'MP3'},
};
const [response] = await client.synthesizeSpeech(request);
const writeFile = util.promisify(fs.writeFile);
await writeFile(outputFile, response.audioContent, 'binary');
console.log(`Audio content written to file: ${outputFile}`);就这么简单!你已经完成了 Google Cloud 文字转语音 API 的配置,并成功发出了第一条文本转语音请求。生成的文件可以保存为 OGG、MP3 等多种格式。
Google 文字转语音 API 的常见应用场景
Google 文字转语音(TTS)API 能灵活适配各行各业的多种需求,典型场景包括:
- 为视障用户提供文字转语音: 在应用中集成 TTS,可把文本内容朗读出来,帮助 视障 人群无障碍获取数字信息。
- 自动电话系统: 利用 TTS,为客服、自助热线等语音交互系统生成自然的语音提示和回复。
- 媒体内容配音: 为视频、播客等多媒体内容生成自然人声配音,显著提升用户体验。
- 翻译内容语音输出: 将翻译后的文本转为语音,方便语言学习、跨国沟通及多语种内容消费。
- 为阅读障碍用户辅助朗读: 集成 TTS,帮助阅读困难或存在阅读障碍的人群更轻松地获取文本内容。
- 应用内语音导航: 在导航类应用中使用 TTS,实现转弯语音指引等实时语音播报。
- 教育内容文字转语音: 将教育类文本转换为语音,提升在线学习的理解度和参与感。
- 效率应用语音合成: 在记事本、待办等工具中集成 TTS,实现语音播报和信息查询。
- 虚拟助理自然语音: 为语音助手配备自然流畅的 TTS,让对话体验更接近真人沟通。
- 语音提醒与通知: 在物联网设备等场景下,用 TTS 推送语音提醒、通知或状态更新。
Google Cloud TTS API 的优质替代方案
截至 2022 年 1 月,除了 Google 文字转语音 API,还存在不少替代方案。请注意这些服务的热度和能力随时可能变化。下面是几款主流选择:
- Speechify 文字转语音 API: Speechify 文字转语音 API 支持 60 多种语言和地区口音,以及 1000 多种拟真和带 情感 的 AI 人声。 立即预约体验。
- Amazon Polly: 亚马逊云服务(AWS)旗下 Polly,支持多语种、多音色的语音合成,并能与其它 AWS 服务无缝集成。
- Microsoft Azure Speech 服务: 微软 Azure 提供文字转语音及多种语音相关能力,覆盖语音助手、导航等丰富场景。
- IBM Watson 文字转语音: IBM Watson 提供多语种、多发音人的文字转语音解决方案。
- Nuance Communications: Nuance 提供全面的语音和识别方案,包括 文字转语音,广泛应用于医疗、车载和客服等领域。
- CereProc: CereProc 是一家专注 文字转语音 的技术公司,提供高品质合成语音服务,适用于无障碍、娱乐、通信等场景。
- iSpeech: iSpeech 提供基于云的文字转语音服务,支持多语种、多音色,适配移动应用和网站。
- ResponsiveVoice: ResponsiveVoice 是一款简单实惠的 文字转语音 API,支持多种语言,可嵌入到各类 Web 应用。
- Neospeech: Neospeech 主打自然人声的 文字转语音 解决方案,广泛用于在线教育和娱乐。
- ReadSpeaker: ReadSpeaker 可提供在线及本地部署的文字转语音服务,适用于网站、在线课程和无障碍场景。
- Acapelabox: Acapela Group 提供云端 文字转语音 API,支持多语言多音色,覆盖众多行业。
常见问题
谷歌提供多种语音类型,大多数都带一定免费额度。比如标准语音每月前 100 万字节免费,之后每 100 万字节 $16,所以在限定字节或字符范围内可以免费使用。
只需前往 https://cloud.google.com/text-to-speech/ 注册账号,按提示一步步操作即可。本文前面也有更详细的步骤讲解。
登录 Google Cloud,创建一个新项目,就可以为该项目生成文字转语音 API 密钥。
Google 文字转语音 API 的网址是 https://cloud.google.com/text-to-speech/
严格来说,Google Cloud 并没有统一的免费试用期,而是每项服务都有各自的免费额度或优惠规则。
不支持。要使用 Google Cloud 文字转语音 API,必须保持互联网连接。
Google Cloud 服务(包括文字转语音 API)支持多种认证方式,如 API 密钥、OAuth 2.0、服务账号等,具体使用哪一种要视业务场景和应用类型而定。
我会给它打 5 星。上手门槛低,搜索功能强,价格也合理,整体产品体验很不错。
Google 文字转语音 API 提供多种语言的客户端库(例如 Python),也支持 REST API,可以和任何能发 HTTP 请求的语言配合使用。
在 Android 中集成需要通过 TextToSpeech 类来调用相关 API,具体请参阅 Android 官方开发文档。
在 JavaScript 应用中,可以通过发送 HTTP 请求来调用 API 接口,构造请求并处理返回结果,详细说明请查看官方文档。

