生成式AI和人工智能发展迅猛。 文本转语音并不新鲜,早已广泛应用。这里信息量很大、分类清晰,我会带你逐步拆解、全面解析。不论你是新手还是老鸟,本指南都能帮你吃透Google 文本转语音API。
在深入展开之前,先把基本规则说清楚。我们先定义几个核心术语,为后续内容打好基础。
我们将两项技术拆开讲:文本转语音、本身的API机制,以及Google Cloud在其中扮演的角色。
编辑注:想用行业领先的文本转语音API?不妨试试Speechify文档完善、上手轻松的文本转语音API。
文本转语音
我在这个话题上写过不少深度文章,你可以先看我的 什么是文本转语音 博文,也可以继续深入了解 语音合成 获取更多背景。也可以直接略过,我这里会先把关键概念讲清楚。
文本转语音基于“语音合成”技术,将文字转成AI生成的语音。它的应用场景非常广:既能帮助阅读有障碍的人群(如阅读障碍、视力受限),也能大幅提升效率,实用场景数不胜数。
API
API即应用程序编程接口,相当于两个应用之间的“桥梁”。如果你在开发需要语音输出的应用,可以自己做一套文本转语音,也可以直接接入成熟的文本转语音API。
这样你只需专注业务开发,把文本转语音这类能力交给第三方API来完成,就能无缝集成到你的产品里。
Google Cloud API
这正是Google Cloud大显身手的地方。Google推出了功能强大的文本转语音API,并按不同付费档位向开发者开放。需要集成文本转语音的开发者,可以直接调用Google的TTS服务。TTS是Text To Speech(文本转语音)的缩写。
你可以在Google Cloud Console找到快速入口 https://cloud.google.com/,查看教程、管理服务帐号,并体验Wavenet语音等功能。
Google Cloud是Google提供的云平台,包含多种可选的模块化服务。你可以按需启用一种、几种或全部服务。只需创建API访问密钥用于身份验证,大多数服务按量计费,也提供一定的免费额度。
2014年,Google收购DeepMind,用于文本转语音技术与神经网络研发。如今看到DeepMind基本都统一称为Google DeepMind,可视作同一体系。
有了以上铺垫,我们就可以正式进入Google Cloud文本转语音API的深度解析。
Google文本转语音API特性
Google无疑是全球技术领跑者之一。在TTS API方面,你可以用上始终在迭代升级的顶级功能。
高保真语音
Google的文本转语音语音质量位居行业前列,听感自然、语调贴近真人。TTS还处在快速发展期,谁能做出越自然的合成语音,谁就越占优势。
多样语音选择
Google提供极为丰富的语音库,你的项目不必担心千篇一律,也能尽量避免与竞品“撞声”。
自定义个性语音
这个功能和声音克隆非常接近。通过录制你的声音或已获授权的声音,便能定制专属音色来播报文本。
神经网络语音
神经网络语音拥有最佳音质,并支持多语种多口音,方便你触达全球听众。
Studio专业语音
Studio语音属于高端专业线路,听上去更像传统录音棚成品,整体质感非常专业。
语音调优
选好基础语音后,你还可以通过调节语速、音调等参数,进一步微调出理想的音色风格。
Google文本转语音API费用如何?
最终花费取决于语音档次和文本长度。语音越自然,单价通常越高。但整体来看定价相对友好,高质量语音的成本也不算离谱。
| 语音类型 | 每月免费额度 | 超出免费后收费 |
| Neural2语音 | 0-100万字节 | $16/百万字节 |
| Polyglot语音 | 0-100万字节 | $16/百万字节 |
| Studio语音 | 0-10万字节 | $160/百万字节 |
| 标准语音 | 0-400万字符 | $4/百万字符 |
| Wavenet语音 | 0-100万字符 | $16/百万字符 |
字符和字节有何区别
从上表可以看出,价格会因语音质量有明显差异。在文本转语音的流程里,编码和处理的粒度也不同。比如标准语音价格较低,按字符计费。
比如,你的项目文本有400万字符,用标准语音转换成音频,大约需要支付$16。
Studio语音需要更高算力,因此按字节计费。像日语这样的语言,一个字符可能由多个字节组成。
所以要精准预估费用,就需要先弄清楚你的目标语言中,每个字符平均占多少字节,再据此估算。
如何设置Google Cloud平台文本转语音API新项目?
- 创建Google Cloud账号,或在此登录
- 新建项目,并为其起个清晰易懂的名字
- 添加付费方式。采用按量计费。
- 选中对应项目,并关联到付费账号。
- 启用文本转语音API。在顶部搜索栏输入“speech”即可找到。
- 在搜索结果中选择Cloud Text-to-Speech API
- 为开发环境配置身份认证。详细步骤见官方Text-to-Speech认证文档。
你也可以先不绑定项目,直接在线试用Text-to-Speech:
- 点击“TRY THIS API”按钮
- 如果要和项目一起用,再点击“ENABLE”启用Text-to-Speech API
可参考Google Cloud文档获取更详细的指引。
如何停用文本转语音API
如需停用Text-to-Speech API,请打开Google Cloud控制台主页,在API模块中点击“API概览”,找到Text-to-Speech API,进入后点击页面上方的“DISABLE API”按钮即可。
开始使用Google文本转语音API
项目创建和配置完成后,就可以通过命令行开启你的新体验。
gcloud init在本地完成身份认证
gcloud auth application-default login接下来安装客户端库。下面以Node.js为例:
npm install --save @google-cloud/text-to-speechGoogle Cloud文本转语音API支持以下语言:
- Go
- Java
- Node.js
- C++
- C#
- PHP
- Python
- Ruby
- TypeScript
- Terraform
- YAML
Google Cloud API如何工作?
整体流程非常简单:发起一次API调用,传入文本,就能拿到语音文件。你可以在请求中指定语音类型、语言等参数,API会自动生成并返回对应的音频。
你可以按此处的官方说明安装并使用文本转语音客户端库。本文示例用的是Node.js,其它如Python、PHP等语言也都完全支持。
const textToSpeech = require('@google-cloud/text-to-speech');
const fs = require('fs');
const util = require('util');
const client = new textToSpeech.TextToSpeechClient();
/**
* TODO(developer): Uncomment the following lines before running the sample.
*/
// const text = 'Text to synthesize, eg. hello';
// const outputFile = 'Local path to save audio file to, e.g. output.mp3';
const request = {
input: {text: text},
voice: {languageCode: 'en-US', ssmlGender: 'FEMALE'},
audioConfig: {audioEncoding: 'MP3'},
};
const [response] = await client.synthesizeSpeech(request);
const writeFile = util.promisify(fs.writeFile);
await writeFile(outputFile, response.audioContent, 'binary');
console.log(`Audio content written to file: ${outputFile}`);到这里,你已经完成Google Cloud文本转语音API的配置,并成功发起了第一次请求。生成的音频支持多种格式,如OGG、MP3等。
Google文本转语音API常见应用场景
Google Text-to-Speech (TTS) API适用于各行各业、各种场景。典型用例包括:
- 为视障用户提供文本转语音: 在应用中将文字转换为语音,提升数字内容可访问性,方便视障人士获取信息。
- 自动语音电话系统: 借助TTS生成自然的语音提示和应答,用于客户服务热线等语音交互系统。
- 多媒体内容配音: 为视频、播客等内容自动生成拟真语音,显著提升用户体验。
- 翻译内容语音播报: 将翻译后的文字转成语音,方便语言学习、跨境沟通或多语内容消费。
- 为阅读障碍人群助读: 为阅读障碍或识字困难人士提供朗读辅助。
- 应用内语音导航: 在地图等导航App中集成TTS,提供语音引导和位置播报。
- 教育内容语音输出: 在教育App中把教学文本转成语音,帮助理解并提升参与度。
- 效率工具语音助理: 在笔记、任务等效率应用中集成TTS,支持听写或语音播报信息。
- 虚拟助手自然发声: 让语音助手听起来更像真人,优化对话体验。
- 声音提醒与推送: 让物联网设备通过TTS发出实时语音通知和状态提醒。
Google Cloud TTS API最佳替代方案
截至2022年1月,Google文本转语音API已经有不少同类替代品,且功能表现可能持续更新。下面是几款主流选择:
- Speechify Text to Speech API: Speechify Text to Speech API拥有1000+真实感、情感丰富 AI语音,覆盖60+语言及方言。立即抢先体验。
- Amazon Polly: 由Amazon Web Services (AWS)提供,支持多语言多音色,并可与其它AWS服务无缝衔接。
- Microsoft Azure Speech Service: 集成语音识别和朗读等能力,适用于语音助手、导航等众多场景。
- IBM Watson Text to Speech: 可将书面文字转换成自然语音,并提供多种发音选项。
- Nuance Communications: Nuance同时提供语音识别和文本转语音能力,广泛应用于医疗、车载、客服等领域。
- CereProc: CereProc是一家专注文本转语音的公司,合成语音表现出色,常用于无障碍、娱乐、通信等应用。
- iSpeech: iSpeech提供云端TTS服务,支持多语言多音色,兼容移动端和Web端。
- ResponsiveVoice: ResponsiveVoice是一款简单易用的TTS API,支持多语种,适合各种Web应用集成。
- Neospeech: Neospeech主打自然语音,在在线教育、娱乐等场景中应用广泛。
- ReadSpeaker: ReadSpeaker支持在线和离线TTS,适用于网站、在线学习和无障碍场景。
- Acapelabox: Acapela Group推出的Acapelabox是一款云端TTS API,支持多语言和多种音色,覆盖各类行业应用。
常见问题
Google针对不同语音档位通常提供一定免费额度。标准语音前100万字节免费,之后按$16/百万字节计费。所以在免费范围内(按字节或字符)使用是免费的。
先注册账号:https://cloud.google.com/text-to-speech/,然后按页面指引一步步操作。具体流程本文前文已有详细说明。
登录你的Google Cloud账号,新建项目后即可生成API密钥,用于调用文本转语音等服务。
Google文本转语音API的官网地址为https://cloud.google.com/text-to-speech/
严格来说没有统一的“通用试用期”。Google Cloud由多项服务组成,各自有不同的免费层和使用条款。
不能。Google Cloud文本转语音API是云端服务,必须联网才能使用。
Google Cloud服务(包括文本转语音API)支持API密钥、OAuth 2.0和服务帐号等多种验证方式。具体用哪种,取决于你的使用场景和应用类型。
我会打5星。平台易用、搜索体验好、覆盖面广,价格也算合理,整体产品体验相当不错。
Google文本转语音API为多种编程语言提供客户端库(如Python),同时也支持RESTful API调用,任何能发起HTTP请求的语言都可以对接。
在Android中集成文本转语音功能,一般通过TextToSpeech类配合API请求实现。具体实现步骤可参考Android官方文档。
在JavaScript应用中使用Google文本转语音API,可以按照官方文档说明构造请求,通过HTTP调用API端点,并处理返回的音频数据即可。

