Generatywna AI i sztuczna inteligencja przeszły długą drogę. Text to speech to dość stara technologia, znana od lat. Jest tu sporo do wyjaśnienia, więc pokażę temat z różnych stron. Niezależnie od poziomu wiedzy ten artykuł pozwoli lepiej zrozumieć Google Text to Speech API.
Zanim zagłębimy się w temat, ustalmy podstawy. Zdefiniujmy kilka pojęć, żeby zbudować solidny fundament.
Rozdzielmy te technologie – text to speech oraz API – i zobaczmy, jaką rolę odgrywa tu Google Cloud.
Uwaga redaktora: Szukasz najlepszego API zamiany tekstu na mowę? Sprawdź proste w obsłudze i dobrze udokumentowane Speechify text to speech API.
Text to Speech
Szeroko opisałem ten temat – możesz zajrzeć na mój blog o Text to speech oraz o syntezie mowy, żeby lepiej zrozumieć zagadnienie. Możesz ten krok pominąć – poniżej streszczam sedno.
Text to speech opiera się na syntezie mowy, która zamienia tekst na głos AI. Przykładów zastosowań jest wiele: od wsparcia osób z dysleksją lub słabym wzrokiem po użytkowników ceniących szybkość i wygodę.
API
API oznacza Application Programming Interface, czyli most pomiędzy dwiema aplikacjami. Jeśli tworzysz aplikację z funkcją tekstu na mowę, możesz napisać text to speech samodzielnie lub połączyć ją z istniejącym text to speech API.
Możesz skupić się na swojej aplikacji, a funkcję text to speech po prostu podłączyć przez zewnętrzne API.
Google Cloud API
I tu wchodzi Google Cloud – udostępnia solidne text to speech API w różnych modelach cenowych. Jeśli tworzysz aplikację wymagającą text to speech, możesz skorzystać z rozwiązań Google TTS (Text to Speech).
Znajdziesz instrukcje w Google Cloud Console https://cloud.google.com/ – są tam poradniki, zarządzanie kontem, dostęp do głosów wavenet i wiele więcej.
Google Cloud to platforma chmurowa Google z licznymi usługami modułowymi. Możesz korzystać z jednej, kilku lub wszystkich. Potrzebujesz kluczy dostępu, żeby uwierzytelnić API. Większość usług jest płatna, ale są też darmowe limity.
Google przejęło DeepMind w 2014 roku ze względu na technologię text to speech i prace nad sieciami neuronowymi. DeepMind to dziś Google DeepMind.
Mamy już solidne podstawy, więc przejdźmy do Google Cloud Text to Speech API.
Funkcje Google Text to Speech API
Google to światowy lider technologii. W API TTS znajdziesz funkcje na najwyższym poziomie, stale rozwijane.
Wysoka jakość mowy
Głosy Google text to speech to jedne z najlepszych na rynku – brzmią naturalnie i bardzo ludzko. TTS dopiero się rozkręca, a wygra ten, kto najlepiej odwzoruje ludzką mowę.
Wybór głosów
Google oferuje ogromny wybór głosów – Twój projekt nie musi brzmieć jak inne aplikacje czy konkurencja.
Tworzenie własnego głosu
To zahacza o klonowanie głosu. Możesz stworzyć własny głos, nagrywając siebie lub inną osobę (za jej zgodą). Ten głos przeczyta Twój tekst.
Głosy neuronowe
Głosy neuronowe to najwyższa jakość wśród dostępnych głosów. Możesz też wykorzystać je globalnie, docierając do szerszego grona odbiorców.
Głosy studyjne
Głosy studyjne to najbardziej profesjonalne opcje – brzmią jak klasyczne nagrania lektorskie.
Strojenie głosu
Wybierz głos i dostosuj tempo, ton czy sposób wypowiedzi – dopasuj brzmienie idealnie do swoich potrzeb.
Ile kosztuje Google Text to Speech API?
Wszystko zależy od jakości głosu i długości tekstu. Im bardziej naturalne brzmienie, tym wyższa cena, ale są to niewielkie kwoty – nawet najlepsze głosy wypadają dość tanio.
| Typ głosu | Darmowo miesięcznie | Po przekroczeniu darmowego limitu |
| Neural2 | 0 do 1 mln bajtów | 16 USD za 1 mln bajtów |
| Polyglot | 0 do 1 mln bajtów | 16 USD za 1 mln bajtów |
| Studyjne | 0 do 100 000 bajtów | 160 USD za 1 mln bajtów |
| Standardowe | 0 do 4 mln znaków | 4 USD za 1 mln znaków |
| Wavenet | 0 do 1 mln znaków | 16 USD za 1 mln znaków |
Różnica między znakami a bajtami
Jak widać, ceny zależą od jakości głosu. Sposób przetwarzania tekstu na mowę też się różni w zależności od poziomu. W przypadku głosów standardowych płacisz mniej – liczone są znaki.
Jeśli Twój projekt ma 4 mln znaków, zapłacisz 16 USD za konwersję tego tekstu z wykorzystaniem głosów standardowych.
Głosy studyjne wymagają większej mocy obliczeniowej, więc płatność liczona jest w bajtach. W językach takich jak japoński jeden znak może zajmować kilka bajtów.
Żeby dobrze policzyć koszt, warto wiedzieć, w jakim języku pracujesz i ile bajtów średnio przypada na jeden znak.
Jak skonfigurować projekt Google Cloud Platform Text to Speech API?
- Stwórz konto Google Cloud lub zaloguj się tutaj
- Utwórz nowy projekt i nadaj mu nazwę
- Dodaj metodę płatności. Płacisz tylko za zużycie.
- Wybierz projekt i powiąż go z rozliczeniem.
- Aktywuj Text-to-Speech API. Wyszukaj "speech" w pasku u góry strony.
- Z wyników wybierz Cloud Text-to-Speech API
- Skonfiguruj uwierzytelnianie środowiska developerskiego. Szczegóły: Set up authentication for Text-to-Speech.
Możesz przetestować Text-to-Speech bez podpinania do projektu:
- Wybierz opcję TRY THIS API.
- Żeby użyć API, kliknij ENABLE.
Sprawdź dokumentację Google Cloud, żeby dowiedzieć się więcej.
Jak wyłączyć Text to Speech API
Aby dezaktywować API, wejdź do Google Cloud Platform, kliknij "Go to APIs overview" w okienku APIs, znajdź Text-to-Speech API i wybierz na górze strony "DISABLE API".
Pierwsze kroki z Google Text to Speech API
Masz już projekt, więc możesz zacząć z linii poleceń.
gcloud initStwórz lokalne uwierzytelnienie
gcloud auth application-default loginTeraz zainstaluj bibliotekę klienta. W tym przykładzie użyjemy Node.js
npm install --save @google-cloud/text-to-speechGoogle Cloud Text to Speech API obsługuje następujące języki:
- Go
- Java
- Node.js
- C++
- C#
- PHP
- Python
- Ruby
- TypeScript
- Terraform
- YAML
Jak działa Google Cloud API?
Wszystko zaczyna się od prostego wywołania API. Wysyłasz tekst w żądaniu, a w odpowiedzi dostajesz plik dźwiękowy z wygenerowanym głosem. Możesz wybrać język, głos i inne opcje, a następnie text to speech API odeśle audio.
Dowiedz się, jak instalować i używać biblioteki klienta text to speech tutaj. Przykłady kodu są dla Node.js, ale możesz też użyć np. Pythona lub PHP.
const textToSpeech = require('@google-cloud/text-to-speech');
const fs = require('fs');
const util = require('util');
const client = new textToSpeech.TextToSpeechClient();
/**
* TODO(developer): Uncomment the following lines before running the sample.
*/
// const text = 'Text to synthesize, eg. hello';
// const outputFile = 'Local path to save audio file to, e.g. output.mp3';
const request = {
input: {text: text},
voice: {languageCode: 'en-US', ssmlGender: 'FEMALE'},
audioConfig: {audioEncoding: 'MP3'},
};
const [response] = await client.synthesizeSpeech(request);
const writeFile = util.promisify(fs.writeFile);
await writeFile(outputFile, response.audioContent, 'binary');
console.log(`Audio content written to file: ${outputFile}`);I gotowe. Skonfigurowałeś Google Cloud Text to Speech API i wysłałeś pierwsze żądanie. Plik dźwiękowy możesz pobrać w różnych formatach, np. OGG lub MP3.
Tak możesz wykorzystać Google Text to Speech API
Google Text to Speech (TTS) API to uniwersalne rozwiązanie dla wielu branż. Najczęstsze zastosowania to:
- Text to Speech dla osób niedowidzących: Zamiana tekstu na mowę w aplikacjach cyfrowych, ułatwiająca dostępność dla osób niewidomych.
- Automatyczne systemy telefoniczne: Tworzenie naturalnych komunikatów i odpowiedzi głosowych w systemach IVR.
- Lektoring do multimediów: Generowanie głosów do filmów, podcastów i innych treści audio-wideo.
- Text to Speech dla tłumaczeń: Zamiana przetłumaczonego tekstu na mowę, np. do nauki języków lub komunikacji międzynarodowej.
- Wsparcie dla dyslektyków: Ułatwienie osobom z dysleksją korzystania z treści pisanych.
- Nawigacja głosowa w aplikacjach: Dodanie nawigacji głosowej, np. komend kierunkowych.
- TTS w edukacji: Zamiana materiałów edukacyjnych na mowę ułatwia naukę i zwiększa zaangażowanie.
- Synteza mowy w aplikacjach produktywności: Dodanie TTS w narzędziach do notatek lub zarządzania zadaniami dla głosowego feedbacku.
- Naturalny głos dla asystentów: TTS w asystentach głosowych do lepszego kontaktu z użytkownikiem.
- Powiadomienia i alerty głosowe: Wykorzystanie TTS do komunikatów i alertów dźwiękowych na urządzeniach IoT.
Najlepsze alternatywy dla Google Cloud TTS API
Na 2022 rok istnieje kilka alternatyw dla Google Text to Speech API. Być może od tego czasu coś się zmieniło, ale poniżej znajdziesz listę ważniejszych konkurentów:
- Speechify Text to Speech API: Speechify Text to Speech API oferuje ponad 1000 realistycznych i emocjonalnych głosów AI w 60+ językach i dialektach. Zarezerwuj dostęp.
- Amazon Polly: Dostępny w AWS, Polly zapewnia naturalne głosy w wielu językach i dobrze integruje się z innymi usługami AWS.
- Microsoft Azure Speech Service: Azure Speech Service oferuje TTS do wielu zastosowań: asystenci głosowi, nawigacja i nie tylko.
- IBM Watson Text to Speech: IBM Watson udostępnia usługę zamiany tekstu na mowę z wyborem różnych głosów.
- Nuance Communications: Nuance oferuje rozwiązania TTS m.in. dla ochrony zdrowia, motoryzacji i obsługi klienta.
- CereProc: CereProc to firma TTS dostarczająca wysokiej jakości syntezowane głosy do zastosowań związanych z dostępnością, rozrywką czy komunikacją.
- iSpeech: iSpeech dostarcza chmurowe usługi TTS z obsługą wielu języków – idealne dla aplikacji mobilnych, stron itd.
- ResponsiveVoice: ResponsiveVoice to proste i niedrogie API text to speech do aplikacji webowych.
- Neospeech: Neospeech oferuje rozwiązania TTS skupione na naturalnych głosach – do edukacji, rozrywki itp.
- ReadSpeaker: ReadSpeaker zapewnia TTS online i offline dla stron, e-learningu oraz rozwiązań z zakresu dostępności.
- Acapelabox: Acapela Group oferuje chmurowe API text to speech – różne języki i głosy dla wielu branż.
FAQ
Google oferuje kilka poziomów głosów z darmowym limitem dla każdego z nich. Na przykład głosy standardowe są darmowe do 1 mln bajtów. Dalej kosztuje to 16 USD za 1 mln bajtów. Więc tak, API może być darmowe w ramach limitu znaków lub bajtów.
Utwórz konto na https://cloud.google.com/text-to-speech/ i postępuj według instrukcji. Szczegółowo opisałem proces powyżej na blogu.
Po zalogowaniu do Google Cloud załóż projekt, a następnie wygeneruj klucz API.
URL Google Text to Speech API to https://cloud.google.com/text-to-speech/
Technicznie nie ma ogólnego okresu próbnego. Każda usługa Google Cloud ma własne zasady i osobny darmowy limit.
Nie. API Google Cloud Text to Speech wymaga połączenia z internetem.
Uwierzytelnianie Google Cloud, w tym API TTS, obsługuje klucze API, OAuth 2.0 i konta usługowe. Sposób zależy od typu aplikacji.
Moja ocena to 5 gwiazdek. Łatwo się tego używa, wyszukiwarka jest dopracowana, ceny uczciwe. Całościowo produkt bardzo dobry.
Google Text to Speech API oferuje biblioteki dla różnych języków programowania, w tym Pythona. Obsługuje też REST API, więc można używać dowolnego języka z obsługą HTTP.
Integracja polega na użyciu klasy TextToSpeech i wykonywaniu zapytań do API. Szczegółowe instrukcje znajdziesz w dokumentacji Android Developers.
Aby wdrożyć Google Text to Speech API w JavaScript, wysyłaj żądania HTTP do API. Zbuduj zapytanie i obsłuż odpowiedź w kodzie. Szczegóły znajdziesz w oficjalnej dokumentacji.

