1. Strona główna
  2. API
  3. Wszystko, co musisz wiedzieć o Google Cloud Text to Speech API
Updated on API

Wszystko, co musisz wiedzieć o Google Cloud Text to Speech API

Cliff Weitzman

Cliff Weitzman

CEO i założyciel Speechify

API Speechify zapewnia opóźnienie 300 ms, głosy o jakości ludzkiej oraz obsługę ponad 50 języków

apple logoNagroda Apple Design 2025
Ponad 50 mln użytkowników

Generatywna AI i sztuczna inteligencja przeszły długą drogę. Text to speech to dość stara technologia, znana od lat. Jest tu sporo do wyjaśnienia, więc pokażę temat z różnych stron. Niezależnie od poziomu wiedzy ten artykuł pozwoli lepiej zrozumieć Google Text to Speech API.

Zanim zagłębimy się w temat, ustalmy podstawy. Zdefiniujmy kilka pojęć, żeby zbudować solidny fundament.

Rozdzielmy te technologie – text to speech oraz API – i zobaczmy, jaką rolę odgrywa tu Google Cloud.

Uwaga redaktora: Szukasz najlepszego API zamiany tekstu na mowę? Sprawdź proste w obsłudze i dobrze udokumentowane Speechify text to speech API.

Text to Speech

Szeroko opisałem ten temat – możesz zajrzeć na mój blog o Text to speech oraz o syntezie mowy, żeby lepiej zrozumieć zagadnienie. Możesz ten krok pominąć – poniżej streszczam sedno.

Text to speech opiera się na syntezie mowy, która zamienia tekst na głos AI. Przykładów zastosowań jest wiele: od wsparcia osób z dysleksją lub słabym wzrokiem po użytkowników ceniących szybkość i wygodę.

API

API oznacza Application Programming Interface, czyli most pomiędzy dwiema aplikacjami. Jeśli tworzysz aplikację z funkcją tekstu na mowę, możesz napisać text to speech samodzielnie lub połączyć ją z istniejącym text to speech API.

Możesz skupić się na swojej aplikacji, a funkcję text to speech po prostu podłączyć przez zewnętrzne API.

Google Cloud API

I tu wchodzi Google Cloud – udostępnia solidne text to speech API w różnych modelach cenowych. Jeśli tworzysz aplikację wymagającą text to speech, możesz skorzystać z rozwiązań Google TTS (Text to Speech).

Znajdziesz instrukcje w Google Cloud Console https://cloud.google.com/ – są tam poradniki, zarządzanie kontem, dostęp do głosów wavenet i wiele więcej.

Google Cloud to platforma chmurowa Google z licznymi usługami modułowymi. Możesz korzystać z jednej, kilku lub wszystkich. Potrzebujesz kluczy dostępu, żeby uwierzytelnić API. Większość usług jest płatna, ale są też darmowe limity.

Google przejęło DeepMind w 2014 roku ze względu na technologię text to speech i prace nad sieciami neuronowymi. DeepMind to dziś Google DeepMind.

Mamy już solidne podstawy, więc przejdźmy do Google Cloud Text to Speech API.

Funkcje Google Text to Speech API

Google to światowy lider technologii. W API TTS znajdziesz funkcje na najwyższym poziomie, stale rozwijane.

Wysoka jakość mowy

Głosy Google text to speech to jedne z najlepszych na rynku – brzmią naturalnie i bardzo ludzko. TTS dopiero się rozkręca, a wygra ten, kto najlepiej odwzoruje ludzką mowę.

Wybór głosów

Google oferuje ogromny wybór głosów – Twój projekt nie musi brzmieć jak inne aplikacje czy konkurencja.

Tworzenie własnego głosu

To zahacza o klonowanie głosu. Możesz stworzyć własny głos, nagrywając siebie lub inną osobę (za jej zgodą). Ten głos przeczyta Twój tekst.

Głosy neuronowe

Głosy neuronowe to najwyższa jakość wśród dostępnych głosów. Możesz też wykorzystać je globalnie, docierając do szerszego grona odbiorców.

Głosy studyjne

Głosy studyjne to najbardziej profesjonalne opcje – brzmią jak klasyczne nagrania lektorskie.

Strojenie głosu

Wybierz głos i dostosuj tempo, ton czy sposób wypowiedzi – dopasuj brzmienie idealnie do swoich potrzeb.

Ile kosztuje Google Text to Speech API?

Wszystko zależy od jakości głosu i długości tekstu. Im bardziej naturalne brzmienie, tym wyższa cena, ale są to niewielkie kwoty – nawet najlepsze głosy wypadają dość tanio.

Typ głosuDarmowo miesięczniePo przekroczeniu darmowego limitu
Neural20 do 1 mln bajtów16 USD za 1 mln bajtów
Polyglot0 do 1 mln bajtów16 USD za 1 mln bajtów
Studyjne0 do 100 000 bajtów160 USD za 1 mln bajtów
Standardowe0 do 4 mln znaków4 USD za 1 mln znaków
Wavenet0 do 1 mln znaków16 USD za 1 mln znaków

Różnica między znakami a bajtami

Jak widać, ceny zależą od jakości głosu. Sposób przetwarzania tekstu na mowę też się różni w zależności od poziomu. W przypadku głosów standardowych płacisz mniej – liczone są znaki.

Jeśli Twój projekt ma 4 mln znaków, zapłacisz 16 USD za konwersję tego tekstu z wykorzystaniem głosów standardowych.

Głosy studyjne wymagają większej mocy obliczeniowej, więc płatność liczona jest w bajtach. W językach takich jak japoński jeden znak może zajmować kilka bajtów.

Żeby dobrze policzyć koszt, warto wiedzieć, w jakim języku pracujesz i ile bajtów średnio przypada na jeden znak.

Jak skonfigurować projekt Google Cloud Platform Text to Speech API?

  1. Stwórz konto Google Cloud lub zaloguj się tutaj
  2. Utwórz nowy projekt i nadaj mu nazwę
  3. Dodaj metodę płatności. Płacisz tylko za zużycie.
  4. Wybierz projekt i powiąż go z rozliczeniem.
  5. Aktywuj Text-to-Speech API. Wyszukaj "speech" w pasku u góry strony.
  6. Z wyników wybierz Cloud Text-to-Speech API
  7. Skonfiguruj uwierzytelnianie środowiska developerskiego. Szczegóły: Set up authentication for Text-to-Speech.

Możesz przetestować Text-to-Speech bez podpinania do projektu:

  1. Wybierz opcję TRY THIS API.
  2. Żeby użyć API, kliknij ENABLE.

Sprawdź dokumentację Google Cloud, żeby dowiedzieć się więcej.

Jak wyłączyć Text to Speech API

Aby dezaktywować API, wejdź do Google Cloud Platform, kliknij "Go to APIs overview" w okienku APIs, znajdź Text-to-Speech API i wybierz na górze strony "DISABLE API".

Pierwsze kroki z Google Text to Speech API

Masz już projekt, więc możesz zacząć z linii poleceń.

gcloud init

Stwórz lokalne uwierzytelnienie

gcloud auth application-default login

Teraz zainstaluj bibliotekę klienta. W tym przykładzie użyjemy Node.js

npm install --save @google-cloud/text-to-speech

Google Cloud Text to Speech API obsługuje następujące języki:

  1. Go
  2. Java
  3. Node.js
  4. C++
  5. C#
  6. PHP
  7. Python
  8. Ruby
  9. TypeScript
  10. Terraform
  11. YAML

Jak działa Google Cloud API?

Wszystko zaczyna się od prostego wywołania API. Wysyłasz tekst w żądaniu, a w odpowiedzi dostajesz plik dźwiękowy z wygenerowanym głosem. Możesz wybrać język, głos i inne opcje, a następnie text to speech API odeśle audio.

Dowiedz się, jak instalować i używać biblioteki klienta text to speech tutaj. Przykłady kodu są dla Node.js, ale możesz też użyć np. Pythona lub PHP.

const textToSpeech = require('@google-cloud/text-to-speech');
const fs = require('fs');
const util = require('util');

const client = new textToSpeech.TextToSpeechClient();

/**
 * TODO(developer): Uncomment the following lines before running the sample.
 */
// const text = 'Text to synthesize, eg. hello';
// const outputFile = 'Local path to save audio file to, e.g. output.mp3';

const request = {
  input: {text: text},
  voice: {languageCode: 'en-US', ssmlGender: 'FEMALE'},
  audioConfig: {audioEncoding: 'MP3'},
};
const [response] = await client.synthesizeSpeech(request);
const writeFile = util.promisify(fs.writeFile);
await writeFile(outputFile, response.audioContent, 'binary');
console.log(`Audio content written to file: ${outputFile}`);

I gotowe. Skonfigurowałeś Google Cloud Text to Speech API i wysłałeś pierwsze żądanie. Plik dźwiękowy możesz pobrać w różnych formatach, np. OGG lub MP3.

Tak możesz wykorzystać Google Text to Speech API

Google Text to Speech (TTS) API to uniwersalne rozwiązanie dla wielu branż. Najczęstsze zastosowania to:

  1. Text to Speech dla osób niedowidzących: Zamiana tekstu na mowę w aplikacjach cyfrowych, ułatwiająca dostępność dla osób niewidomych.
  2. Automatyczne systemy telefoniczne: Tworzenie naturalnych komunikatów i odpowiedzi głosowych w systemach IVR.
  3. Lektoring do multimediów: Generowanie głosów do filmów, podcastów i innych treści audio-wideo.
  4. Text to Speech dla tłumaczeń: Zamiana przetłumaczonego tekstu na mowę, np. do nauki języków lub komunikacji międzynarodowej.
  5. Wsparcie dla dyslektyków: Ułatwienie osobom z dysleksją korzystania z treści pisanych.
  6. Nawigacja głosowa w aplikacjach: Dodanie nawigacji głosowej, np. komend kierunkowych.
  7. TTS w edukacji: Zamiana materiałów edukacyjnych na mowę ułatwia naukę i zwiększa zaangażowanie.
  8. Synteza mowy w aplikacjach produktywności: Dodanie TTS w narzędziach do notatek lub zarządzania zadaniami dla głosowego feedbacku.
  9. Naturalny głos dla asystentów: TTS w asystentach głosowych do lepszego kontaktu z użytkownikiem.
  10. Powiadomienia i alerty głosowe: Wykorzystanie TTS do komunikatów i alertów dźwiękowych na urządzeniach IoT.

Najlepsze alternatywy dla Google Cloud TTS API

Na 2022 rok istnieje kilka alternatyw dla Google Text to Speech API. Być może od tego czasu coś się zmieniło, ale poniżej znajdziesz listę ważniejszych konkurentów:

  1. Speechify Text to Speech API: Speechify Text to Speech API oferuje ponad 1000 realistycznych i emocjonalnych głosów AI w 60+ językach i dialektach. Zarezerwuj dostęp.
  2. Amazon Polly: Dostępny w AWS, Polly zapewnia naturalne głosy w wielu językach i dobrze integruje się z innymi usługami AWS.
  3. Microsoft Azure Speech Service: Azure Speech Service oferuje TTS do wielu zastosowań: asystenci głosowi, nawigacja i nie tylko.
  4. IBM Watson Text to Speech: IBM Watson udostępnia usługę zamiany tekstu na mowę z wyborem różnych głosów.
  5. Nuance Communications: Nuance oferuje rozwiązania TTS m.in. dla ochrony zdrowia, motoryzacji i obsługi klienta.
  6. CereProc: CereProc to firma TTS dostarczająca wysokiej jakości syntezowane głosy do zastosowań związanych z dostępnością, rozrywką czy komunikacją.
  7. iSpeech: iSpeech dostarcza chmurowe usługi TTS z obsługą wielu języków – idealne dla aplikacji mobilnych, stron itd.
  8. ResponsiveVoice: ResponsiveVoice to proste i niedrogie API text to speech do aplikacji webowych.
  9. Neospeech: Neospeech oferuje rozwiązania TTS skupione na naturalnych głosach – do edukacji, rozrywki itp.
  10. ReadSpeaker: ReadSpeaker zapewnia TTS online i offline dla stron, e-learningu oraz rozwiązań z zakresu dostępności.
  11. Acapelabox: Acapela Group oferuje chmurowe API text to speech – różne języki i głosy dla wielu branż.

FAQ

Google oferuje kilka poziomów głosów z darmowym limitem dla każdego z nich. Na przykład głosy standardowe są darmowe do 1 mln bajtów. Dalej kosztuje to 16 USD za 1 mln bajtów. Więc tak, API może być darmowe w ramach limitu znaków lub bajtów.

Utwórz konto na https://cloud.google.com/text-to-speech/ i postępuj według instrukcji. Szczegółowo opisałem proces powyżej na blogu.

Po zalogowaniu do Google Cloud załóż projekt, a następnie wygeneruj klucz API.

URL Google Text to Speech API to https://cloud.google.com/text-to-speech/

Technicznie nie ma ogólnego okresu próbnego. Każda usługa Google Cloud ma własne zasady i osobny darmowy limit.

Nie. API Google Cloud Text to Speech wymaga połączenia z internetem.

Uwierzytelnianie Google Cloud, w tym API TTS, obsługuje klucze API, OAuth 2.0 i konta usługowe. Sposób zależy od typu aplikacji.

Moja ocena to 5 gwiazdek. Łatwo się tego używa, wyszukiwarka jest dopracowana, ceny uczciwe. Całościowo produkt bardzo dobry.

Google Text to Speech API oferuje biblioteki dla różnych języków programowania, w tym Pythona. Obsługuje też REST API, więc można używać dowolnego języka z obsługą HTTP.

Integracja polega na użyciu klasy TextToSpeech i wykonywaniu zapytań do API. Szczegółowe instrukcje znajdziesz w dokumentacji Android Developers.

Aby wdrożyć Google Text to Speech API w JavaScript, wysyłaj żądania HTTP do API. Zbuduj zapytanie i obsłuż odpowiedź w kodzie. Szczegóły znajdziesz w oficjalnej dokumentacji.

Uzyskaj szybki, skalowalny i przyjazny dla deweloperów dostęp do głosów Speechify przez API

Uzyskaj dostęp do API
api access banner

Udostępnij ten artykuł

Cliff Weitzman

Cliff Weitzman

CEO i założyciel Speechify

Cliff Weitzman jest orędownikiem osób z dysleksją oraz CEO i założycielem Speechify — najlepszej na świecie aplikacji do zamiany tekstu na mowę, która ma na koncie ponad 100 000 pięciogwiazdkowych recenzji i zajęła 1. miejsce w App Store w kategorii News & Magazines. W 2017 roku Weitzman został wyróżniony na liście Forbes 30 Under 30 za działania na rzecz zwiększania dostępności internetu dla osób z trudnościami w uczeniu się. O Cliffie Weitzmanie pisały m.in. EdSurge, Inc., PC Mag, Entrepreneur i Mashable oraz inne czołowe redakcje.

speechify logo

O Speechify

Najlepszy czytnik tekstu na mowę

Speechify to wiodąca na świecie platforma tekstu na mowę, zaufana przez ponad 50 milionów użytkowników, z ponad 500 000 recenzji na 5 gwiazdek w aplikacjach tekstu na mowę na iOS, Androida, rozszerzenie Chrome, aplikację webową oraz aplikację desktopową na Maca. W 2025 roku Apple przyznało Speechify prestiżową Nagrodę Apple Design podczas WWDC, nazywając to rozwiązanie „kluczowym zasobem, który pomaga ludziom w codziennym życiu”. Speechify oferuje ponad 1 000 naturalnych głosów w ponad 60 językach i jest używane w niemal 200 krajach. Wśród znanych głosów znajdują się Snoop Dogg i Gwyneth Paltrow. Dla twórców i firm Speechify Studio zapewnia zaawansowane narzędzia, w tym Generator Głosu AI, Klonowanie głosu AI, AI Dubbing oraz Zmieniacz głosu AI. Speechify dostarcza także wysokiej jakości i przystępne cenowo API tekstu na mowę dla czołowych produktów na świecie. O Speechify pisano w The Wall Street Journal, CNBC, Forbes, TechCrunch i innych najważniejszych mediach – Speechify to największy dostawca tekstu na mowę na świecie. Odwiedź speechify.com/news, speechify.com/blog oraz speechify.com/press, aby dowiedzieć się więcej.