1. होम
  2. एपीआई
  3. Google Cloud Text to Speech API के बारे में पूरी जानकारी
Updated on एपीआई

Google Cloud Text to Speech API के बारे में पूरी जानकारी

Cliff Weitzman

क्लिफ वाइट्समैन

Speechify के CEO और संस्थापक

Speechify API 300ms 
लेटेंसी, मानव-स्तर की आवाज़ें 
और 50+ भाषाओं का सपोर्ट देता है

apple logo2025 Apple Design Award
50M+ यूज़र्स

जनरेटिव एआई और आर्टिफ़िशियल इंटेलिजेंस काफ़ी विकसित हो चुके हैं। टेक्स्ट टू स्पीच कोई नया आइडिया नहीं, ये सालों से इस्तेमाल हो रहा है। इसमें कई पहलू हैं—मैं आपको आसान भाषा में Google टेक्स्ट टू स्पीच API के बारे में साफ़-सुथरी जानकारी दूंगा।

शुरू करने से पहले, ज़रूरी है कि हम कुछ बेसिक बातें साफ़ कर लें। चलिए, पहले मुख्य टर्म्स समझते हैं ताकि आगे सब कुछ आसान रहे।

यहाँ टेक्स्ट टू स्पीच और API—दो अलग टेक्नोलॉजी हैं। साथ ही समझते हैं कि इसमें Google Cloud की क्या भूमिका है।

संपादक नोट: सबसे बढ़िया टेक्स्ट टू स्पीच API ढूँढ रहे हैं? Speechify का टेक्स्ट टू स्पीच API ट्राई करें।

टेक्स्ट टू स्पीच

मैंने इस विषय पर डिटेल में लिखा है। आप मेरा What is text to speech ब्लॉग पढ़ सकते हैं और speech synthesis के बारे में भी जान सकते हैं। चाहें तो इन्हें अभी स्किप करें, मैं यहाँ आपको जल्दी में समझा देता हूँ।

टेक्स्ट टू स्पीच में स्पीच सिंथेसिस तकनीक का इस्तेमाल होता है, जो AI की मदद से शब्दों को आवाज़ में बदलती है। यह टेक्नोलॉजी कई जगह काम आती है—जैसे डिस्लेक्सिक लोगों, कमज़ोर नज़र वाले या तेज़ी से कंटेंट कंज़्यूम करने वालों के लिए।

API

API यानी एप्लीकेशन प्रोग्रामिंग इंटरफेस—दो ऐप्स के बीच का पुल। अगर आपके ऐप में ऑडियो कंटेंट चाहिए और टेक्स्ट टू स्पीच फ़ीचर जोड़ना है, तो या तो खुद बनाएं या किसी पहले से मौजूद टेक्स्ट टू स्पीच API से कनेक्ट कर दें।टेक्स्ट टू स्पीच API

आप अपना ध्यान ऐप बनाने पर रखें और टेक्स्ट टू स्पीच का सारा काम किसी थर्ड पार्टी API से करवा लें।

Google Cloud API

यहीं पर Google Cloud तस्वीर में आता है। Google ने एक मज़बूत टेक्स्ट टू स्पीच API बनाई है, जिसमें कई पेमेंट ऑप्शन हैं। कोई भी डेवलपर जो ऐप या वेब ऐप बना रहा है, उसके लिए Google का TTS फ़ीचर जोड़ना काफ़ी आसान है। TTS, टेक्स्ट टू स्पीच का शॉर्ट फॉर्म है।

Google Cloud Console पर क्विकस्टार्ट देखें https://cloud.google.com/। यहाँ आपको ट्यूटोरियल, सर्विस अकाउंट, वेवनेट वॉइसेस वगैरह सब मिल जाएगा।

Google Cloud खुद Google की क्लाउड सर्विस है। इसमें कई मॉड्यूलर सर्विस मौजूद हैं जिन्हें आप अपनी ज़रूरत के हिसाब से चुन सकते हैं। हर API के लिए एक एक्सेस की बनती है—यानी वही पुल। ज़्यादातर सर्विसेज़ पेड हैं, लेकिन कुछ पर फ्री लिमिट भी मिलती है।

Google ने 2014 में DeepMind खरीदी थी—उसकी टेक्स्ट टू स्पीच टेक्नोलॉजी और न्यूरल नेटवर्क डेवलपमेंट के लिए। DeepMind अब Google DeepMind है—यानी बस नाम बदला है, टीम वही है।

अब जब नींव साफ़ हो गई, तो चलिए Google Cloud Text to Speech API को थोड़ा गहराई से समझते हैं।

Google Text to Speech API के फ़ीचर्स

Google विश्वस्तरीय टेक्नोलॉजी कंपनी है, इसमें दो राय नहीं। TTS API में आपको बढ़िया फ़ीचर्स मिलते हैं, जिन्हें समय के साथ लगातार बेहतर किया गया है।

हाई फिडेलिटी स्पीच

Google की टेक्स्ट टू स्पीच वॉइसेस बेहद क्वालिटी वाली हैं। ये इंसानी आवाज़ जैसी लगती हैं, पूरे नेचुरल टोन के साथ। TTS अभी शुरुआती दौर में है, पर जो कंपनियाँ सबसे अच्छा ऑडियो देंगी, वही आगे निकलेंगी।

आवाज़ का चयन

Google के पास वॉइसेस का सबसे बड़ा कलेक्शन है—ताकि आपकी प्रोजेक्ट की आवाज़ यूनिक लगे, मार्केट में किसी और कॉपी जैसी न लगे।

अपनी आवाज़ बनाएं

यही वॉइस क्लोनिंग टेक्नोलॉजी है। आप अपनी या किसी और की परमीशन से रिकॉर्डिंग करा सकते हैं—फिर वही आवाज़ आपके सारे टेक्स्ट पढ़ेगी।

न्यूरल वॉइस

न्यूरल वॉइसेस सबसे हाई क्वालिटी की आवाज़ देती हैं। इन्हें वैश्विक ऑडियंस और अलग-अलग यूज़ केस के लिए कस्टमाइज़ किया जा सकता है।

स्टूडियो वॉइस

स्टूडियो वॉइसेस प्रोफेशनल साउंड देती हैं, जैसे किसी पारंपरिक स्टूडियो रिकॉर्डिंग से बनी हों।

वॉइस ट्यूनिंग

कोई भी वॉइस चुनें, फिर स्पीड, पिच वगैरह एडजस्ट करके आवाज़ को पूरी तरह अपने हिसाब से ढाल लें।

Google Text to Speech API की कीमत क्या है?

कीमत मुख्यतः आवाज़ की क्वालिटी और टेक्स्ट की लंबाई पर टिकी है। जितनी ज़्यादा नेचुरल साउंड चाहिए, उतना रेट बढ़ेगा। फिर भी, कुल मिलाकर यह बहुत महँगा नहीं पड़ता।

वॉइस प्रकारफ्री/माहफ्री लिमिट के बाद
Neural2 वॉइस0 से 10 लाख बाइट्स$16 प्रति 10 लाख बाइट्स
Polyglot वॉइस0 से 10 लाख बाइट्स$16 प्रति 10 लाख बाइट्स
स्टूडियो वॉइस0 से 1 लाख बाइट्स$160 प्रति 10 लाख बाइट्स
स्टैंडर्ड वॉइस0 से 40 लाख कैरेक्टर्स$4 प्रति 10 लाख कैरेक्टर्स
Wavenet वॉइस0 से 10 लाख कैरेक्टर्स$16 प्रति 10 लाख कैरेक्टर्स

कैरेक्टर्स और बाइट्स में क्या फ़र्क है?

जैसा देखा, कीमत वॉइस क्वालिटी के साथ बदलती है। ऑडियो एनकोडिंग और प्रोसेसिंग भी उसी के हिसाब से बदलती है। लोअर लेवल—जैसे स्टैंडर्ड वॉइस में, चार्ज कैरेक्टर बेसिस पर होता है।

मतलब, अगर आपके प्रोजेक्ट में 40 लाख कैरेक्टर हैं, तो उन्हें आवाज़ में बदलने के लिए स्टैंडर्ड वॉइस के साथ $16 लगेंगे।

स्टूडियो वॉइस ज़्यादा प्रोसेसिंग माँगती हैं, इसलिए चार्ज बाइट्स के हिसाब से लिया जाता है। कुछ भाषाओं, जैसे जापानी में, एक कैरेक्टर कई बाइट्स का हो सकता है।

इसलिए सही लागत समझने के लिए, भाषा और औसतन प्रति कैरेक्टर बाइट्स का अंदाज़ा होना ज़रूरी है।

Google Cloud Text to Speech API प्रोजेक्ट कैसे सेटअप करें?

  1. Google Cloud अकाउंट बनाएं या इस पेज पर लॉगिन करें
  2. नया प्रोजेक्ट बनाएं और उसे कोई पहचानने लायक नाम दें
  3. बिलिंग मेथड जोड़ें. आपसे सिर्फ़ उतने यूज़ के लिए चार्ज लिया जाएगा, जितना इस्तेमाल करेंगे।
  4. फिर अपना प्रोजेक्ट चुनें और उसे सही बिलिंग अकाउंट से लिंक करें।
  5. Text-to-Speech API एक्टिवेट करें। ऊपर सर्च बार में "speech" टाइप करें।
  6. रिज़ल्ट में से Cloud Text-to-Speech API चुनें
  7. अपने डेवलपमेंट एनवायरनमेंट के लिए ऑथेंटिकेशन सेट करें। स्टेप्स के लिए Text-to-Speech की ऑथेंटिकेशन गाइड देखें।

Text-to-Speech को बिना प्रोजेक्ट से लिंक किए आज़माएँ:

  1. TRY THIS API विकल्प चुनें।
  2. अपने प्रोजेक्ट के लिए Text-to-Speech API को ENABLE पर क्लिक करके चालू करें।

और जानकारी के लिए देखें Google Cloud दस्तावेज

Text to Speech API कैसे बंद करें?

Text-to-Speech API बंद करने के लिए Google Cloud Platform डैशबोर्ड में APIs वाले बॉक्स में "Go to APIs overview" लिंक पर क्लिक करें, वहाँ Text-to-Speech API चुनें और "DISABLE API" बटन दबा दें।

Google Text to Speech API से शुरुआत करें

अब जब प्रोजेक्ट बन चुका है, आप कमांड लाइन से काम शुरू कर सकते हैं।

gcloud init

लोकल ऑथेंटिकेशन सेट करें

gcloud auth application-default login

अब आप क्लाइंट लाइब्रेरी इंस्टॉल कर सकते हैं। उदाहरण के लिए, यहाँ Node.js दिखाया गया है।

npm install --save @google-cloud/text-to-speech

Google Cloud Text to Speech API इन भाषाओं को सपोर्ट करता है:

  1. Go
  2. Java
  3. Node.js
  4. C++
  5. C#
  6. PHP
  7. Python
  8. Ruby
  9. TypeScript
  10. Terraform
  11. YAML

Google Cloud API कैसे काम करता है?

सब कुछ एक सिंपल API कॉल से शुरू होता है। आप रिक्वेस्ट में टेक्स्ट भेजते हैं और बदले में बोलकर पढ़ा गया वही टेक्स्ट ऑडियो फ़ाइल के रूप में मिलता है। आप चाहें तो कोई ख़ास वॉइस या भाषा चुन सकते हैं, फिर टेक्स्ट टू स्पीच API आपको जनरेटेड ऑडियो फ़ाइल दे देगा।

टेक्स्ट टू स्पीच क्लाइंट लाइब्रेरी कैसे इंस्टॉल करें और यूज़ करें, ये जानें यहाँ। कोड सैंपल Node.js के लिए है, पर आप Python या PHP भी आराम से ले सकते हैं—जो भी आपके लिए आसान हो।

const textToSpeech = require('@google-cloud/text-to-speech');
const fs = require('fs');
const util = require('util');

const client = new textToSpeech.TextToSpeechClient();

/**
 * TODO(developer): Uncomment the following lines before running the sample.
 */
// const text = 'Text to synthesize, eg. hello';
// const outputFile = 'Local path to save audio file to, e.g. output.mp3';

const request = {
  input: {text: text},
  voice: {languageCode: 'en-US', ssmlGender: 'FEMALE'},
  audioConfig: {audioEncoding: 'MP3'},
};
const [response] = await client.synthesizeSpeech(request);
const writeFile = util.promisify(fs.writeFile);
await writeFile(outputFile, response.audioContent, 'binary');
console.log(`Audio content written to file: ${outputFile}`);

लो जी हो गया! आपने Google Cloud Text to Speech API सेटअप कर ली और पहली रिक्वेस्ट भी भेज दी। आपको ऑडियो कई फॉर्मेट में मिल सकता है—OGG से लेकर MP3 तक।

Google Text to Speech API के कुछ प्रयोग

Google Text to Speech (TTS) API कई इंडस्ट्री के लिए बहुपयोगी समाधान है। इसके कुछ आम यूज़ केस:

  1. नेत्रहीन यूज़र्स के लिए टेक्स्ट टू स्पीच: ऐप्लिकेशंस में TTS से लिखित कंटेंट को आवाज़ में बदलना, ताकि डिजिटल जानकारी दृष्टिबाधित यूज़र तक भी पहुँच सके।
  2. ऑटोमेटेड फोन सिस्टम: कस्टमर केयर या हेल्पलाइन के लिए स्वाभाविक आवाज़ में जानकारी और जवाब देना।
  3. मीडिया कंटेंट में वॉइसओवर: वीडियो, पॉडकास्ट और मल्टीमीडिया के लिए नैचुरल वॉइसओवर तैयार करना।
  4. अनुदित कंटेंट के लिए टेक्स्ट टू स्पीच: ट्रांसलेटेड टेक्स्ट को आवाज़ में बदलना—भाषा सीखने या इंटरनेशनल कंटेंट के लिए।
  5. डिस्लेक्टिक यूज़र्स के लिए पढ़ने में मदद: डिस्लेक्सिया या पढ़ने में दिक्कत वाले यूज़र्स को TTS काफ़ी मदद कर सकता है।
  6. ऐप्स में वॉイス नेविगेशन: नेविगेशन ऐप्स में टर्न-बाय-टर्न डायरेक्शन या लोकेशन बेस्ड जानकारी आवाज़ में देना।
  7. शैक्षिक कंटेंट के लिए टेक्स्ट टू स्पीच: एजुकेशनल टेक्स्ट को बोलकर सुनाना—सीखने और इंगेजमेंट दोनों के लिए फायदेमंद।
  8. प्रोडक्टिविटी ऐप्स के लिए स्पीच सिंथेसिस: नोट्स या टास्क ऐप्स में बोले गए रिमाइंडर या फीडबैक देना।
  9. वर्चुअल असिस्टेंट के लिए नैचुरल वॉइस: वॉइस असिस्टेंट को और ज़्यादा नैचुरल और दोस्ताना आवाज़ देना।
  10. ऑडिटोरी अलर्ट और नोटिफिकेशन: IoT डिवाइसेस या सिस्टम में आवाज़ आधारित अलर्ट और नोटिफिकेशन देना।

Google Cloud TTS API के बेहतरीन विकल्प

जनवरी 2022 तक, Google Text to Speech API के कई अच्छे विकल्प मौजूद हैं। इनकी पॉपुलैरिटी और फ़ीचर्स समय के साथ बदल सकते हैं। कुछ प्रमुख विकल्प:

  1. Speechify Text to Speech API: Speechify Text to Speech API 60+ भाषाओं व क्षेत्रीय बोलियों में 1,000+ ह्यूमन और इमोशनल AI वॉइस के विकल्प देता है। अभी ट्राई करें
  2. Amazon Polly: Amazon Polly—AWS सर्विस, जिसमें कई भाषाओं और वॉइसेस में स्पीच सिंथेसिस मिलता है और यह AWS सर्विसेज़ से आसानी से इंटीग्रेट हो जाता है।
  3. Microsoft Azure Speech Service: Azure Speech Service में Text to Speech फ़ीचर है, जो असिस्टेंट, नेविगेशन वगैरह में अच्छी तरह काम करता है।
  4. IBM Watson Text to Speech: IBM Watson का Text to Speech—कई वॉइसेस में नैचुरल स्पीच कन्वर्ज़न देता है।
  5. Nuance Communications: Nuance—स्पीच और वॉइस रिकग्निशन के साथ-साथ टेक्स्ट टू स्पीच सॉल्यूशंस प्रोवाइड करता है, ख़ासकर हेल्थकेयर, ऑटो और कस्टमर सर्विस के लिए।
  6. CereProc: CereProc एक और टेक्स्ट टू स्पीच कंपनी है जो एसेसिबिलिटी, एंटरटेनमेंट आदि के लिए हाई-क्वालिटी सिंथेटिक वॉइसेस देती है।
  7. iSpeech: iSpeech क्लाउड-बेस्ड टेक्स्ट टू स्पीच प्लेटफ़ॉर्म है, जो मल्टी-लैंग्वेज और वॉइस सपोर्ट देता है—मॉबाइल ऐप्स, वेबसाइट आदि के लिए मुफ़ीद।
  8. ResponsiveVoice: ResponsiveVoice किफ़ायती टेक्स्ट टू स्पीच API है—बहुभाषी सपोर्ट के साथ।
  9. Neospeech: Neospeech टेक्स्ट टू स्पीच पर फोकस करता है, नैचुरल वॉइसेस के लिए जाना जाता है और e-learning व एंटरटेनमेंट में काफ़ी उपयोगी है।
  10. ReadSpeaker: ReadSpeaker ऑनलाइन/ऑफ़लाइन टेक्स्ट टू स्पीच सॉल्यूशंस देता है—वेबसाइट, ई-लर्निंग और एसेसिबिलिटी के लिए।
  11. Acapelabox: Acapela Group क्लाउड-बेस्ड टेक्स्ट टू स्पीच API (Acapelabox) देती है, जिसमें मल्टी-लैंग्वेज और अलग-अलग वॉइस ऑप्शन हैं—कई इंडस्ट्री में इस्तेमाल के लिए।

FAQ

Google की कई वॉइस टियर हैं और लगभग हर टियर पर कुछ फ्री लिमिट मिलती है। उदाहरण के तौर पर: Standard voices पहली 10 लाख बाइट्स तक फ्री हैं। उसके बाद $16/मिलियन बाइट्स है। यानी हाँ, लिमिटेड कैरेक्टर या बाइट्स तक यह फ्री है।

बस https://cloud.google.com/text-to-speech/ पर अकाउंट बनाएं और वहाँ दिए गए स्टेप्स फॉलो करें। ऊपर इस ब्लॉग में पूरी प्रक्रिया विस्तार से समझाई गई है।

Google Cloud में लॉगिन करके कोई प्रोजेक्ट बनाएं। प्रोजेक्ट क्रिएट होने के बाद आप उसके लिए API key जनरेट कर सकते हैं।

Google Text to Speech API का URL है https://cloud.google.com/text-to-speech/

तकनीकी रूप से कोई फिक्स्ड फ्री ट्रायल पीरियड नहीं है। Google Cloud की हर सर्विस का अपना अलग फ्री टियर या नियम होता है।

नहीं। Google Cloud Text to Speech API के लिए इंटरनेट कनेक्शन ज़रूरी है।

Google Cloud सेवाओं (Text to Speech API सहित) के लिए API key, OAuth 2.0 या सर्विस अकाउंट के ज़रिए ऑथेंटिकेशन किया जा सकता है। सही तरीका आपके यूज़ केस और ऐप टाइप पर निर्भर करता है।

मैं इसे 5 स्टार दूँगा। इसे चलाना आसान है, सर्च फीचर बहुत अच्छा है, प्राइसिंग ठीक-ठाक है और कुल मिलाकर ये एक बढ़िया प्रोडक्ट है।

Google Text to Speech API की क्लाइंट लाइब्रेरीज़ कई भाषाओं में मिलती हैं—Python भी उनमें शामिल है। RESTful API भी उपलब्ध है—इसे किसी भी HTTP सपोर्ट भाषा में यूज़ कर सकते हैं।

Android में Google Text to Speech API जोड़ने के लिए TextToSpeech क्लास के साथ API रिक्वेस्ट बनाएं। पूरा स्टेप-बाय-स्टेप गाइड एंड्रॉइड के ऑफिशियल दस्तावेज़ में दिया है।

JavaScript ऐप में Google Text to Speech API के लिए API एंडपॉइंट पर HTTP रिक्वेस्ट भेजें, सही API कॉल बनाएँ और रिस्पॉन्स हैंडल करें। डिटेल के लिए ऑफिशियल डॉक्यूमेंटेशन देखें।

Speechify की पसंदीदा आवाज़ों तक API के ज़रिए तेज़, स्केलेबल और डेवलपर-फ्रेंडली एक्सेस पाएँ

API एक्सेस लें
api access banner

यह लेख शेयर करें

Cliff Weitzman

क्लिफ वाइट्समैन

Speechify के CEO और संस्थापक

क्लिफ वाइट्समैन डिस्लेक्सिया (अक्षरजटिलता) के पैरोकार हैं और वे Speechify के CEO और संस्थापक हैं — जो दुनिया का नंबर 1 टेक्स्ट-टू-स्पीच ऐप है, जिसके पास 100,000 से अधिक 5-स्टार समीक्षाएँ हैं और App Store की News & Magazines श्रेणी में नंबर 1 रहा है। 2017 में इंटरनेट को सीखने में कठिनाइयों का सामना करने वाले लोगों के लिए अधिक सुलभ बनाने के उनके काम के लिए उन्हें Forbes 30 Under 30 सूची में शामिल किया गया था। क्लिफ वाइट्समैन का ज़िक्र EdSurge, Inc., PC Mag, Entrepreneur, Mashable सहित कई प्रमुख प्रकाशनों में आ चुका है।

speechify logo

Speechify के बारे में

#1 टेक्स्ट टू स्पीच रीडर

Speechify दुनिया का अग्रणी टेक्स्ट टू स्पीच प्लेटफ़ॉर्म है जिस पर 50 मिलियन से ज़्यादा यूज़र्स भरोसा करते हैं, और इसके टेक्स्ट टू स्पीच iOS, Android, Chrome Extension, वेब ऐप और Mac डेस्कटॉप ऐप्स के लिए 500,000 से ज़्यादा पाँच-सितारा रिव्यूज़ हैं। 2025 में Apple ने Speechify को प्रतिष्ठित Apple Design Award से सम्मानित किया WWDC में, और इसे “एक अहम संसाधन बताया जो लोगों की ज़िंदगी आसान बनाता है।” Speechify 60+ भाषाओं में 1,000+ नैचुरल आवाज़ें ऑफर करता है और इसका इस्तेमाल लगभग 200 देशों में होता है। सिलेब्रिटी आवाज़ों में शामिल हैं Snoop Dogg और Gwyneth Paltrow। क्रिएटर्स और बिज़नेस के लिए Speechify Studio एडवांस्ड टूल्स देता है, जिनमें शामिल हैं ए.आई. वॉइस जेनरेटर, ए.आई. वॉइस क्लोनिंग, ए.आई. डबिंग और ए.आई. वॉइस चेंजर। Speechify अपने हाई-क्वालिटी, लो-कॉस्ट टेक्स्ट टू स्पीच API के ज़रिए कई बड़े प्रोडक्ट्स को भी पावर करता है। इसे The Wall Street Journal, CNBC, Forbes, TechCrunch और अन्य प्रमुख न्यूज़ आउटलेट्स में फीचर किया गया है, और Speechify आज दुनिया का सबसे बड़ा टेक्स्ट टू स्पीच प्रोवाइडर है। और जानने के लिए speechify.com/news, speechify.com/blog और speechify.com/press पर जाएँ।