1. الرئيسية
  2. واجهة برمجة التطبيقات (API)
  3. كل ما تريد معرفته عن Google Cloud Text to Speech API

كل ما تريد معرفته عن Google Cloud Text to Speech API

Cliff Weitzman

كليف وايتزمان

الرئيس التنفيذي ومؤسس Speechify

واجهة برمجة تطبيقات سبيتشيفاي توفر وقت استجابة يبلغ 300 مللي ثانية، وأصواتاً بجودة بشرية، وأكثر من 50 لغة

apple logoجائزة آبل للتصميم لعام 2025
أكثر من 50 مليون مستخدم

تطور الذكاء الاصطناعي والذكاء الاصطناعي التوليدي كثيرًا. تحويل النص إلى كلام مفهوم قديم نسبيًا، موجود منذ فترة. هناك الكثير لتوضيحه وتبسيطه، وسأشرح الأمر من جميع الجوانب. سواء كنت مبتدئا أو محترفًا، ستجد هنا شرحًا وافيًا حول Google Text to Speech API.

قبل البدء في أي موضوع، علينا وضع الأساسيات. لنعرّف بعض المصطلحات ونبني قاعدة واضحة للفهم.

دعونا نفرّق بين تقنيتين هنا؛ تحويل النص إلى كلام وAPIs، ودور Google Cloud.

ملاحظة المحرر: هل تبحث عن أفضل API لتحويل النص إلى كلام؟ جرّب API تحويل النص إلى كلام من Speechify، موثّق وسهل الاستخدام API تحويل النص إلى كلام.

تحويل النص إلى كلام

كتبت عن هذا الموضوع مطولًا ويمكنك قراءة مدونة ما هو تحويل النص إلى كلام وأيضًا التعرف على توليد الكلام لفهم الموضوع أكثر. هذه التدوينات أكثر تفصيلًا ويمكنك تجاوزها الآن، سأختصر لك الفكرة هنا.

تعتمد تقنية تحويل النص إلى كلام على توليد الكلام الاصطناعي لتحويل الكلمات إلى صوت مسموع. لها استخدامات عديدة، مثل مساعدة من لديهم صعوبات في القراءة أو ضعف في البصر، وكذلك لرفع الإنتاجية.

API

API تعني واجهة برمجة التطبيقات، وهي ببساطة جسر للتواصل بين تطبيقين. إذا كنت تطوّر تطبيقًا فيه محتوى صوتي ويحتاج إلى تحويل النص إلى كلام، يمكنك بناء الميزة من الصفر أو بكل بساطة ربطه مع API جاهز لتحويل النص إلى كلام.API تحويل النص إلى كلام.

ترّكز على تطوير تطبيقك نفسه، وتعتمد على طرف ثالث عبر API ليوفّر لك وظيفة تحويل النص إلى صوت.

Google Cloud API

هنا يأتي دور Google Cloud. طورت جوجل API قويًا لتحويل النص إلى صوت وتقدّمه للمطورين بأسعار متعددة. أي مطور يريد بناء تطبيقات مخصّصة تحتاج تحويل نص إلى صوت يمكنه بكل سهولة استخدام TTS من جوجل. TTS اختصار لـتحويل النص إلى كلام.

للبدء بسرعة، تفضّل إلى Google Cloud Console عبر الرابط https://cloud.google.com/. ستجد أدلة الاستخدام، إدارة الحساب، والوصول لأصوات wavenet وغيرها.

Google Cloud منصة حوسبة سحابية من جوجل وتقدّم خدمات كثيرة. يمكنك استخدام خدمة واحدة أو مجموعة خدمات. كل ما عليك هو إنشاء مفاتيح وصول للمصادقة لكل API. أغلب الخدمات مدفوعة لكن غالبًا ما توجد حدود مجانية.

اشترت جوجل شركة DeepMind عام 2014 لتقنيات تحويل النص إلى كلام والعمل على الشبكات العصبية. إذا صادفت اسم DeepMind فهي الآن مملوكة لجوجل.

الآن بعد أن أصبح لدينا فهم عام، لنبدأ في التفاصيل حول Google Cloud Text to Speech API.

ميزات Google Text to Speech API

لا خلاف أن جوجل من روّاد التقنية عالميًا. وبالنسبة لـTTS API، ستجد ميزات متقدمة تتطوّر باستمرار.

صوت عالي الجودة

أصوات تحويل النص إلى كلام من جوجل من الأفضل في السوق، وتبدو بشرية بإلقاء طبيعي. TTS ما زالت في بداياتها، ومن يقدّم الصوت الأقرب للواقع سيتصدر السوق.

تشكيلة واسعة من الأصوات

توفر جوجل واحدة من أكبر تشكيلات الأصوات ليظهر مشروعك مميزًا عن باقي التطبيقات أو المنافسين.

أنشئ صوتك الخاص

هذا قريب من تقنية استنساخ الصوت. يمكنك إنشاء صوت مخصّص بتسجيل صوتك أو صوت أي شخص آخر بموافقته، ليُستخدم في قراءة كل نصوصك.

أصوات عصبية

الأصوات العصبية تقدّم أفضل جودة ضمن مجموعة واسعة من الأصوات، ويمكن تكييفها لتناسب جمهورًا عالميًا.

أصوات استوديو

أصوات الاستوديو أكثر احترافية وتشبه التسجيل الصوتي التقليدي بجودة عالية جدًا.

ضبط الصوت

اختر صوتًا وعدّل السرعة، النبرة وغيرها لتخصيص الإخراج الصوتي كما تريد.

كم تكلفة Google Text to Speech API؟

الأمر يعتمد على جودة الصوت وطول النص. الأصوات الطبيعية أغلى، لكن الأسعار عمومًا معقولة. حتى أعلى جودة تظل منخفضة الكلفة نسبيًا.

نوع الصوتمجاني شهريًابعد تجاوز المجاني
أصوات Neural20 إلى 1 مليون بايت16$ لكل مليون بايت
أصوات Polyglot0 إلى 1 مليون بايت16$ لكل مليون بايت
أصوات الاستوديو0 - 100,000 بايت160$ لكل مليون بايت
الأصوات القياسية0 إلى 4 مليون حرف4$ لكل مليون حرف
أصوات Wavenet0 إلى 1 مليون حرف16$ لكل مليون حرف

ما الفرق بين الحروف والبايت

كما ترى، الأسعار تختلف حسب جودة الصوت. معالجة الصوت وتحويل النص إلى كلام تختلف من فئة لأخرى. الأصوات القياسية تُحسَب بالحروف.

يعني إذا كان لديك 4 مليون حرف، سيكلفك 16 دولارًا لتحويلها إلى كلام باستخدام الصوت القياسي.

أصوات الاستوديو تحتاج معالجة أكبر وتُحتسب بالبايت. في لغات مثل اليابانية، قد يكون الحرف الواحد عبارة عن عدة بايتات.

لحساب التكلفة بدقة، يجب معرفة لغة النص ومتوسط عدد البايت لكل حرف، ثم التقدير بناءً على ذلك.

كيف تجهّز مشروع Google Cloud Platform لتحويل النص إلى كلام؟

  1. أنشئ حساب Google Cloud أو سجّل الدخول هنا
  2. أنشئ مشروعًا جديدًا وسمّه كما يناسبك
  3. أضف وسيلة دفع. لن تُحاسب إلا على ما تستخدمه.
  4. اختر مشروعك واربطه بحساب الدفع.
  5. فعّل API تحويل النص إلى كلام. ابحث في شريط المنتجات عن "speech".
  6. من النتائج اختر Cloud Text-to-Speech API
  7. قم بإعداد المصادقة لبيئة التطوير. راجع التعليمات الخاصة بالمصادقة لـText-to-Speech.

يمكنك أيضًا تجربة تحويل النص إلى كلام دون ربط المشروع:

  1. اختر خيار TRY THIS API.
  2. لتفعيل API لمشروعك، اضغط ENABLE.

اطلع على توثيق Google Cloud للمزيد من المساعدة.

كيفية إيقاف تفعيل Text to Speech API

لإيقاف التفعيل، اذهب إلى لوحة تحكم Google Cloud واضغط رابط "الانتقال لمعاينة APIs" داخل صندوق APIs، ثم ابحث عن Text-to-Speech API واضغط عليه، واختر "تعطيل API" من أعلى الصفحة.

البدء باستخدام Google Text to Speech API

الآن بعد أن أعددت المشروع، يمكنك البدء عبر سطر الأوامر.

gcloud init

أنشئ بيانات مصادقة محلية

gcloud auth application-default login

الآن يمكن تثبيت مكتبة العميل. هذا مثال على Node.js

npm install --save @google-cloud/text-to-speech

Google Cloud Text to Speech API يدعم هذه اللغات:

  1. Go
  2. Java
  3. Node.js
  4. C++
  5. C#
  6. PHP
  7. Python
  8. Ruby
  9. TypeScript
  10. Terraform
  11. YAML

كيف يعمل Google Cloud API؟

كل شيء يبدأ بطلب API بسيط. ترسل النص وتستلم ملفًا صوتيًا. في الطلب تختار الصوت، اللغة، وغير ذلك، ثم API تحويل النص إلى كلام يعيد لك الملف الصوتي.

تعلّم كيفية تثبيت واستخدام مكتبات تحويل النص إلى كلام من هنا. أمثلتنا لـNode.js ويمكنك اختيار لغة أخرى مثل بايثون أو PHP.

const textToSpeech = require('@google-cloud/text-to-speech');
const fs = require('fs');
const util = require('util');

const client = new textToSpeech.TextToSpeechClient();

/**
 * TODO(developer): Uncomment the following lines before running the sample.
 */
// const text = 'Text to synthesize, eg. hello';
// const outputFile = 'Local path to save audio file to, e.g. output.mp3';

const request = {
  input: {text: text},
  voice: {languageCode: 'en-US', ssmlGender: 'FEMALE'},
  audioConfig: {audioEncoding: 'MP3'},
};
const [response] = await client.synthesizeSpeech(request);
const writeFile = util.promisify(fs.writeFile);
await writeFile(outputFile, response.audioContent, 'binary');
console.log(`Audio content written to file: ${outputFile}`);

وبهذا تكون قد أعددت Google Cloud Text to Speech API وأرسلت أول طلب لتحويل نص إلى كلام. يمكنك استلام الملف بعدة صيغ: OGG أو MP3.

طرق لاستخدام Google Text to Speech API

Google Text to Speech (TTS) API يقدّم حلاً مرنًا لمجالات كثيرة. من أشهر حالات الاستخدام:

  1. تحويل النص إلى كلام للمكفوفين: تفعيل قراءة النصوص صوتيًا لجعل المعلومات الرقمية متاحة للمكفوفين.
  2. أنظمة الهاتف الآلي: استخدام TTS لصناعة رسائل صوتية طبيعية لخدمات العملاء وخطوط المعلومات.
  3. التعليق الصوتي للمحتوى: إنشاء تعليق صوتي طبيعي للفيديو أو البودكاست لتعزيز تجربة المشاهدة أو الاستماع.
  4. تحويل النصوص المترجمة إلى كلام: قراءة النصوص المترجمة بصوت عالٍ لتمكين التعلم أو تسهيل التواصل بلغات مختلفة.
  5. مساعدة القرّاء من ذوي الديسلكسيا: توفير TTS لمساندة المصابين بالديسلكسيا في متابعة النصوص المكتوبة.
  6. الملاحة الصوتية في التطبيقات: دمج TTS في تطبيقات الملاحة لتقديم إرشادات صوتية فورية.
  7. تحويل المحتوى التعليمي إلى صوت: دعم التعليم الإلكتروني بجعل النصوص مسموعة للمساعدة على الفهم والتركيز.
  8. توليد الكلام لتطبيقات الإنتاجية: دمج TTS في أدوات الأعمال، مثل إدارة المهام، لاسترجاع المعلومات صوتيًا.
  9. صوت واقعي للمساعدين الافتراضيين: جعل تفاعل المستخدم مع المساعد الافتراضي أبسط وأكثر طبيعية.
  10. تنبيهات وسائط صوتية: استخدم TTS لتنبيهات صوتية على أجهزة إنترنت الأشياء لزيادة انتباه المستخدم.

أفضل بدائل Google Cloud TTS API

حتى يناير 2022، هناك عدة بدائل لـGoogle Text to Speech API، وقد تتغير الخدمات لاحقًا. إليك بعض الخيارات البارزة:

  1. Speechify Text to Speech API: Speechify Text to Speech API توفّر أكثر من 1,000 صوت واقعي ومعبر بالعاطفة مدعوم بالذكاء الاصطناعي بـ60+ لغة ولهجة. احجز مكانك اليوم.
  2. Amazon Polly: من أمازون ويب سيرفيسز (AWS)، Polly توفّر أصواتًا طبيعية بلغات وأصوات عديدة وتندمج بسلاسة مع خدمات AWS.
  3. Microsoft Azure Speech Service: تتضمّن تحويل النص إلى كلام وتدعم تطبيقات عديدة مثل المساعدات الصوتية، الملاحة، وغيرها.
  4. IBM Watson Text to Speech: خدمة تحويل النص إلى كلام من IBM Watson تمكّن المطورين من إنتاج صوت طبيعي بخيارات متعددة.
  5. Nuance Communications: تقدّم حلولاً للتعرف على الكلام وتحويل النصوص إلى كلام للتطبيقات الطبية، السيارات، وخدمة العملاء.
  6. CereProc: شركة تكنولوجيا تحويل النص إلى كلام وتوفّر أصواتًا اصطناعية عالية الجودة للتواصل والترفيه.
  7. iSpeech: خدمة نص إلى كلام سحابية تدعم لغات وأصوات متعددة، مناسبة للتطبيقات والمواقع.
  8. ResponsiveVoice: API نص إلى كلام بسيط يدعم لغات كثيرة للاستخدام على الويب.
  9. Neospeech: توفّر حلول نص إلى كلام تركّز على الأصوات الطبيعية لتطبيقات التعليم والترفيه.
  10. ReadSpeaker: حلول نص إلى كلام أونلاين وأوفلاين للمواقع، التعليم الإلكتروني، والخدمات المساندة.
  11. Acapelabox: خدمة سحابية من Acapela Group تدعم لغات وأصوات متعددة لتطبيقات في عدة قطاعات.

الأسئلة الشائعة

توفّر جوجل عدة مستويات من الأصوات، ولكل مستوى حد مجاني تقريبًا. مثلاً الأصوات القياسية مجانية لأول مليون بايت، وبعدها التكلفة 16 دولارًا لكل مليون. إذًا نعم، الخدمة مجانية حتى حد معيّن من الحروف أو البايتات.

أنشئ حسابًا عبر https://cloud.google.com/text-to-speech/ واتبع الخطوات هناك. وقد شرحنا العملية بالتفصيل في هذه التدوينة أعلاه.

يمكنك الحصول عليه عبر تسجيل الدخول إلى حساب Google Cloud، ثم إنشاء مشروع جديد وتوليد مفتاح API له.

رابط Google Text to Speech API هو https://cloud.google.com/text-to-speech/

لا توجد فترة تجربة مجانية موحّدة لكل خدمات Google Cloud، بل لكل خدمة شروطها وحدّها المجاني الخاص.

لا. API تحويل النص إلى كلام من جوجل يتطلّب اتصالاً بالإنترنت.

يمكن المصادقة على خدمات Google Cloud، مثل Text to Speech، باستخدام مفاتيح API أو OAuth 2.0 أو حسابات الخدمة. نوع المصادقة المناسب يعتمد على طبيعة التطبيق والاستخدام.

أعطيها 5 نجوم. سهلة الاستخدام، وخاصية البحث ممتازة وأستفيد منها كثيرًا. السعر مناسب والخدمة عمومًا رائعة.

يقدّم Google Text to Speech API مكتبات للغات مثل بايثون، ويدعم طلبات REST API، لذا يعمل مع أي لغة تدعم طلبات HTTP.

يمكن دمج API تحويل النص إلى كلام في أندرويد عبر استخدام فئة TextToSpeech ثم إرسال الطلبات برمجيًا. تجد الشرح خطوة بخطوة في التوثيق الرسمي.

لإضافة API تحويل النص إلى كلام في جافاسكريبت، يمكنك إرسال طلب HTTP إلى الـAPI مع تجهيز الطلب والتعامل مع الاستجابة في الكود. راجع التوثيق الرسمي للتفاصيل.

وصول سريع وسهل إلى أصوات سبيتشيفاي المفضلة عبر واجهة برمجة التطبيقات – سريعة، قابلة للتوسّع، وسهلة الاستخدام للمطورين

احصل على وصول API
api access banner

شارك هذا المقال

Cliff Weitzman

كليف وايتزمان

الرئيس التنفيذي ومؤسس Speechify

كليف وايتزمان مدافع عن ذوي عسر القراءة والرئيس التنفيذي ومؤسس تطبيق Speechify، أفضل تطبيق لتحويل النص إلى كلام في العالم، إذ نال أكثر من 100,000 تقييم بخمس نجوم وتصدّر متجر التطبيقات ضمن فئة الأخبار والمجلات. في عام 2017، أدرجته فوربس ضمن قائمة 30 تحت 30 تقديراً لجهوده في جعل الإنترنت أكثر سهولة وصولاً لذوي صعوبات التعلّم. ظهر كليف وايتزمان في منصات مثل EdSurge وInc. وPC Mag وEntrepreneur وMashable، وغيرها من وسائل الإعلام الرائدة.

speechify logo

عن سبيتشيفاي

أفضل قارئ لتحويل النص إلى كلام

سبيتشيفاي هو المنصة الرائدة عالميًا لتحويل النص إلى كلام، يثق به أكثر من 50 مليون مستخدم ومدعوم بأكثر من 500,000 مراجعة خماسية النجوم عبر تطبيقاته الخاصة بتحويل النص إلى كلام على iOS، أندرويد، إضافة كروم، تطبيق الويب، وتطبيقات سطح المكتب لماك. في عام 2025، منحت آبل سبيتشيفاي جائزة Apple Design Award المرموقة في WWDC، واصفةً إياه بأنه “مورد أساسي يساعد الناس على عيش حياتهم.” يقدم سبيتشيفاي أكثر من 1,000 صوت طبيعي في أكثر من 60 لغة، ويُستخدم في ما يقرب من 200 دولة. من بين الأصوات المشهورة: سنوب دوج وغوينث بالترو. للمبدعين والشركات، Speechify Studio يوفر أدوات متقدمة، بما في ذلك مولِّد الصوت بالذكاء الاصطناعي، استنساخ الصوت بالذكاء الاصطناعي، الدبلجة بالذكاء الاصطناعي، ومغيّر الصوت بالذكاء الاصطناعي. كما يدعم سبيتشيفاي منتجات عالمية رائدة بجودة عالية وبأسعار مناسبة عبر واجهة برمجة تطبيقات تحويل النص إلى كلام الخاصة به. ظهر في وول ستريت جورنال، سي إن بي سي، فوربس، تيك كرانش، وغيرها من المنصات الإخبارية الرائدة، ويُعدّ سبيتشيفاي أكبر مزود لخدمة تحويل النص إلى كلام في العالم. زر speechify.com/news، speechify.com/blog، وspeechify.com/press لمعرفة المزيد.