تطور الذكاء الاصطناعي والذكاء الاصطناعي التوليدي كثيرًا. تحويل النص إلى كلام مفهوم قديم نسبيًا، موجود منذ فترة. هناك الكثير لتوضيحه وتبسيطه، وسأشرح الأمر من جميع الجوانب. سواء كنت مبتدئا أو محترفًا، ستجد هنا شرحًا وافيًا حول Google Text to Speech API.
قبل البدء في أي موضوع، علينا وضع الأساسيات. لنعرّف بعض المصطلحات ونبني قاعدة واضحة للفهم.
دعونا نفرّق بين تقنيتين هنا؛ تحويل النص إلى كلام وAPIs، ودور Google Cloud.
ملاحظة المحرر: هل تبحث عن أفضل API لتحويل النص إلى كلام؟ جرّب API تحويل النص إلى كلام من Speechify، موثّق وسهل الاستخدام API تحويل النص إلى كلام.
تحويل النص إلى كلام
كتبت عن هذا الموضوع مطولًا ويمكنك قراءة مدونة ما هو تحويل النص إلى كلام وأيضًا التعرف على توليد الكلام لفهم الموضوع أكثر. هذه التدوينات أكثر تفصيلًا ويمكنك تجاوزها الآن، سأختصر لك الفكرة هنا.
تعتمد تقنية تحويل النص إلى كلام على توليد الكلام الاصطناعي لتحويل الكلمات إلى صوت مسموع. لها استخدامات عديدة، مثل مساعدة من لديهم صعوبات في القراءة أو ضعف في البصر، وكذلك لرفع الإنتاجية.
API
API تعني واجهة برمجة التطبيقات، وهي ببساطة جسر للتواصل بين تطبيقين. إذا كنت تطوّر تطبيقًا فيه محتوى صوتي ويحتاج إلى تحويل النص إلى كلام، يمكنك بناء الميزة من الصفر أو بكل بساطة ربطه مع API جاهز لتحويل النص إلى كلام.API تحويل النص إلى كلام.
ترّكز على تطوير تطبيقك نفسه، وتعتمد على طرف ثالث عبر API ليوفّر لك وظيفة تحويل النص إلى صوت.
Google Cloud API
هنا يأتي دور Google Cloud. طورت جوجل API قويًا لتحويل النص إلى صوت وتقدّمه للمطورين بأسعار متعددة. أي مطور يريد بناء تطبيقات مخصّصة تحتاج تحويل نص إلى صوت يمكنه بكل سهولة استخدام TTS من جوجل. TTS اختصار لـتحويل النص إلى كلام.
للبدء بسرعة، تفضّل إلى Google Cloud Console عبر الرابط https://cloud.google.com/. ستجد أدلة الاستخدام، إدارة الحساب، والوصول لأصوات wavenet وغيرها.
Google Cloud منصة حوسبة سحابية من جوجل وتقدّم خدمات كثيرة. يمكنك استخدام خدمة واحدة أو مجموعة خدمات. كل ما عليك هو إنشاء مفاتيح وصول للمصادقة لكل API. أغلب الخدمات مدفوعة لكن غالبًا ما توجد حدود مجانية.
اشترت جوجل شركة DeepMind عام 2014 لتقنيات تحويل النص إلى كلام والعمل على الشبكات العصبية. إذا صادفت اسم DeepMind فهي الآن مملوكة لجوجل.
الآن بعد أن أصبح لدينا فهم عام، لنبدأ في التفاصيل حول Google Cloud Text to Speech API.
ميزات Google Text to Speech API
لا خلاف أن جوجل من روّاد التقنية عالميًا. وبالنسبة لـTTS API، ستجد ميزات متقدمة تتطوّر باستمرار.
صوت عالي الجودة
أصوات تحويل النص إلى كلام من جوجل من الأفضل في السوق، وتبدو بشرية بإلقاء طبيعي. TTS ما زالت في بداياتها، ومن يقدّم الصوت الأقرب للواقع سيتصدر السوق.
تشكيلة واسعة من الأصوات
توفر جوجل واحدة من أكبر تشكيلات الأصوات ليظهر مشروعك مميزًا عن باقي التطبيقات أو المنافسين.
أنشئ صوتك الخاص
هذا قريب من تقنية استنساخ الصوت. يمكنك إنشاء صوت مخصّص بتسجيل صوتك أو صوت أي شخص آخر بموافقته، ليُستخدم في قراءة كل نصوصك.
أصوات عصبية
الأصوات العصبية تقدّم أفضل جودة ضمن مجموعة واسعة من الأصوات، ويمكن تكييفها لتناسب جمهورًا عالميًا.
أصوات استوديو
أصوات الاستوديو أكثر احترافية وتشبه التسجيل الصوتي التقليدي بجودة عالية جدًا.
ضبط الصوت
اختر صوتًا وعدّل السرعة، النبرة وغيرها لتخصيص الإخراج الصوتي كما تريد.
كم تكلفة Google Text to Speech API؟
الأمر يعتمد على جودة الصوت وطول النص. الأصوات الطبيعية أغلى، لكن الأسعار عمومًا معقولة. حتى أعلى جودة تظل منخفضة الكلفة نسبيًا.
| نوع الصوت | مجاني شهريًا | بعد تجاوز المجاني |
| أصوات Neural2 | 0 إلى 1 مليون بايت | 16$ لكل مليون بايت |
| أصوات Polyglot | 0 إلى 1 مليون بايت | 16$ لكل مليون بايت |
| أصوات الاستوديو | 0 - 100,000 بايت | 160$ لكل مليون بايت |
| الأصوات القياسية | 0 إلى 4 مليون حرف | 4$ لكل مليون حرف |
| أصوات Wavenet | 0 إلى 1 مليون حرف | 16$ لكل مليون حرف |
ما الفرق بين الحروف والبايت
كما ترى، الأسعار تختلف حسب جودة الصوت. معالجة الصوت وتحويل النص إلى كلام تختلف من فئة لأخرى. الأصوات القياسية تُحسَب بالحروف.
يعني إذا كان لديك 4 مليون حرف، سيكلفك 16 دولارًا لتحويلها إلى كلام باستخدام الصوت القياسي.
أصوات الاستوديو تحتاج معالجة أكبر وتُحتسب بالبايت. في لغات مثل اليابانية، قد يكون الحرف الواحد عبارة عن عدة بايتات.
لحساب التكلفة بدقة، يجب معرفة لغة النص ومتوسط عدد البايت لكل حرف، ثم التقدير بناءً على ذلك.
كيف تجهّز مشروع Google Cloud Platform لتحويل النص إلى كلام؟
- أنشئ حساب Google Cloud أو سجّل الدخول هنا
- أنشئ مشروعًا جديدًا وسمّه كما يناسبك
- أضف وسيلة دفع. لن تُحاسب إلا على ما تستخدمه.
- اختر مشروعك واربطه بحساب الدفع.
- فعّل API تحويل النص إلى كلام. ابحث في شريط المنتجات عن "speech".
- من النتائج اختر Cloud Text-to-Speech API
- قم بإعداد المصادقة لبيئة التطوير. راجع التعليمات الخاصة بالمصادقة لـText-to-Speech.
يمكنك أيضًا تجربة تحويل النص إلى كلام دون ربط المشروع:
- اختر خيار TRY THIS API.
- لتفعيل API لمشروعك، اضغط ENABLE.
اطلع على توثيق Google Cloud للمزيد من المساعدة.
كيفية إيقاف تفعيل Text to Speech API
لإيقاف التفعيل، اذهب إلى لوحة تحكم Google Cloud واضغط رابط "الانتقال لمعاينة APIs" داخل صندوق APIs، ثم ابحث عن Text-to-Speech API واضغط عليه، واختر "تعطيل API" من أعلى الصفحة.
البدء باستخدام Google Text to Speech API
الآن بعد أن أعددت المشروع، يمكنك البدء عبر سطر الأوامر.
gcloud initأنشئ بيانات مصادقة محلية
gcloud auth application-default loginالآن يمكن تثبيت مكتبة العميل. هذا مثال على Node.js
npm install --save @google-cloud/text-to-speechGoogle Cloud Text to Speech API يدعم هذه اللغات:
- Go
- Java
- Node.js
- C++
- C#
- PHP
- Python
- Ruby
- TypeScript
- Terraform
- YAML
كيف يعمل Google Cloud API؟
كل شيء يبدأ بطلب API بسيط. ترسل النص وتستلم ملفًا صوتيًا. في الطلب تختار الصوت، اللغة، وغير ذلك، ثم API تحويل النص إلى كلام يعيد لك الملف الصوتي.
تعلّم كيفية تثبيت واستخدام مكتبات تحويل النص إلى كلام من هنا. أمثلتنا لـNode.js ويمكنك اختيار لغة أخرى مثل بايثون أو PHP.
const textToSpeech = require('@google-cloud/text-to-speech');
const fs = require('fs');
const util = require('util');
const client = new textToSpeech.TextToSpeechClient();
/**
* TODO(developer): Uncomment the following lines before running the sample.
*/
// const text = 'Text to synthesize, eg. hello';
// const outputFile = 'Local path to save audio file to, e.g. output.mp3';
const request = {
input: {text: text},
voice: {languageCode: 'en-US', ssmlGender: 'FEMALE'},
audioConfig: {audioEncoding: 'MP3'},
};
const [response] = await client.synthesizeSpeech(request);
const writeFile = util.promisify(fs.writeFile);
await writeFile(outputFile, response.audioContent, 'binary');
console.log(`Audio content written to file: ${outputFile}`);وبهذا تكون قد أعددت Google Cloud Text to Speech API وأرسلت أول طلب لتحويل نص إلى كلام. يمكنك استلام الملف بعدة صيغ: OGG أو MP3.
طرق لاستخدام Google Text to Speech API
Google Text to Speech (TTS) API يقدّم حلاً مرنًا لمجالات كثيرة. من أشهر حالات الاستخدام:
- تحويل النص إلى كلام للمكفوفين: تفعيل قراءة النصوص صوتيًا لجعل المعلومات الرقمية متاحة للمكفوفين.
- أنظمة الهاتف الآلي: استخدام TTS لصناعة رسائل صوتية طبيعية لخدمات العملاء وخطوط المعلومات.
- التعليق الصوتي للمحتوى: إنشاء تعليق صوتي طبيعي للفيديو أو البودكاست لتعزيز تجربة المشاهدة أو الاستماع.
- تحويل النصوص المترجمة إلى كلام: قراءة النصوص المترجمة بصوت عالٍ لتمكين التعلم أو تسهيل التواصل بلغات مختلفة.
- مساعدة القرّاء من ذوي الديسلكسيا: توفير TTS لمساندة المصابين بالديسلكسيا في متابعة النصوص المكتوبة.
- الملاحة الصوتية في التطبيقات: دمج TTS في تطبيقات الملاحة لتقديم إرشادات صوتية فورية.
- تحويل المحتوى التعليمي إلى صوت: دعم التعليم الإلكتروني بجعل النصوص مسموعة للمساعدة على الفهم والتركيز.
- توليد الكلام لتطبيقات الإنتاجية: دمج TTS في أدوات الأعمال، مثل إدارة المهام، لاسترجاع المعلومات صوتيًا.
- صوت واقعي للمساعدين الافتراضيين: جعل تفاعل المستخدم مع المساعد الافتراضي أبسط وأكثر طبيعية.
- تنبيهات وسائط صوتية: استخدم TTS لتنبيهات صوتية على أجهزة إنترنت الأشياء لزيادة انتباه المستخدم.
أفضل بدائل Google Cloud TTS API
حتى يناير 2022، هناك عدة بدائل لـGoogle Text to Speech API، وقد تتغير الخدمات لاحقًا. إليك بعض الخيارات البارزة:
- Speechify Text to Speech API: Speechify Text to Speech API توفّر أكثر من 1,000 صوت واقعي ومعبر بالعاطفة مدعوم بالذكاء الاصطناعي بـ60+ لغة ولهجة. احجز مكانك اليوم.
- Amazon Polly: من أمازون ويب سيرفيسز (AWS)، Polly توفّر أصواتًا طبيعية بلغات وأصوات عديدة وتندمج بسلاسة مع خدمات AWS.
- Microsoft Azure Speech Service: تتضمّن تحويل النص إلى كلام وتدعم تطبيقات عديدة مثل المساعدات الصوتية، الملاحة، وغيرها.
- IBM Watson Text to Speech: خدمة تحويل النص إلى كلام من IBM Watson تمكّن المطورين من إنتاج صوت طبيعي بخيارات متعددة.
- Nuance Communications: تقدّم حلولاً للتعرف على الكلام وتحويل النصوص إلى كلام للتطبيقات الطبية، السيارات، وخدمة العملاء.
- CereProc: شركة تكنولوجيا تحويل النص إلى كلام وتوفّر أصواتًا اصطناعية عالية الجودة للتواصل والترفيه.
- iSpeech: خدمة نص إلى كلام سحابية تدعم لغات وأصوات متعددة، مناسبة للتطبيقات والمواقع.
- ResponsiveVoice: API نص إلى كلام بسيط يدعم لغات كثيرة للاستخدام على الويب.
- Neospeech: توفّر حلول نص إلى كلام تركّز على الأصوات الطبيعية لتطبيقات التعليم والترفيه.
- ReadSpeaker: حلول نص إلى كلام أونلاين وأوفلاين للمواقع، التعليم الإلكتروني، والخدمات المساندة.
- Acapelabox: خدمة سحابية من Acapela Group تدعم لغات وأصوات متعددة لتطبيقات في عدة قطاعات.
الأسئلة الشائعة
توفّر جوجل عدة مستويات من الأصوات، ولكل مستوى حد مجاني تقريبًا. مثلاً الأصوات القياسية مجانية لأول مليون بايت، وبعدها التكلفة 16 دولارًا لكل مليون. إذًا نعم، الخدمة مجانية حتى حد معيّن من الحروف أو البايتات.
أنشئ حسابًا عبر https://cloud.google.com/text-to-speech/ واتبع الخطوات هناك. وقد شرحنا العملية بالتفصيل في هذه التدوينة أعلاه.
يمكنك الحصول عليه عبر تسجيل الدخول إلى حساب Google Cloud، ثم إنشاء مشروع جديد وتوليد مفتاح API له.
رابط Google Text to Speech API هو https://cloud.google.com/text-to-speech/
لا توجد فترة تجربة مجانية موحّدة لكل خدمات Google Cloud، بل لكل خدمة شروطها وحدّها المجاني الخاص.
لا. API تحويل النص إلى كلام من جوجل يتطلّب اتصالاً بالإنترنت.
يمكن المصادقة على خدمات Google Cloud، مثل Text to Speech، باستخدام مفاتيح API أو OAuth 2.0 أو حسابات الخدمة. نوع المصادقة المناسب يعتمد على طبيعة التطبيق والاستخدام.
أعطيها 5 نجوم. سهلة الاستخدام، وخاصية البحث ممتازة وأستفيد منها كثيرًا. السعر مناسب والخدمة عمومًا رائعة.
يقدّم Google Text to Speech API مكتبات للغات مثل بايثون، ويدعم طلبات REST API، لذا يعمل مع أي لغة تدعم طلبات HTTP.
يمكن دمج API تحويل النص إلى كلام في أندرويد عبر استخدام فئة TextToSpeech ثم إرسال الطلبات برمجيًا. تجد الشرح خطوة بخطوة في التوثيق الرسمي.
لإضافة API تحويل النص إلى كلام في جافاسكريبت، يمكنك إرسال طلب HTTP إلى الـAPI مع تجهيز الطلب والتعامل مع الاستجابة في الكود. راجع التوثيق الرسمي للتفاصيل.

