เทคโนโลยี AI สร้างสรรค์และปัญญาประดิษฐ์ได้พัฒนาอย่างก้าวกระโดด Text to speech เป็นแนวคิดที่มีมานาน เราจะอธิบายให้เข้าใจง่าย ทั้งสายเริ่มต้นและมือโปร เพื่อให้เห็นภาพ Google Text to Speech API แบบชัดเจน
ก่อนลงลึกในหัวข้อ ขอปูพื้นด้วยคำสำคัญเพื่อความเข้าใจที่ถูกต้อง
ขอแยกเทคโนโลยีออกเป็น 2 ส่วน คือ text to speech และ API พร้อมอธิบายบทบาทของ Google Cloud
หมายเหตุ: กำลังมองหา API text to speech ที่ดีที่สุดอยู่หรือเปล่า? ลองดูของ Speechify เอกสารชัด ใช้งานง่ายได้ที่นี่ text to speech API.
Text to Speech
เขียนเรื่องนี้ไว้อย่างละเอียด อ่านได้ที่ What is text to speech และศึกษาเพิ่มเติมจาก speech synthesis ถ้าอยากอ่านเชิงลึก หรือจะข้ามไปก็ได้ ด้านล่างนี้คือสรุปสั้นๆ
Text to speech ใช้เทคโนโลยี speech synthesis แปลงข้อความเป็นเสียง AI ใช้ได้หลายกรณี ตั้งแต่ช่วยผู้มีปัญหาอ่านหนังสือ เช่น ดิสเล็กเซีย หรือสายตาไม่ดี ไปจนถึงเพิ่มประสิทธิภาพให้ผู้ใช้งานทั่วไป
API
API ย่อมาจาก Application Programming Interface เป็นตัวกลางเชื่อมแอป ถ้าคุณทำแอปเสียงที่ต้องใช้ text to speech จะสร้างระบบเองทั้งหมดหรือใช้ text to speech API ที่มีอยู่แล้วก็ได้text to speech API.
โฟกัสพัฒนาแอปของคุณเอง แล้วใช้ API ภายนอกเป็นสะพานดึงฟีเจอร์ text to speech มาใช้งานได้เลย
Google Cloud API
Google Cloud มี Text to speech API ที่แข็งแกร่ง เปิดให้ dev ใช้หลายแพ็กเกจ Dev ที่สร้างแอปหรือเว็บแอปที่ต้องมี text to speech สามารถใช้ฟีเจอร์นี้ได้เลย TTS ย่อมาจาก text to speech.
ดู Quickstart ที่ Google Cloud Console https://cloud.google.com/ จะมีทั้งคู่มือ ระบบจัดการบัญชีเสียง wavenet และอื่นๆ
Google Cloud คือแพลตฟอร์ม cloud ของ Google ให้บริการแบบโมดูลาร์ เลือกใช้บางส่วนหรือทั้งหมดก็ได้ ต้องสร้าง access key เพื่อยืนยันตนกับแต่ละ API (สะพานเชื่อม) ส่วนใหญ่มีค่าใช้จ่าย แต่อาจมีฟรีในบางเงื่อนไข
Google ซื้อ DeepMind ปี 2014 เพราะเทคโนโลยี text to speech และ AI neural network ต่างๆ หากเจอชื่อ DeepMind ก็หมายถึง Google DeepMind (ที่รวมกันแล้ว)
เมื่อเข้าใจภาพรวมแล้ว ไปดู Google Cloud Text to Speech API เชิงลึกกันต่อ
ฟีเจอร์ของ Google Text to Speech API
Google เป็นหนึ่งในผู้นำเทคโนโลยีระดับโลก ด้วย TTS API คุณจะได้ใช้ฟีเจอร์ชั้นนำที่อัปเดตอยู่ตลอด
เสียงสมจริงคุณภาพสูง
เสียง text to speech ของ Google จัดว่าอยู่แถวหน้าของอุตสาหกรรม ฟังใกล้เคียงคนพูดจริงมาก เสียง TTS ที่ใกล้เคียงมนุษย์ที่สุดมักเป็นตัวนำตลาด
เลือกเสียงได้หลากหลาย
Google มีเสียงให้เลือกเยอะมาก ทำให้เสียงของคุณไม่ซ้ำใครและไม่กลมกับคู่แข่ง
สร้างเสียงใหม่ของตัวเอง
เทคโนโลยีนี้ใกล้เคียงกับ voice cloning บันทึกเสียงตัวเอง (หรือผู้อื่นที่อนุญาต) แล้วให้ระบบอ่านข้อความของคุณด้วยเสียงนั้น
Neural Voices
Neural voices ให้คุณภาพเสียงดีที่สุดในบรรดาเสียงทั้งหมด และสามารถปรับให้รองรับการใช้งานได้หลายภาษา
Studio Voices
Studio voices เป็นเสียงระดับโปร ฟังเหมือนอัดเสียงในสตูดิโอจริง
ปรับเสียงได้ตามต้องการ
เลือกรูปแบบเสียงแล้วปรับความเร็ว โทนเสียง และรายละเอียดอื่นๆ ให้ตรงกับการใช้งาน
Google Text to Speech API ราคาเท่าไหร่?
ราคาจะขึ้นกับคุณภาพเสียงและความยาวข้อความ ยิ่งเสียงสมจริง ราคาก็จะสูงขึ้น (แต่เมื่อเทียบกับคุณภาพแล้วถือว่าไม่แพง)
| ประเภทเสียง | ใช้ฟรีต่อเดือน | หลังใช้ฟรีครบ |
| Neural2 voices | 0 ถึง 1 ล้านไบต์ | $16 ต่อ 1 ล้านไบต์ |
| Polyglot voices | 0 ถึง 1 ล้านไบต์ | $16 ต่อ 1 ล้านไบต์ |
| Studio voices | 0 ถึง 100,000 ไบต์ | $160 ต่อ 1 ล้านไบต์ |
| Standard voices | 0 ถึง 4 ล้านตัวอักษร | $4 ต่อ 1 ล้านตัวอักษร |
| Wavenet voices | 0 ถึง 1 ล้านตัวอักษร | $16 ต่อ 1 ล้านตัวอักษร |
ความต่างระหว่างอักขระ & ไบต์
ราคาขึ้นอยู่กับคุณภาพเสียง เช่น Standard Voices จะคิดตามอักขระ ส่วนประเภทอื่นๆ จะคิดตามไบต์เพราะใช้กำลังประมวลผลต่างกัน
เช่น โปรเจกต์ที่มี 4 ล้านตัวอักษร จะเสีย $16 หากใช้ Standard Voices
Studio Voices ต้องใช้พลังประมวลผลมากกว่า จึงคิดตามจำนวนไบต์ ซึ่งภาษาบางภาษา 1 ตัวอักษรอาจกินหลายไบต์ เช่น ภาษาญี่ปุ่น
เพื่อความแม่นยำเรื่องราคา ควรรู้ว่าภาษาแต่ละแบบใช้ไบต์เฉลี่ยเท่าไร แล้วค่อยคำนวณคร่าวๆ
วิธีตั้งค่า Google Cloud Platform Text to Speech API ของคุณ?
- สมัคร Google Cloud หรือ ล็อกอินที่นี่
- สร้างโปรเจกต์ใหม่ และตั้งชื่อ
- เพิ่มวิธีชำระเงิน จะคิดเงินเฉพาะที่ใช้จริงเท่านั้น
- เลือกโปรเจกต์แล้วผูกบัญชี billing ให้เรียบร้อย
- เปิดใช้งาน Text-to-Speech API ค้นหาคำว่า "speech" ในช่องค้นหาด้านบน
- เลือก Cloud Text-to-Speech API จากผลการค้นหา
- ตั้งค่าการยืนยันตนสำหรับ dev environment ดูวิธี Set up authentication for Text-to-Speech
คุณสามารถลองใช้ Text-to-Speech โดยไม่ต้องผูกกับโปรเจกต์ได้เช่นกัน:
- เลือก TRY THIS API
- เปิดใช้งาน Text-to-Speech API โดยคลิก ENABLE
ดู Google Cloud Documentation หากต้องการความช่วยเหลือเพิ่มเติม
วิธีปิดการใช้งาน Text to Speech API
หากต้องการปิด API ให้ไปที่ dashboard บน Google Cloud Platform คลิก "Go to APIs overview" ในกล่อง APIs เลือก Text-to-Speech API จากนั้นกด "DISABLE API" ที่ด้านบน
เริ่มใช้งาน Google Text to Speech API
เมื่อสร้างโปรเจกต์เสร็จ สามารถใช้ command line เพื่อเริ่มใช้งานได้เลย
gcloud initจากนั้นสร้าง local authentication
gcloud auth application-default loginแล้วติดตั้ง client library ตัวอย่างนี้ใช้ Node.js
npm install --save @google-cloud/text-to-speechGoogle Cloud Text to Speech API รองรับภาษาเหล่านี้:
- Go
- Java
- Node.js
- C++
- C#
- PHP
- Python
- Ruby
- TypeScript
- Terraform
- YAML
Google Cloud API ทำงานอย่างไร?
เริ่มต้นจากการเรียก API ส่งข้อความไป แล้วรับไฟล์เสียงกลับมา สามารถกำหนดเสียง ภาษา ฯลฯ ได้ text to speech API จะสร้างไฟล์เสียงส่งให้คุณ
ดูวิธีติดตั้งและใช้ client library ของ text to speech ได้ที่ ที่นี่ ตัวอย่างจะเป็น Node.js หรือเลือกภาษาอื่นที่ถนัดได้ เช่น Python, PHP ฯลฯ
const textToSpeech = require('@google-cloud/text-to-speech');
const fs = require('fs');
const util = require('util');
const client = new textToSpeech.TextToSpeechClient();
/**
* TODO(developer): Uncomment the following lines before running the sample.
*/
// const text = 'Text to synthesize, eg. hello';
// const outputFile = 'Local path to save audio file to, e.g. output.mp3';
const request = {
input: {text: text},
voice: {languageCode: 'en-US', ssmlGender: 'FEMALE'},
audioConfig: {audioEncoding: 'MP3'},
};
const [response] = await client.synthesizeSpeech(request);
const writeFile = util.promisify(fs.writeFile);
await writeFile(outputFile, response.audioContent, 'binary');
console.log(`Audio content written to file: ${outputFile}`);แค่นี้ก็เรียบร้อย คุณตั้งค่า Google Cloud Text to Speech API พร้อมแปลงข้อความเป็นเสียงได้แล้ว และยังรับไฟล์เสียงได้หลายฟอร์แมต ทั้ง OGG หรือ MP3.
ตัวอย่างการนำ Google Text to Speech API ไปใช้
Google Text to Speech API เป็นโซลูชั่นสำหรับหลากหลายอุตสาหกรรม เช่น:
- Text to Speech สำหรับผู้พิการทางสายตา: ใช้ TTS แปลงข้อความเป็นเสียงเพื่อให้เข้าถึงข้อมูลดิจิทัลสำหรับ ผู้พิการทางสายตา.
- ระบบโทรศัพท์อัตโนมัติ: สร้างเสียงตอบรับอัตโนมัติสำหรับบริการ call center หรือไลน์ข้อมูล
- เสียงประกอบสื่อดิจิทัล: สร้างเสียงพากย์หรือเสียงประกอบสำหรับสื่อและพ็อดคาสต์
- Text to Speech สำหรับเนื้อหาที่แปล: แปลงข้อความที่ถูกแปลแล้วเป็นเสียง เพื่อช่วยเรียนภาษา หรือสื่อสารข้ามภาษา
- อ่านช่วยเหลือผู้มีภาวะดิสเล็กเซีย: ใช้ TTS ช่วยผู้ที่มีปัญหาอ่านหนังสือ
- นำทางด้วยเสียงในแอปพลิเคชัน: ให้เสียงนำทางหรือบอกตำแหน่งในแอป
- Text to Speech สำหรับเนื้อหาการเรียน: เสริม e-learning ด้วยการแปลงเนื้อหาการศึกษาเป็นเสียง
- Speech Synthesis สำหรับแอปเพิ่มประสิทธิภาพ: ใส่ TTS ในแอปจดบันทึกหรือจัดการงาน ให้เสียงแจ้งเตือนและตอบกลับ
- เสียงสมจริงสำหรับผู้ช่วยเสมือน: ทำให้ voice assistant ตอบสนองได้เหมือนคุยกับคนจริง
- แจ้งเตือนหรือสถานะด้วยเสียง: ใช้ TTS บนอุปกรณ์ IoT แจ้งเตือนสถานะหรือข้อมูลสำคัญด้วยเสียง
ตัวเลือกอื่นที่ดีที่สุดแทน Google Cloud TTS API
ข้อมูลล่าสุดที่มีในต้นปี 2022 มี API ที่เป็นตัวเลือกแทน Google Text to Speech หลายราย ความนิยมและฟีเจอร์อาจเปลี่ยนแปลงได้ ตัวอย่างที่ได้รับความนิยม เช่น:
- Speechify Text to Speech API: Speechify Text to Speech API มีเสียง AI กว่า 1,000 แบบ รองรับมากกว่า 60 ภาษาและสำเนียง เสียงมีอารมณ์ AI voices ทดลองสมัครใช้งานได้เลย Save your seat today.
- Amazon Polly: AWS มี Polly ที่ให้เสียงพูดเสมือนจริง รองรับหลายภาษา และเชื่อมต่อกับบริการอื่นของ AWS ได้ดี
- Microsoft Azure Speech Service: มี Text to Speech ครบชุด ใช้กับ voice assistant, ระบบนำทาง ฯลฯ
- IBM Watson Text to Speech: IBM Watson เปลี่ยนข้อความเป็นเสียงมนุษย์ มีเสียงให้เลือกหลากหลาย
- Nuance Communications: Nuance มีโซลูชั่น voice & speech ทั้งด้านสุขภาพ ยานยนต์ และบริการลูกค้า รวมถึง text to speech
- CereProc: CereProc เป็นบริษัทด้าน text to speech ที่ให้เสียงคุณภาพ เหมาะกับงาน accessibility, content และการสื่อสาร
- iSpeech: iSpeech คือบริการ TTS บนคลาวด์ รองรับหลายภาษา เหมาะกับแอปและเว็บ
- ResponsiveVoice: ResponsiveVoice เป็น text to speech API ราคาย่อมเยา ใช้งานง่าย รองรับหลายภาษา และทำงานบนเว็บ
- Neospeech: Neospeech โฟกัสที่เสียงมนุษย์เทียม เหมาะกับ e-learning และสื่อบันเทิง text to speech
- ReadSpeaker: ReadSpeaker มีทั้งแบบออนไลน์และออฟไลน์สำหรับเว็บ, e-learning และงานด้าน accessibility ต่างๆ
- Acapelabox: Acapela Group ให้บริการ text to speech API บนคลาวด์ รองรับหลายภาษาและหลายเสียง
FAQ
Google มีหลายประเภทเสียง โดยแต่ละแบบมีโควต้าฟรี เช่น standard voice ฟรี 1 ล้านไบต์แรก หลังจากนั้น $16 ต่อล้านไบต์ สรุปคือมีใช้ฟรีในขอบเขตจำกัด
สมัครที่ https://cloud.google.com/text-to-speech/ แล้วทำตามขั้นตอนที่แนะนำไว้ในหน้านั้น หรือดูวิธีละเอียดในบทความด้านบนนี้ได้เลย
เข้าสู่ระบบ Google Cloud สร้างโปรเจกต์ใหม่ จากนั้นจึงสร้าง API key ได้เลย
ไม่มีช่วงทดลองใช้ฟรีแบบตายตัว แต่แต่ละบริการของ Google Cloud จะมี free tier ตามเงื่อนไขของบริการนั้นๆ
ไม่ได้ ต้องใช้อินเทอร์เน็ตทุกครั้งในการใช้งาน Text to Speech API ของ Google
Google Cloud รวมทั้ง Text to Speech API รองรับการยืนยันตัวตนแบบ API keys, OAuth 2.0 หรือ service accounts เลือกใช้ให้เหมาะกับประเภทแอปและเคสการใช้งาน
ให้ 5 ดาว ใช้งานง่าย ฟีเจอร์ค้นหาดีมาก ราคาเหมาะสม ถือเป็นผลิตภัณฑ์ที่ยอดเยี่ยม
Google Text to Speech API มีไลบรารีรองรับหลายภาษา เช่น Python หรือจะใช้ API แบบ RESTful กับภาษาไหนก็ได้ที่ส่ง HTTP request ได้
ใช้คลาส TextToSpeech ใน Android และเรียก API ตามคู่มือการพัฒนา ดูรายละเอียดจากเอกสาร Android developer
ใช้ Google Text to Speech API กับ JavaScript ได้โดยส่ง HTTP request ไปยัง API endpoint เขียนโค้ดคำขอและจัดการผลลัพธ์ ดูรายละเอียดในเอกสารทางการ

