SimpleSpeechLoop: การสาธิตขั้นพื้นฐานที่เชื่อมต่อการรู้จำเสียงพูดและข้อความกับการพูดโดยใช้สองโครงการ Mozilla:
การพูดลึกล้ำ
TTS
มันเป็นบอทที่ฟังสิ่งที่คุณพูดด้วยการรู้จำเสียงพูดในพื้นที่จากนั้นให้การตอบกลับ (จำกัด ) สองสามครั้งโดยใช้ข้อความต่อการพูด
ดูวิดีโอสาธิตได้ที่นี่: https://www.youtube.com/watch?v=cdu6oz1bnoy
คำเตือน: มันต้องการให้คุณมีการติดตั้งที่ทำงานของทั้ง DeepSpeech ( v0.7.0 ) และ TTS ซึ่งอาจต้องใช้ทักษะจำนวนหนึ่งในการตั้งค่า (แม้ว่าจะง่ายขึ้นและง่ายขึ้นด้วยความพยายามจาก devs ในโครงการที่เกี่ยวข้อง)
หากคุณพบปัญหาที่ได้รับการตั้งค่าอย่างใดอย่างหนึ่งวิธีที่ดีที่สุดคือการอ่านคำแนะนำในการติดตั้งอย่างรอบคอบเพื่อให้แน่ใจว่าคุณไม่ได้พลาดอะไรเลยและหากคุณมั่นใจว่าคุณได้ตัดปัญหาที่อาจเกิดขึ้นที่ชัดเจนแล้วเพิ่มขึ้นในฟอรัมการว่ายากที่เกี่ยวข้อง (ให้รายละเอียดที่ชัดเจนของสิ่ง ที่ คุณทำ
DeepSpeech Discourse
วาทกรรม TTS
มีการกระทำพื้นฐานห้าประการ:
Echoing: นี่เป็นค่าเริ่มต้น - มันจะสะท้อนกลับสิ่งที่การจดจำคำพูดคิดว่ามันได้ยินคุณพูด
"บอกฉันเกี่ยวกับ ___": มันจะค้นหาเอกสารวิกิพีเดียสำหรับคำที่มาหลังจาก "บอกฉันเกี่ยวกับ" และอ่านบทสรุป ตัวอย่างที่ดีคือสิ่งต่าง ๆ เช่นองค์ประกอบเช่น "บอกฉันเกี่ยวกับ Iron" ส่งคืนสรุปที่ได้จากหน้านี้: https://en.wikipedia.org/wiki/iron
"สร้างเสียงหุ่นยนต์": มันจะเล่นไฟล์ robot_noise.wav ( อันนี้สามารถทำผิดพลาดได้บ่อยครั้งอย่างน้อยก็กับโมเดลคำพูดของฉันจนถึงตอนนี้! ) [แสดงความคิดเห็นในปัจจุบัน]
"หยุดชั่วคราว": มันจะหยุดการฟังเป็นเวลา 20 วินาที (ดังนั้นมันจะหยุดเสียงสะท้อนที่ไม่หยุดหย่อน !!)
"หยุด": มันจะทำให้แอพหยุดทำงาน
โดยการดูรหัสคุณควรจะสามารถเพิ่มได้มากขึ้น สำหรับสิ่งที่ซับซ้อนกว่านี้คุณจะต้องการวิธีการที่ซับซ้อนมากขึ้นนอกเหนือจากการวนซ้ำแบบง่าย ๆ
โปรดทราบว่าหากมีการเปลี่ยนแปลงใน APIs ของโครงการสนับสนุนทั้งสองเมื่อความคืบหน้าของเวอร์ชันของพวกเขาคุณอาจต้องทำการปรับเปลี่ยนรหัสที่นี่เพื่อให้ทำงานต่อไป ควรทำงานกับ DeepSpeech เวอร์ชัน 0.51 มันเป็นเวอร์ชันที่ปรับเปลี่ยนได้อย่างมีประสิทธิภาพของ VAD Demo จากตัวอย่าง DeepSpeech repo กับ TTS ที่ติดตั้งและกลอุบายง่ายๆสองสามอย่างที่จะพูดอะไรบางอย่างกลับมาหาคุณ
มันถูกแบ่งปัน "ตามที่เป็นอยู่" ด้วยความหวังว่ามันจะเป็นประโยชน์ในทางเล็ก ๆ หรือไม่?
ฉันได้ทดสอบเฉพาะใน Linux - ขอให้โชคดีถ้าคุณพยายามปรับให้เข้ากับ Mac / Windows!
การตั้งค่าเสียง: ตรวจสอบให้แน่ใจว่าคุณมีไมโครโฟนที่ใช้งานได้และเสียบเข้ากับลำโพงหรือหูฟัง!
ติดตั้งทั้ง DeepSpeech และ TTS - ดีที่สุดที่จะอ้างถึงโครงการเหล่านั้นโดยตรง แนะนำให้คุณทำในสภาพแวดล้อมเสมือนจริงสำหรับแต่ละ (demo.py เรียกใช้จาก DeepSpeech One และเซิร์ฟเวอร์ TTS จะเรียกใช้จาก TTS One) คุณจะต้องติดตั้งข้อกำหนดของ Demo.py ด้วย (ในสภาพแวดล้อม DeepSpeech) - จากหน่วยความจำนั่นคือ คำขอสีสัน และ pyaudio (แต่ตรวจสอบไฟล์เพื่อให้แน่ใจ) DeepSpeech ควรเปิดตัว v0.7.0
เริ่มต้นเซิร์ฟเวอร์ TTS - โดยทั่วไปคุณอาจเรียกใช้งานนี้ได้เช่นกัน เพียงตรวจสอบให้แน่ใจว่าจุดสิ้นสุดใน demo.py ได้รับการอัปเดตให้ตรงกัน (ปัจจุบันตั้งค่าเป็น http://0.0.0.0:5002/api/tts)
เรียกใช้ demo.py -python demo.py -d 7 -m ../models/your_model_folder/
พารามิเตอร์เหมือนกับการสาธิต VAD จากตัวอย่าง DeepSpeech repo
-d เป็นช่องสำหรับไมโครโฟนของคุณ (คุณสามารถตรวจสอบช่อง Alsa ด้วย show_alsa_channels.py )
-m เป็นที่ตั้งของไดเรกทอรีสำหรับโมเดล DeepSpeech ที่คุณวางแผนจะใช้ (เช่นที่คุณได้รับการฝึกฝน / ปรับแต่งหรือได้รับการฝึกฝนมาก่อน)