SimpleSpheadeOPEOP: عرض أساسي للغاية يربط التعرف على الكلام والنص إلى الكلام ، باستخدام مشروعين Mozilla:
Deepspeech
TTS
إنه روبوت يستمع إلى ما تقوله مع التعرف على الكلام محليًا ثم يعطي ردود (محدودة) باستخدام نص إلى كلام
شاهد الفيديو التجريبي هنا: https://www.youtube.com/watch؟v=cdu6oz1bnoy
تحذير: إنه يتطلب أن يكون لديك منشآت عمل لكل من DeepSpeech ( v0.7.0 ) و TTS ، والتي قد تحتاج إلى قدر معين من المهارة لإنشائها (على الرغم من أن هذا يصبح أسهل وأسهل بفضل الجهود المبذولة من Devs في المشاريع المعنية).
إذا واجهت مشكلات في إعداد أي منهما ، فإن أفضل طريقة هي قراءة تعليمات التثبيت بعناية للتأكد من أنك لم تفوت أي شيء ، وإذا كنت واثقًا من أنك استبعدت مشاكل محتملة واضحة ، فسترفعها في منتدى الإحباط ذي الصلة (إعطاء تفاصيل واضحة لما فعلته - تذكر ، فلن يتمكن الآخرون من مساعدتك إذا كنت غامضًا في هذا الجزء )
خطاب Deepspeech
خطاب TTS
هناك خمسة إجراءات أساسية:
صدى: هذا هو الافتراضي - سوف يتردد مرة أخرى كل ما يعتقد التعرف على الكلام أنه سمعك تقول
"أخبرني عن ___": سيبحث عن وثيقة ويكيبيديا للكلمة التي تأتي بعد "أخبرني عن" وقراءة الملخص. أمثلة جيدة هي أشياء مثل العناصر ، مثل "أخبرني عن الحديد" بإرجاع الملخص المستمد من هذه الصفحة: https://en.wikipedia.org/wiki/iron
"Make a Robot Noise": سوف يلعب ملف File Robot_Noise.wav ( يمكن أن يكون هذا الجهاز في كثير من الأحيان ، على الأقل مع نماذج الكلام حتى الآن! ) [تم التعليق حاليًا]
"توقف مؤقت": سوف يتوقف عن الاستماع لمدة 20 ثانية (لذلك يتوقف عن الصدى المستمر !!)
"توقف": سيؤدي ذلك إلى توقف التطبيق
من خلال النظر إلى الرمز ، يجب أن تكون قادرًا على إضافة المزيد. لأي شيء أكثر تعقيدًا ، ستحتاج إلى نهج أكثر تطوراً يتجاوز هذا النوع من الحلقة البسيطة.
يرجى ملاحظة أنه إذا كانت هناك تغييرات في واجهات برمجة التطبيقات إما للمشروع الداعمة مع تقدم إصداراتها ، فقد تحتاج إلى إجراء تعديلات على الكود هنا لمواصلة العمل. يجب أن تعمل مع الإصدار 0.51 من DeepSpeech. إنها فعليًا نسخة تم تكييفها من عرض VAD من أمثلة DeepSpeech مع TTS مع بعض الحيل البسيطة لجعلها تقول شيئًا ما لك.
تمت مشاركته "كما هو" على أمل أن يكون مفيدًا بطريقة صغيرة؟
لقد اختبرته فقط على Linux - حظًا سعيدًا إذا حاولت تكييفه مع Mac / Windows!
إعداد الصوت: تأكد من حصولك على ميكروفون عاملة وصوت مكون من مكبرات صوت أو سماعات الرأس!
تثبيت كل من DeepSpeech و TTS - من الأفضل الإشارة إلى تلك المشاريع مباشرة. أوصيك بذلك في بيئة افتراضية لكل (يتم تشغيل demo.py من DeepSpeech واحد ويتم تشغيل خادم TTS من TTS One). ستحتاج إلى تثبيت متطلبات Demo.py أيضًا (في بيئة DeepSpeech) - من الذاكرة ، هذه الطلبات ، ملونة و Pyaudio (ولكن تحقق من الملف للتأكد). يجب إطلاق DeepSpeech V0.7.0.
ابدأ خادم TTS - عادةً ما يمكنك تشغيل هذا محليًا. ببساطة تأكد من تحديث نقطة النهاية في Demo.py للمطابقة (تم تعيينها حاليًا على http://0.0.0.0:5002/api/tts)
Run Demo.py -Python Demo.py -d 7 -M ../models/your_model_folder/
المعلمات هي نفس عرض VAD من أمثلة DeepSpeech.
-D هي قناة الميكروفون الخاص بك (يمكنك التحقق من قنوات ALSA مع show_alsa_channels.py )
-M هو موقع الدليل لنموذج Deepspeech الذي تخطط لاستخدامه (على سبيل المثال واحد قمت بتدريبه / ضبطه أو عمله المسبق)