لقد نشرت جولة في جميع الميزات المختلفة المتوفرة على YouTube ، انقر هنا لعرضها.
الهدف الرئيسي للمشروع هو تقديم الكلام إلى رسالة نصية إلى الكلام.
لديها الآن واجهة المستخدم الرسومية ، وتخزن جميع الإعدادات التي تدخلها. يتم تخزين التفاصيل الحساسة مثل مفاتيح API في مفاتيح النظام.
في حال كنت ترغب في استخدام CLI ، ما عليك سوى الاتصال بالبرنامج النصي من خط Comamnd مع الوسيطة -Cli.
يقدم ثلاث خدمات منفصلة للتعرف على الكلام:
بالإضافة إلى ذلك ، فإنه يترجم تلقائيًا الإخراج إلى لغة يختار المستخدم (من أولئك الذين يدعمونه نموذج ElevenLabs متعدد اللغات) ، إذا كان المستخدم يتحدث لغة مختلفة.
يتمتع كل مزود بالتعرف على الكلام دعم اللغة المختلفة ، لذا تأكد من قراءة التفاصيل.
يتم توفير الترجمة عبر إما Deepl للغات المدعومة ، أو ترجمة Google.
ثم يتم إرسال النص المعترف به والترجمة إلى مزود TTS ، يتم دعم اثنين منها:
elevenlabslib ، خدمة TTS عالية الجودة ولكن مدفوعة على الإنترنت تدعم لغات متعددة.يتيح لك المشروع أيضًا مزامنة النص المكتشف مع مصدر نص OBS باستخدام OBSWS-Python.
تحذير: لا يزال Python 3.11 غير مدعوم تمامًا بواسطة Pytorch (ولكن يجب أن يعمل على البناء الليلي). أوصي باستخدام Python 3.10.6
قبل أي شيء آخر: ستحتاج إلى الحصول على FFMPEG في مسار $ الخاص بك. يمكنك متابعة هذا البرنامج التعليمي إذا كنت على Windows
بالإضافة إلى ذلك ، إذا كنت في Linux ، فستحتاج إلى التأكد من تثبيت Portaudio.
على Windows:
استنساخ repo: git clone https://github.com/lugia19/Echo-XI.git
Run Run.Bat - سوف يتعامل مع جميع الخطوات التالية لك.
في كل مكان آخر:
استنساخ repo: git clone https://github.com/lugia19/Echo-XI.git
إنشاء VenV: python -m venv venv
تنشيط VenV: venvScriptsactivate
إذا فعلت ذلك بشكل صحيح ، فيجب أن يكون هناك (VenV) في بداية سطر الأوامر.
تثبيت المتطلبات: pip install -r requirements.txt
قم بتشغيله.
إذا كنت ترغب في استخدام الصوت على شيء مثل Discord ، فاستخدم VB-Cable. في البرنامج النصي ، حدد الميكروفون العادي كمدخل ، VB-Cable input كإخراج ، ثم على Discord حدد VB-Cable output كمدخل. نعم ، إنه مربك بعض الشيء.
إذا كنت تبحث عن استخدام Vosk/RecasePunc وتحتاج إلى شيء إلى جانب النماذج المضمنة (القابلة للتنزيل) ، فاقرأ.
يمكن العثور على نماذج vosk هنا. تقدم نفس الصفحة أيضًا بعض نماذج RecasePunc. للحصول على إضافية ، يمكنك النظر في Recasepunc Repo.
بالنسبة للغة الإنجليزية ، أستخدم vosk-model-en-us-0.22 و vosk-recasepunc-en-0.22 . RecasePunc اختياري من الناحية الفنية عند استخدام Vosk ، ولكن يوصى بشدة بتحسين الإخراج.
يبحث البرنامج النصي عن النماذج الموجودة تحت المجلدات للموديلات/Vosk و Models/RecasePunc.
سيبدو هيكل المجلد النموذجي شيئًا من هذا القبيل (يمكن أن تكون نماذج RecasePunc في مجلدها الخاص أو بمفردها ، اعتمادًا على المصدر الذي تقوم بتنزيله منها. كلاهما مدعوم.):
-misc
-models
-vosk
-vosk-model-en-us-0.22
-vosk-model-it-0.22
-recasepunc
-vosk-recasepunc-en-0.22
it.22000
-speechRecognition
-ttsProviders
helper.py
speechToSpeech.py
لكل شيء آخر ، ما عليك سوى تشغيل البرنامج النصي واتبع التعليمات.
إذا كنت ترغب في استخدام الصوت على شيء مثل Discord ، فاستخدم VB-Cable. في البرنامج النصي ، حدد الميكروفون العادي كمدخل ، VB-Cable input كإخراج ، ثم على Discord حدد VB-Cable output كمدخل. نعم ، إنه مربك بعض الشيء.