ECOUTE هي أداة نسخ مباشرة توفر نصوص في الوقت الفعلي لكل من إدخال ميكروفون المستخدم (أنت) ومخرج مكبرات الصوت (مكبر الصوت) في مربع النص. كما أنه ينشئ استجابة مقترحة باستخدام GPT-3.5 من Openai ليقوله للمستخدم بناءً على النسخ المباشر للمحادثة.
تم تصميم ECOUTE لمساعدة المستخدمين في محادثاتهم من خلال توفير النسخ الحية وتوليد الاستجابات ذات الصلة بالسياق. من خلال الاستفادة من قوة Openai's GPT-3.5 ، تهدف ECOUTE إلى جعل التواصل أكثر كفاءة وممتعة.
اتبع هذه الخطوات لإعداد وتشغيل ECOUTE على جهازك المحلي.
إذا لم يتم تثبيت FFMPEG في نظامك ، فيمكنك اتباع الخطوات أدناه لتثبيته.
أولاً ، تحتاج إلى تثبيت Chocolatey ، مدير حزمة لنظام التشغيل Windows. افتح PowerShell كمسؤول وقم بتشغيل الأمر التالي:
Set-ExecutionPolicy Bypass -Scope Process -Force; [System.Net.ServicePointManager]::SecurityProtocol = [System.Net.ServicePointManager]::SecurityProtocol -bor 3072; iex ((New-Object System.Net.WebClient).DownloadString('https://community.chocolatey.org/install.ps1'))
بمجرد تثبيت الشوكولاتة ، يمكنك تثبيت FFMPEG عن طريق تشغيل الأمر التالي في PowerShell الخاص بك:
choco install ffmpeg
يرجى التأكد من تشغيل هذه الأوامر في نافذة PowerShell مع امتيازات المسؤول. إذا واجهت أي مشكلات أثناء التثبيت ، فيمكنك زيارة مواقع الشوكولاتة الرسمية و FFMPEG لاستكشاف الأخطاء وإصلاحها.
استنساخ المستودع:
git clone https://github.com/SevaSk/ecoute
انتقل إلى مجلد ecoute :
cd ecoute
تثبيت الحزم المطلوبة:
pip install -r requirements.txt
قم بإنشاء ملف keys.py في دليل ECOUTE وأضف مفتاح API Openai:
الخيار 1: يمكنك استخدام أمر في موجه الأوامر الخاص بك. قم بتشغيل الأمر التالي ، مع التأكد من استبدال "مفتاح API" بمفتاح Openai API الفعلي:
python -c "with open('keys.py', 'w', encoding='utf-8') as f: f.write('OPENAI_API_KEY="API KEY"')"
الخيار 2: يمكنك إنشاء ملف Keys.py يدويًا. افتح محرر النصوص المفضل لديك وأدخل المحتوى التالي:
OPENAI_API_KEY="API KEY"
استبدل "مفتاح API" بمفتاح Openai API الفعلي. احفظ هذا الملف كـ Keys.py داخل دليل ECOUTE.
قم بتشغيل البرنامج النصي الرئيسي:
python main.py
للحصول على إصدار أفضل وأسرع يعمل أيضًا مع معظم اللغات ، استخدم:
python main.py --api
عند البدء ، ستبدأ ECOUTE في نسخ مدخلات الميكروفون وإخراج مكبر الصوت في الوقت الفعلي ، مما يولد استجابة مقترحة بناءً على المحادثة. يرجى ملاحظة أنه قد يستغرق الأمر بضع ثوانٍ حتى يتسنى النظام الاحماء قبل أن يصبح النسخ في الوقت الفعلي.
سوف -العلم api يستخدم واجهة برمجة تطبيقات Whisper للنسخ. هذا يعزز بشكل كبير سرعة النسخ ودقة ، ويعمل في معظم اللغات (بدلاً من اللغة الإنجليزية فقط بدون العلم). من المتوقع أن يصبح الخيار الافتراضي في الإصدارات المستقبلية. ومع ذلك ، ضع في اعتبارك أن استخدام واجهة برمجة تطبيقات Whisper سيستهلك أرصدة Openai أكثر من استخدام النموذج المحلي. تعزى هذه التكلفة المتزايدة إلى الميزات والقدرات المتقدمة التي توفرها واجهة برمجة تطبيقات Whisper. على الرغم من النفقات الإضافية ، فإن التحسينات الكبيرة في السرعة ودقة النسخ قد تجعلها استثمارًا مفيدًا لحالة الاستخدام الخاصة بك.
بينما توفر ECOUTE اقتراحات النسخ والاستجابة في الوقت الفعلي ، هناك العديد من القيود المعروفة لوظائفها التي يجب أن تكون على دراية بها:
الميكروفون الافتراضي ومكبر الصوت: تم تكوين ECOUTE حاليًا للاستماع فقط إلى الميكروفون الافتراضي ومكبر الصوت في نظامك. لن يكتشف الصوت من الأجهزة أو الأنظمة الأخرى. إذا كنت ترغب في استخدام ميكروفون أو مكبر صوت مختلف ، فستحتاج إلى تعيينه كجهاز افتراضي في إعدادات النظام الخاصة بك.
نموذج الهمس : إذا لم يتم استخدام علامة api ، فنحن نستخدم الإصدار "الصغير" من طراز ASR الهامس ، بسبب انخفاض استهلاك الموارد وأوقات الاستجابة السريعة. ومع ذلك ، قد لا يكون هذا النموذج دقيقًا مثل النماذج الأكبر في نسخ أنواع معينة من الكلام ، بما في ذلك اللهجات أو الكلمات غير المألوفة.
اللغة : إذا كنت لا تستخدم -العلم api ، يتم تعيين نموذج الهمس المستخدم في ECOUTE على اللغة الإنجليزية. نتيجة لذلك ، قد لا ينسخ بدقة لغات أو لهجات غير الإنجليزية. نحن نعمل بنشاط على إضافة دعم متعدد اللغة إلى الإصدارات المستقبلية من البرنامج.
تم ترخيص هذا المشروع بموجب ترخيص معهد ماساتشوستس للتكنولوجيا - راجع ملف الترخيص للحصول على التفاصيل.
المساهمات مرحب بها! لا تتردد في فتح المشكلات أو تقديم طلبات سحب لتحسين ECOUTE.