
عرض العرض التوضيحي • البدء • طلب ميزات •
مشروع السبت هو صندوق أدوات للحوسبة الصوتية. يوفر أدوات لبناء واجهات صوتية أنيقة إلى LLMs الحديثة. الهدف من هذا المشروع هو تعزيز مجتمع من الأفراد الذين يرغبون في التفكير في التكنولوجيا التي وعدنا بها في أفلام الخيال العلمي منذ عقود. يهدف إلى أن يكون وحدات للغاية ومرنة مع الحفاظ على فصلها عن نماذج منظمة العفو الدولية المحددة. هذا يسمح بترقيات سلسة عند إصدار تقنية AI الجديدة.
المشروع يوم السبت يتألف من الأدوات. الأداة هي تجريد يلف جزءًا محددًا من مكدس الحوسبة الصوتية. هناك تصميمان رئيسيان يشتملان على أداة:
المحرك - يقوم المحرك بتغليف وظائف المجال المحددة للأداة. يجب أن يظل هذا المنطق كما هو بغض النظر عن الواجهة الخلفية الاستدلال المستخدمة. على سبيل المثال ، في حالة أداة STT ، يحتوي المحرك على خوارزمية اكتشاف النشاط الصوتي إلى جانب بعض منطق التخزين المؤقت المخصص. يتيح ذلك تغيير الواجهة الخلفية بسهولة دون الحاجة إلى إعادة كتابة التعليمات البرمجية.
الخلفية - الواجهة الخلفية هي ما يدير بالفعل استنتاج الذكاء الاصطناعي. عادة ما يكون هذا غلافًا رفيعًا ولكنه يسمح بمزيد من المرونة وسهولة الترقية. يمكن أيضًا كتابة الواجهة الخلفية إلى واجهة مع خادم HTTP للسماح بتواصل مع اللغة السهلة.
يحتوي هذا المشروع على 3 أنواع رئيسية من الأدوات. الأدوات الرئيسية الثلاثة هي STT و TTT و TTS.
أدوات STT هي آذان النظام وتؤدي الاستدلال الكلام إلى النص على الصوت الوارد.
أدوات TTT هي أدمغة النظام وتنفيذ الاستدلال النص إلى النص بمجرد تحويل الصوت إلى نص.
أدوات TTS هي فم النظام وتنفيذ استدلال نص إلى كلام على النص الذي أثبتته أداة TTT.
فيما يلي رسم تخطيطي لكيفية عمل العرض التجريبي الرئيسي حاليًا.

العرض التوضيحي الذي يأتي في هذا الريبو هو جارفيس الشخصي الذي يستضيفه ذاتيًا مثل مساعد.
إخلاء المسئولية : لقد اختبرت هذا فقط على معالجات M1 Pro و Max. نحن نقوم بالكثير من الاستدلال المحلي ، لذا فإن العرض التوضيحي يتطلب قدرًا كبيرًا من قوة المعالجة. قد يكون عدد الكيلومترات الخاص بك على أنظمة التشغيل والأجهزة المختلفة. إذا واجهت مشاكل ، يرجى فتح مشكلة.
من أجل تشغيل العرض التوضيحي هناك بعض المتطلبات المسبقة.
من أجل تشغيل العرض التوضيحي ، يلزم Golang و Python و Make و C Complier.
هناك 3 عمليات تحتاج إلى الترشح للعروض التوضيحية:
pkg-config و opus . على MacOS يمكن تثبيتها مع المشروب: brew install opus pkg-configmecab و espeak . على MacOS يمكن تثبيتها مع المشروب: brew install mecab espeakملاحظة : الآن الترتيب الذي تبدأ فيه العمليات مهم. يجب أن تبدأ خادم RTC وخادم TTS قبل بدء تشغيل العميل.
من جذر تشغيل المشروع make rtc
make rtcإعداد المرة الأولى : عند تشغيل خادم TTS لأول مرة ، ستحتاج إلى تثبيت التبعيات. النظر في استخدام بيئة افتراضية لهذا.
cd tts/servers/coqui-tts
pip install -r requirements.txt من جذر تشغيل المشروع ، make tts
يتطلب العميل whisper.cpp واستخدام cgo ولكن يجب أن يعتني البرنامج النصي بذلك نيابة عنك.
من جذر تشغيل المشروع make client
make clientالشيء الرئيسي في خارطة الطريق الآن هو الحصول على استنتاج TTT للتشغيل محليًا بشيء مثل llama.cpp. في وقت نشر هذا ، ليس لدي إنترنت رائع ولا يمكنني تنزيل أوزان النموذج اللازمة للحصول على هذا العمل.
ثاني أكبر عنصر على خريطة الطريق الخاصة بي يستمر في تحسين عملية الإعداد والتكوين.
الشيء الأخير على خريطة الطريق الخاصة بي هو مواصلة بناء الطلبات مع يوم السبت ، وآمل أن يبني المزيد من الناس معي لأن هذه هي الطريقة الأولى لتحسين المشروع وكشف الميزات الجديدة التي يجب إضافتها.
انضم إلى Discord للبقاء على اطلاع دائم!
تم تصميم هذا المشروع مع حزم المصادر المفتوحة التالية:
أنا جدا من الكمال ولا بد أن تكون هناك أخطاء والأشياء التي أغفلتها في عملية التثبيت. من فضلك ، أضف مشكلات ولا تتردد في التواصل إذا كان أي شيء غير واضح. أيضا ، لدينا خلاف.
المساهمات هي التي تجعل مجتمع المصدر المفتوح مكانًا رائعًا للتعلم وإلهام وإنشاء. أي مساهمات تقدمها موضع تقدير كبير .
git checkout -b feature/AmazingFeaturegit commit -m 'Add some AmazingFeature'git push origin feature/AmazingFeatureمعهد ماساتشوستس للتكنولوجيا
إذا كنت تحب المشروع وترغب في دعمه مالياً ، فلا تتردد في شراء قهوة لي
githubgrvydev · twittergrvydev