الإنقاذ
Bailing هو مساعد محادثة صوتية مفتوحة المصدر مصمم لإجراء محادثات طبيعية مع المستخدمين من خلال الصوت. يجمع المشروع بين التعرف على الكلام (ASR) ، وكشف نشاط الكلام (VAD) ، ونموذج اللغة الكبير (LLM) وتوليف الكلام (TTS). هذا هو روبوت محادثة صوتية يشبه GPT-4O تم تنفيذها من خلال ASR+LLM+TTS لتوفير تجربة محادثة صوتية عالية الجودة مع تأخير شامل من 800 مللي ثانية. يهدف Bailing إلى تحقيق تأثيرات حوار شبيهة بـ GPT-4O دون الحاجة إلى GPU ، وهو مناسب لأجهزة الحافة المختلفة والبيئات ذات الموارد المنخفضة.

ميزات المشروع
- نموذج مفتوح المصدر فعال : يستخدم الكفالة نماذج متعددة مفتوحة المصدر لضمان تجربة محادثة صوتية فعالة وموثوقة.
- لا مطلوب GPU : محسّن ، قابل للنشر محليًا ، ولا يزال يوفر أداء الأداء مثل GPT-4.
- التصميم المعياري : وحدات ASR و VAD و LLM و TTS مستقلة عن بعضها البعض ويمكن استبدالها وترقيتها وفقًا للمتطلبات.
- وظيفة دعم الذاكرة : لديها القدرة على التعلم بشكل مستمر ، ويمكن أن تتذكر تفضيلات المستخدمين والحوارات التاريخية ، ويوفر تجربة تفاعلية مخصصة.
- مكالمات أداة الدعم : التكامل المرن للأدوات الخارجية ، يمكن للمستخدمين طلب المعلومات مباشرة أو إجراء العمليات من خلال الصوت ، وتحسين التطبيق العملي للمساعد.
- إدارة مهمة الدعم : إدارة مهام المستخدم بكفاءة ، وقادرة على تتبع التقدم ، وتعيين تذكيرات ، وتوفير تحديثات ديناميكية لضمان تفويت المستخدمين أي مسائل مهمة.
مقدمة المشروع
يحقق Bailing وظيفة الحوار الصوتي من خلال المكونات التقنية التالية:
- ASR : استخدم funasr للتعرف التلقائي على الكلام لتحويل صوت المستخدم إلى نص.
- VAD : استخدم Silero-VAD لإجراء اكتشاف النشاط الصوتي لضمان معالجة الأجزاء الصوتية الصحيحة فقط.
- LLM : استخدم Deepseek كنموذج لغة كبير لمعالجة إدخال المستخدم وإنشاء ردود ، وهو فعال للغاية من حيث التكلفة.
- TTS : استخدم MACOS MACOS من EDGE-TTS لتحويل النص إلى كلام ، وتحويل استجابة النص التي تم إنشاؤها إلى خطاب طبيعي وسلس.
وصف إطار

Robot مسؤول عن إدارة المهام الفعالة وإدارة الذاكرة ، ويمكنه التعامل بذكاء طلبات مقاطعة المستخدم ، مع تحقيق تنسيق سلس والاتصال بين مختلف الوحدات لضمان تجربة تفاعلية سلسة.
| حالة اللاعب | سواء كانت تتحدث | يوضح |
|---|
| اللعب | لا تتحدث | طبيعي |
| اللعب | يقول | مقاطعة المشهد |
| لم يلعب | لا تتحدث | طبيعي |
| لم يلعب | يقول | حكم VAD ، اعتراف ASR |
العرض التوضيحي
حوار صوت الإنقاذ
حوار صوت الإنقاذ
ميزات وظيفية
- المدخلات الصوتية : التعرف الدقيق للكلام من خلال funasr.
- اكتشاف النشاط الصوتي : استخدم Silero-Vad لتصفية الصوت غير الصحيح لتحسين كفاءة التعرف.
- توليد الحوار الذكي : بالاعتماد على فهم اللغة القوية التي يوفرها Deepseek ، فإنه يولد ردود نصية طبيعية ، وهي فعالة للغاية من حيث التكلفة.
- الإخراج الصوتي : تحويل النص إلى صوت من خلال حافة TTS لتزويد المستخدمين بتعليقات سمعية واقعية.
- المقاطعات الدعم : يمكن استخدام التكوين المرن لسياسات المقاطعة لتحديد المقاطعات الصوتية والكلمات الرئيسية ، وضمان التعليقات الفورية والتحكم في المستخدمين في المحادثات ، وتحسين طلاقة التفاعل.
- وظيفة دعم الذاكرة : لديها القدرة على التعلم بشكل مستمر ، ويمكن أن تتذكر تفضيلات المستخدمين والحوارات التاريخية ، ويوفر تجربة تفاعلية مخصصة.
- مكالمات أداة الدعم : التكامل المرن للأدوات الخارجية ، يمكن للمستخدمين طلب المعلومات مباشرة أو إجراء العمليات من خلال الصوت ، وتحسين التطبيق العملي للمساعد.
- إدارة مهمة الدعم : إدارة مهام المستخدم بكفاءة ، وقادرة على تتبع التقدم ، وتعيين تذكيرات ، وتوفير تحديثات ديناميكية لضمان تفويت المستخدمين أي مسائل مهمة.
مزايا المشروع
- محادثة صوتية عالية الجودة : دمج تقنيات ASR و LLM و TTS الممتازة لضمان طلاقة ودقة المحادثات الصوتية.
- تصميم خفيف الوزن : يعمل بدون أجهزة عالية الأداء ، ومناسبة للبيئات المقيدة للموارد.
- المصدر المفتوح بالكامل : الإنقاذ مفتوح المصدر بالكامل ، ويشجع مساهمة المجتمع والتنمية الثانوية.
التثبيت وتشغيل
تعتمد على البيئة
تأكد من تثبيت الأدوات والمكتبات التالية في بيئة التطوير الخاصة بك:
- بيثون 3.8 أو أحدث
-
pip Package Manager - Funasr ، Silero-Vad ، Deepseek ، مكتبة التبعية الحافة TTS مطلوبة
خطوات التثبيت
استنساخ مستودع المشروع:
git clone https://github.com/wwbin2017/bailing.git
cd bailing
التبعيات المطلوبة للتثبيت:
pip install -r requirements.txt
تكوين متغيرات البيئة:
- افتح config/config.yaml لتكوين ASR LLM والتكوينات الأخرى ذات الصلة
- تنزيل SensevoicesMall إلى نماذج الدليل/SensevoicesMall SensevoicesMall عنوان التنزيل
- انتقل إلى موقع Deepseek الرسمي للحصول على تكوين API_Key ، Deepseek Get Appi_Key ، بالطبع ، يمكنك أيضًا تكوين نماذج أخرى مثل Openai و Qwen و Gemini و 01yi ، إلخ.
تشغيل المشروع:
cd server
python server.py # 启动后端服务,也可不执行这一步
تعليمات للاستخدام
- بعد بدء التطبيق ، سينتظر النظام إدخال الصوت.
- تحويل صوت المستخدم إلى رسالة نصية عبر funasr.
- يقوم Silero-Vad بالكشف عن النشاط الصوتي لضمان معالجة صوت صالح فقط.
- يعالج Deepseek إدخال النص ويولد ردود ذكية.
- يقول MacOS ، إن MacOS ، يحول النص الذي تم إنشاؤه إلى الكلام ويلعبه إلى المستخدم.
خريطة الطريق
في المستقبل ، سيتم تسامي الإنقاذ إلى مساعد شخصي يشبه Jarvis ، مثل خزان أبحاث رعاية مع ذاكرة لا مثيل لها وقدرات إدارة المهام التطلعية. بالاعتماد على تقنية RAT والوكيل المتطورة ، سيتحكم بدقة في شؤونك ومعرفتك وتبسيط المجمع. مجرد همس ، مثل "ساعدني في العثور على الأخبار الحديثة" أو "تلخيص أحدث التطورات في النموذج الكبير" ، يستجيب Bailing بسرعة ، ويتحلل بذكاء ، ويتتبع في الوقت الفعلي ، ويعرض النتائج لك بأمان. تخيل أنه ليس لديك مساعد فحسب ، بل شريكًا ذكيًا على دراية جيدة باحتياجاتك ، ويرافقك في كل لحظة مهمة في المستقبل ، مما يساعدك على رؤية كل شيء والفوز بألف ميل.
الأدوات المدعومة
| اسم الوظيفة | يصف | وظيفة | مثال |
|---|
get_weather | احصل على معلومات الطقس للموقع | بعد توفير اسم الموقع ، ارجع إلى الظروف الجوية للموقع | قال المستخدم: "كيف هو الطقس في هانغتشو؟" → zhejiang/hangzhou |
ielts_speaking_practice | ممارسات IELTS عن طريق الفم | قم بإنشاء أسئلة وحوارات التمرينات الفموية IELTS لمساعدة المستخدمين على ممارسة تمارين IELTS عن طريق الفم | - |
get_day_of_week | احصل على اليوم الحالي من الأسبوع أو التاريخ | عندما يسأل المستخدم الوقت الحالي أو التاريخ أو يوم الأسبوع ، يتم إرجاع المعلومات المقابلة | قال المستخدم: "أي يوم من أيام الأسبوع اليوم؟" → العودة إلى الأسبوع الحالي |
schedule_task | إنشاء مهمة توقيت | يمكن للمستخدمين تحديد وقت التنفيذ ومحتوى المهمة وتذكير المستخدمين بانتظام | قال المستخدم: "ذكّرني بشرب الماء كل صباح في الساعة 8 صباحًا." → time: '08:00', content: '提醒我喝水' |
open_application | افتح التطبيق المحدد على جهاز Mac الخاص بك | يمكن للمستخدمين تحديد اسم التطبيق ، وسيقوم البرنامج النصي بتشغيل التطبيق المقابل على جهاز Mac | قال المستخدم ، "فتح سفاري". → application_name: 'Safari' |
web_search | ابحث عن الكلمات الرئيسية المحددة عبر الإنترنت | إرجاع نتائج البحث المقابلة بناءً على محتوى البحث الذي يوفره المستخدم | قال المستخدم: "ابحث عن آخر أخبار تقنية." → query: '最新的科技新闻' |
دليل المساهمة
أي مساهمات مرحب بها! إذا كان لديك أي اقتراحات للتحسينات في مشروع الإنقاذ أو العثور على أي مشاكل ، فيرجى تقديم ملاحظات أو تقديم طلب سحب من خلال مشكلات GitHub.
بروتوكول مفتوح المصدر
المشروع مفتوح من مصادر بناءً على رخصة معهد ماساتشوستس للتكنولوجيا. أنت حر في استخدام هذا المشروع وتعديله وتوزيعه ، ولكن تحتاج إلى الاحتفاظ ببيان الترخيص الأصلي.
معلومات الاتصال
إذا كان لديك أي أسئلة أو اقتراحات ، يرجى الاتصال:
- قضايا جيثب: تتبع قضية المشروع
تنصل
الإنقاذ هو مشروع مفتوح المصدر مصمم لأغراض التعلم الشخصي والبحث. يرجى ملاحظة إخلاء المسؤولية التالي عند استخدام هذا المشروع:
- الاستخدام الشخصي : هذا المشروع مخصص للدراسة الشخصية والبحث فقط وهو غير مناسب للاستخدام التجاري أو بيئات الإنتاج.
- المخاطر والمسؤولية : قد يؤدي استخدام الكفالة إلى فقدان البيانات أو فشل النظام أو مشاكل أخرى. نحن لسنا مسؤولين عن أي خسائر أو أضرار أو مشاكل ناشئة عن استخدام هذا المشروع.
- الدعم : لا يوفر هذا المشروع أي دعم فني أو ضمان. يجب على المستخدمين مخاطر استخدام هذا المشروع على مسؤوليتهم الخاصة.
يرجى التأكد من فهمك وقبول إخلاء المسئولية هذه قبل استخدام هذا المشروع. إذا كنت لا توافق على هذه الشروط ، فالرجاء عدم استخدام هذا المشروع.
شكرا لك على فهمك ودعمك!