Aura هو مساعد صوت ذكي محسن لاستجابات الكمون المنخفضة. يستخدم وظائف vercel Edge ، والتعرف على الكلام الهامس ، GPT-4O و Eleven Labs TTS.
عرض العرض التوضيحي · الإبلاغ عن خطأ · طلب ميزة

✅ A Siri-like voice assistant within your browser
✅ Optimized for low latency responses
✅ With the combined power of OpenAI, Whisper Speech Recognition and Eleven Labs
يمكنك اختبار الهالة هنا: https://voice.julianschoen.co
أصبح المساعدون الصوتيون جزءًا لا يتجزأ من حياتنا. هم في كل مكان. في هواتفنا ، في سياراتنا ، في منازلنا. لماذا لا على الويب أيضًا؟
حتى وقت قريب كانت المشكلة الرئيسية مع المساعدين الصوتيين على الويب هي الكمون. استغرق الأمر وقتًا طويلاً لإرسال الصوت إلى الخادم ، وإنشاء إكمال LLM وإرسال الكلام مرة أخرى. لقد جعلت التطورات الحديثة لـ Openai و Eleven Labs و Vercel من الممكن بناء مساعد صوتي سريع بما يكفي لاستخدامه على الويب.
أحب أن يصبح هذا الريبو مكانًا للأشخاص الذين يرغبون في بناء مساعد صوتي خاص بهم. لقد كنت أعمل في هذا المشروع لفترة من الوقت الآن وأنا متحمس حقًا لمشاركته معك.
يعد زمن انتقال المساعد الصوتي هو العامل الأكثر أهمية لتجربة المستخدم الجيدة. يوجد حاليًا 3 عوامل رئيسية تساهم في الكمون:
بناءً على بعض الاختبارات التي أجريتها ، يستغرق توليد الكلام معظم الوقت. كلما طال توليف النص ، كلما طال أمده لتوليد الكلام. يعد زمن انتقال توليد الكلام هو الأكثر توسلاً.
قد تكون استراتيجية التخفيف المحتملة تقسيم الاستجابة إلى أجزاء متعددة وتدفقها واحدًا تلو الآخر. هذا من شأنه أن يسمح للمستخدم بالبدء في الاستماع إلى الاستجابة أثناء إنشاء بقية الاستجابة. لم أقم بتطبيق هذا بعد ، لكن هذا شيء أفكر فيه. إذا كان لديك أي أفكار حول كيفية تحسين الكمون ، فيرجى إبلاغي بذلك.
شيء آخر يجب وضعه في الاعتبار هو وقت الانتظار. بناءً على بعض الأبحاث ، يبدو أن وقت الانتظار المتصور أقصر إذا تم إعطاء المستخدم نوعًا من التعليقات أثناء الانتظار. لقد قمت بتنفيذ إشعار "تفكير" بسيط يتم عرضه بينما يقوم المساعد بمعالجة الاستجابة ، لكنني متأكد من أن هناك طرقًا أفضل لتحسين وقت الانتظار المتصور.
استنساخ الريبو
git clone https://github.com/ntegrals/aura-voiceاحصل على مفتاح API من https://openai.com/ و https://elevenlabs.com/
انسخ ملف .env.example إلى .env.local وأضف مفاتيح API
OPENAI_API_KEY= " YOUR OPENAI API KEY "
OPENAI_BASE_URL=(Optional)
NEXT_PUBLIC_ELEVENLABS_API_KEY= " YOUR ELEVENLABS API KEY "
NEXT_PUBLIC_ELEVENLABS_VOICE_ID= " YOUR ELEVENLABS VOICE ID "تثبيت التبعيات
npm installتشغيل التطبيق
npm run devنشر إلى Vercel
أهلاً! شكرا للتحقق من هذه المكتبة واستخدام هذه المكتبة. إذا كنت مهتمًا بمناقشة مشروعك ، أو تتطلب الإرشاد ، أو فكر في توظيفني ، أو أريد الدردشة - يسعدني التحدث.
يمكنك أن ترسل لي بريدًا إلكترونيًا للاتصال: [email protected] أو رسالة على Twitter: julianschoen
إذا كنت ترغب فقط في إعادة شيء ما ، فقد حصلت على حساب قهوة:

شكرا ويوم رائع
مساعد الصوت ، هو تطبيق تجريبي ويتم توفيره "كما هو" دون أي ضمان ، صريح أو ضمني. باستخدام هذا البرنامج ، فإنك توافق على تحمل جميع المخاطر المرتبطة باستخدامه ، بما في ذلك على سبيل المثال لا الحصر فقدان البيانات أو فشل النظام أو أي مشكلات أخرى قد تنشأ.
لا يقبل المطورون والمساهمين في هذا المشروع أي مسؤولية أو مسؤولية عن أي خسائر أو أضرار أو عواقب أخرى قد تحدث نتيجة لاستخدام هذا البرنامج. أنت وحدك مسؤول عن أي قرارات والإجراءات المتخذة بناءً على المعلومات التي قدمها المساعد الصوتي.
يرجى ملاحظة أن استخدام نموذج لغة GPT-4 يمكن أن يكون مكلفًا بسبب استخدامه الرمزي. من خلال استخدام هذا المشروع ، فإنك تقر بأنك مسؤول عن مراقبة وإدارة استخدام الرمز المميز الخاص بك والتكاليف المرتبطة بها. يوصى بشدة بالتحقق من استخدام API Openai بانتظام وإعداد أي حدود أو تنبيهات ضرورية لمنع رسوم غير متوقعة.
من خلال استخدام مساعد الصوت ، فإنك توافق على تعويض المطورين والمساهمين وأي أطراف تابعة واضطرابها من أي وجميع المطالبات ، والأضرار ، والالتزامات ، والتكاليف ، والنفقات (بما في ذلك أتعاب المحاماة المعقولة) الناشئة عن استخدامك لهذا البرنامج أو انتهاكك لهذه المصطلحات.
موزعة تحت رخصة معهد ماساتشوستس للتكنولوجيا. انظر LICENSE لمزيد من المعلومات.