واجهة متصفح تستند إلى خريجيو للهمس. يمكنك استخدامه كمولد فرعي سهل!

إذا كنت ترغب في تجربة ذلك على كولاب ، يمكنك القيام بذلك هنا!
التطبيق قادر على التشغيل مع Pinokio.
http://localhost:7860 . تثبيت وإطلاق Docker-Desktop.
git استنساخ المستودع
git clone https://github.com/jhj0517/Whisper-WebUI.gitdocker compose build docker compose uphttp://localhost:7860 إذا لزم الأمر ، قم بتحديث docker-compose.yaml لتتناسب مع بيئتك.
لتشغيل هذا webui ، تحتاج إلى الحصول على git ، 3.10 <= python <= 3.12 ، FFmpeg .
وإذا كنت لا تستخدم وحدة معالجة الرسومات NVIDA ، أو تستخدم إصدار CUDA مختلفًا عن 12.4 ، قم بتحرير requirements.txt . txt لتتناسب مع بيئتك.
يرجى اتباع الروابط أدناه لتثبيت البرنامج اللازم:
3.10 ~ 3.12 يوصى به. بعد تثبيت FFMPEG ، تأكد من إضافة مجلد FFmpeg/bin إلى مسار النظام الخاص بك!
git clone https://github.com/jhj0517/Whisper-WebUI.gitinstall.bat أو install.sh لتثبيت التبعيات. (سيقوم بإنشاء دليل venv وتثبيت التبعيات هناك.)start-webui.bat أو start-webui.sh (سيتم تشغيل python app.py بعد تنشيط VenV)ويمكنك أيضًا تشغيل المشروع باستخدام وسيطات سطر الأوامر إذا كنت ترغب في ذلك ، راجع Wiki للحصول على دليل للوسائط.
تم دمج هذا المشروع مع الأسرع بشكل افتراضي لاستخدام VRAM بشكل أفضل وسرعة النسخ.
وفقًا لـ Faster-Whisper ، فإن كفاءة نموذج الهمس المحسّن هي كما يلي:
| تطبيق | دقة | حجم الشعاع | وقت | الأعلى. ذاكرة GPU | الأعلى. ذاكرة وحدة المعالجة المركزية |
|---|---|---|---|---|---|
| Openai/Whisper | FP16 | 5 | 4M30S | 11325MB | 9439MB |
| أسرع | FP16 | 5 | 54S | 4755 ميجابايت | 3244 ميغابايت |
إذا كنت ترغب في استخدام تطبيق آخر غير الأسرع ، فاستخدم- --whisper_type arg واسم المستودع.
اقرأ ويكي لمزيد من المعلومات حول cli args.
هذا هو جدول الاستخدام الأصلي لـ Whisper's VRAM للنماذج.
| مقاس | حدود | نموذج اللغة الإنجليزية فقط | نموذج متعدد اللغات | مطلوب VRAM | السرعة النسبية |
|---|---|---|---|---|---|
| صغير الحجم | 39 م | tiny.en | tiny | ~ 1 غيغابايت | ~ 32x |
| قاعدة | 74 م | base.en | base | ~ 1 غيغابايت | ~ 16x |
| صغير | 244 م | small.en | small | ~ 2 غيغابايت | ~ 6x |
| واسطة | 769 م | medium.en | medium | ~ 5 غيغابايت | ~ 2x |
| كبير | 1550 م | ن/أ | large | ~ 10 غيغابايت | 1x |
.en النماذج هي للغة الإنجليزية فقط ، والشيء الرائع هو أنه يمكنك استخدام خيار Translate to English من النماذج "الكبيرة"!
أي PRS يترجم اللغة إلى ترجمة.