vox box Download - vox box Source Code Download

vox box

كود الذكاء الاصطناعي

v0.0.9

تنزيل

مربع فوكس

خادم نص إلى كلام وخادم خطاب إلى نص يتوافق مع API Openai ، مدعوم من دعم الواجهة الخلفية من Whisper و Funasr و Bark و Cosyvoice.

متطلبات

بيثون 3.10 أو أكثر
دعم NVIDIA GPU ، يتطلب تثبيت مكتبات NVIDIA التالية:
- Cublas لـ CUDA 12
- Cudnn 9 لـ Cuda 12

تثبيت

يمكنك تثبيت المشروع باستخدام PIP:

pip install vox-box

# For MacOS, you need to manually install `openfst`, `pynini`, and `wetextprocessing` after installing `vox-box` to make `cosyvoice` work:
brew install openfst
export CPLUS_INCLUDE_PATH= $( brew --prefix openfst ) /include
export LIBRARY_PATH= $( brew --prefix openfst ) /lib
pip install pynini==2.1.6
pip install wetextprocessing==1.0.4.1

الاستخدام

vox-box start --huggingface-repo-id Systran/faster-whisper-small --data-dir ./cache/data-dir --host 0.0.0.0 --port 80

# Windows
vox-box start --huggingface-repo-id Systran/faster-whisper-small --data-dir C: U sers m ichelia A ppData R oaming v ox-box --host 0.0.0.0 --port 8082

خيارات

-D ، -Debug: تمكين وضع التصحيح.
-مضيف: مضيف لربط الخادم ل. الافتراضي هو 0.0.0.0.
-port: منفذ لربط الخادم بـ. الافتراضي هو 80.
-نموذج: مسار النموذج.
-الجهاز: جهاز الربط ، على سبيل المثال ، CUDA: 0. الافتراضي هو وحدة المعالجة المركزية.
-Haggingface-Repo-ID: معرف Reggingface repo للنموذج.
-معرف نموذج النطاق: معرف نموذج النطاق للنموذج.
-data-dir: دليل لتخزين بيانات النموذج التي تم تنزيلها. الافتراضي هو OS محدد.

النماذج المدعومة

نموذج	يكتب	وصلة	المنصات التي تم التحقق منها
أسرع-whisper-large-v3	الكلام إلى النص	الوجه المعانقة ، modelscope	Linux ✅ ، Windows ✅ ، macos ✅
أسرع-whisper-large-v2	الكلام إلى النص	الوجه المعانقة ، modelscope	Linux ✅ ، Windows ✅ ، macos ✅
أسرع-whisper-large-v1	الكلام إلى النص	الوجه المعانقة ، modelscope
أسرع-ميديوم	الكلام إلى النص	الوجه المعانقة ، modelscope	Linux ✅ ، Windows ✅ ، macos ✅
أسرع-whisper-medium.en	الكلام إلى النص	الوجه المعانقة ، modelscope
أسرع-whisper-small	الكلام إلى النص	الوجه المعانقة ، modelscope	Linux ✅ ، Windows ✅ ، macos ✅
أسرع-whisper-small.en	الكلام إلى النص	الوجه المعانقة ، modelscope
أسرع distil-whisper-large-v3	الكلام إلى النص	الوجه المعانقة ، modelscope	ماكوس ✅
أسرع distil-whisper-large-v2	الكلام إلى النص	الوجه المعانقة ، modelscope	ماكوس ✅
أسرع distil-whisper-medium.en	الكلام إلى النص	الوجه المعانقة ، modelscope
أسرع-whisper-tiny	الكلام إلى النص	الوجه المعانقة ، modelscope
أسرع-whisper-tiny.en	الكلام إلى النص	الوجه المعانقة ، modelscope
Paraformer-Zh	الكلام إلى النص	الوجه المعانقة ، modelscope
Paraformer-Zh-treaming	الكلام إلى النص	الوجه المعانقة ، modelscope	Linux ✅ ، macos ✅
Paraformer-en	الكلام إلى النص	الوجه المعانقة ، modelscope
المطابقة	الكلام إلى النص	الوجه المعانقة ، modelscope
Sensevoicesmall	الكلام إلى النص	الوجه المعانقة ، modelscope	Linux ✅ ، Windows ✅ ، macos ✅
نباح	نص إلى كلام	الوجه المعانقة
النباح	نص إلى كلام	الوجه المعانقة
cosyvoice-300m-instruct	نص إلى كلام	الوجه المعانقة ، modelscope	Linux (الذراع غير مدعوم) ، ويندوز (غير مدعوم) ، macos ✅
Cosyvoice-300m-SFT	نص إلى كلام	الوجه المعانقة ، modelscope	Linux (الذراع غير مدعوم) ، ويندوز (غير مدعوم) ، macos ✅
cosyvoice-300m	نص إلى كلام	الوجه المعانقة ، modelscope	Linux (الذراع غير مدعوم) ، ويندوز (غير مدعوم) ، macos ✅
Cosyvoice-300M-25Hz	نص إلى كلام	موديلات	Linux (الذراع غير مدعوم) ، ويندوز (غير مدعوم) ، macos ✅

واجهات برمجة التطبيقات المدعومة

خلق الكلام

نقطة النهاية : POST /v1/audio/speech

يولد الصوت من نص الإدخال. متوافق مع API Openai Audio/Speech.

طلب مثال :

curl http://localhost/v1/audio/speech 
  -H " Authorization: Bearer $OPENAI_API_KEY " 
  -H " Content-Type: application/json " 
  -d ' {
    "model": "cosyvoice",
    "input": "Hello world",
    "voice": "English Female"
  } ' 
  --output speech.mp3

الاستجابة : محتوى ملف الصوت.

إنشاء النسخ

نقطة النهاية : POST /v1/audio/transcriptions

ينسخ الصوت إلى لغة الإدخال. متوافق مع API Openai Audio/Transcription.

طلب مثال :

curl https://localhost/v1/audio/transcriptions 
  -H " Authorization: Bearer $OPENAI_API_KEY " 
  -H " Content-Type: multipart/form-data " 
  -F file= " @/path/to/file/audio.mp3 " 
  -F model= " whisper-large-v3 "

إجابة :