vox box
v0.0.9
خادم نص إلى كلام وخادم خطاب إلى نص يتوافق مع API Openai ، مدعوم من دعم الواجهة الخلفية من Whisper و Funasr و Bark و Cosyvoice.
يمكنك تثبيت المشروع باستخدام PIP:
pip install vox-box
# For MacOS, you need to manually install `openfst`, `pynini`, and `wetextprocessing` after installing `vox-box` to make `cosyvoice` work:
brew install openfst
export CPLUS_INCLUDE_PATH= $( brew --prefix openfst ) /include
export LIBRARY_PATH= $( brew --prefix openfst ) /lib
pip install pynini==2.1.6
pip install wetextprocessing==1.0.4.1vox-box start --huggingface-repo-id Systran/faster-whisper-small --data-dir ./cache/data-dir --host 0.0.0.0 --port 80
# Windows
vox-box start --huggingface-repo-id Systran/faster-whisper-small --data-dir C: U sers m ichelia A ppData R oaming v ox-box --host 0.0.0.0 --port 8082| نموذج | يكتب | وصلة | المنصات التي تم التحقق منها |
|---|---|---|---|
| أسرع-whisper-large-v3 | الكلام إلى النص | الوجه المعانقة ، modelscope | Linux ✅ ، Windows ✅ ، macos ✅ |
| أسرع-whisper-large-v2 | الكلام إلى النص | الوجه المعانقة ، modelscope | Linux ✅ ، Windows ✅ ، macos ✅ |
| أسرع-whisper-large-v1 | الكلام إلى النص | الوجه المعانقة ، modelscope | |
| أسرع-ميديوم | الكلام إلى النص | الوجه المعانقة ، modelscope | Linux ✅ ، Windows ✅ ، macos ✅ |
| أسرع-whisper-medium.en | الكلام إلى النص | الوجه المعانقة ، modelscope | |
| أسرع-whisper-small | الكلام إلى النص | الوجه المعانقة ، modelscope | Linux ✅ ، Windows ✅ ، macos ✅ |
| أسرع-whisper-small.en | الكلام إلى النص | الوجه المعانقة ، modelscope | |
| أسرع distil-whisper-large-v3 | الكلام إلى النص | الوجه المعانقة ، modelscope | ماكوس ✅ |
| أسرع distil-whisper-large-v2 | الكلام إلى النص | الوجه المعانقة ، modelscope | ماكوس ✅ |
| أسرع distil-whisper-medium.en | الكلام إلى النص | الوجه المعانقة ، modelscope | |
| أسرع-whisper-tiny | الكلام إلى النص | الوجه المعانقة ، modelscope | |
| أسرع-whisper-tiny.en | الكلام إلى النص | الوجه المعانقة ، modelscope | |
| Paraformer-Zh | الكلام إلى النص | الوجه المعانقة ، modelscope | |
| Paraformer-Zh-treaming | الكلام إلى النص | الوجه المعانقة ، modelscope | Linux ✅ ، macos ✅ |
| Paraformer-en | الكلام إلى النص | الوجه المعانقة ، modelscope | |
| المطابقة | الكلام إلى النص | الوجه المعانقة ، modelscope | |
| Sensevoicesmall | الكلام إلى النص | الوجه المعانقة ، modelscope | Linux ✅ ، Windows ✅ ، macos ✅ |
| نباح | نص إلى كلام | الوجه المعانقة | |
| النباح | نص إلى كلام | الوجه المعانقة | |
| cosyvoice-300m-instruct | نص إلى كلام | الوجه المعانقة ، modelscope | Linux (الذراع غير مدعوم) ، ويندوز (غير مدعوم) ، macos ✅ |
| Cosyvoice-300m-SFT | نص إلى كلام | الوجه المعانقة ، modelscope | Linux (الذراع غير مدعوم) ، ويندوز (غير مدعوم) ، macos ✅ |
| cosyvoice-300m | نص إلى كلام | الوجه المعانقة ، modelscope | Linux (الذراع غير مدعوم) ، ويندوز (غير مدعوم) ، macos ✅ |
| Cosyvoice-300M-25Hz | نص إلى كلام | موديلات | Linux (الذراع غير مدعوم) ، ويندوز (غير مدعوم) ، macos ✅ |
نقطة النهاية : POST /v1/audio/speech
يولد الصوت من نص الإدخال. متوافق مع API Openai Audio/Speech.
طلب مثال :
curl http://localhost/v1/audio/speech
-H " Authorization: Bearer $OPENAI_API_KEY "
-H " Content-Type: application/json "
-d ' {
"model": "cosyvoice",
"input": "Hello world",
"voice": "English Female"
} '
--output speech.mp3الاستجابة : محتوى ملف الصوت.
نقطة النهاية : POST /v1/audio/transcriptions
ينسخ الصوت إلى لغة الإدخال. متوافق مع API Openai Audio/Transcription.
طلب مثال :
curl https://localhost/v1/audio/transcriptions
-H " Authorization: Bearer $OPENAI_API_KEY "
-H " Content-Type: multipart/form-data "
-F file= " @/path/to/file/audio.mp3 "
-F model= " whisper-large-v3 "إجابة :
{
"text" : " Hello world. "
} نقطة النهاية : GET /v1/models
إرجاع نماذج التشغيل الحالية.
نقطة النهاية : GET /v1/models/{model_id}
إرجاع نموذج التشغيل الحالي.
نقطة النهاية : GET /v1/voices
إرجاع الصوت المدعوم لنموذج التشغيل الحالي.
نقطة النهاية : GET /health
إرجاع نتيجة فحص Heath من مربع Vox.