vox box
v0.0.9
เซิร์ฟเวอร์ข้อความและพูดเป็นข้อความที่เข้ากันได้กับ OpenAI API ซึ่งขับเคลื่อนโดยการสนับสนุนแบ็กเอนด์จาก Whisper, Funasr, Bark และ Cosyvoice
คุณสามารถติดตั้งโครงการโดยใช้ PIP:
pip install vox-box
# For MacOS, you need to manually install `openfst`, `pynini`, and `wetextprocessing` after installing `vox-box` to make `cosyvoice` work:
brew install openfst
export CPLUS_INCLUDE_PATH= $( brew --prefix openfst ) /include
export LIBRARY_PATH= $( brew --prefix openfst ) /lib
pip install pynini==2.1.6
pip install wetextprocessing==1.0.4.1vox-box start --huggingface-repo-id Systran/faster-whisper-small --data-dir ./cache/data-dir --host 0.0.0.0 --port 80
# Windows
vox-box start --huggingface-repo-id Systran/faster-whisper-small --data-dir C: U sers m ichelia A ppData R oaming v ox-box --host 0.0.0.0 --port 8082| แบบอย่าง | พิมพ์ | การเชื่อมโยง | แพลตฟอร์มที่ผ่านการตรวจสอบแล้ว |
|---|---|---|---|
| เร็วขึ้น-ใหญ่ V3 | คำพูดเป็นข้อความ | กอดใบหน้านางแบบ cope | Linux ✅, Windows ✅, MacOS ✅ |
| เร็วขึ้น-V2 | คำพูดเป็นข้อความ | กอดใบหน้านางแบบ cope | Linux ✅, Windows ✅, MacOS ✅ |
| เร็วขึ้น-ใหญ่ V1 | คำพูดเป็นข้อความ | กอดใบหน้านางแบบ cope | |
| ปานกลางเร็วขึ้น | คำพูดเป็นข้อความ | กอดใบหน้านางแบบ cope | Linux ✅, Windows ✅, MacOS ✅ |
| เร็วขึ้น-ปานกลาง | คำพูดเป็นข้อความ | กอดใบหน้านางแบบ cope | |
| เร็วเร็วขึ้น | คำพูดเป็นข้อความ | กอดใบหน้านางแบบ cope | Linux ✅, Windows ✅, MacOS ✅ |
| เร็วขึ้น-small.en | คำพูดเป็นข้อความ | กอดใบหน้านางแบบ cope | |
| เร็วขึ้น-เสียงกระซิบ -V3 | คำพูดเป็นข้อความ | กอดใบหน้านางแบบ cope | macos ✅ |
| เร็วขึ้น-เสียงกระซิบ -V2 | คำพูดเป็นข้อความ | กอดใบหน้านางแบบ cope | macos ✅ |
| เร็วขึ้น distil-whisper-medium.en | คำพูดเป็นข้อความ | กอดใบหน้านางแบบ cope | |
| เร็วขึ้น | คำพูดเป็นข้อความ | กอดใบหน้านางแบบ cope | |
| เร็วขึ้น | คำพูดเป็นข้อความ | กอดใบหน้านางแบบ cope | |
| Paraformer-ZH | คำพูดเป็นข้อความ | กอดใบหน้านางแบบ cope | |
| Paraformer-ZH-streaming | คำพูดเป็นข้อความ | กอดใบหน้านางแบบ cope | Linux ✅, MacOS ✅ |
| พารา | คำพูดเป็นข้อความ | กอดใบหน้านางแบบ cope | |
| ผู้ปฏิบัติตาม | คำพูดเป็นข้อความ | กอดใบหน้านางแบบ cope | |
| SENSEVOICESMALL | คำพูดเป็นข้อความ | กอดใบหน้านางแบบ cope | Linux ✅, Windows ✅, MacOS ✅ |
| เห่า | ข้อความเป็นคำพูด | กอดใบหน้า | |
| เปลือกเปลือกหอย | ข้อความเป็นคำพูด | กอดใบหน้า | |
| Cosyvoice-300m- Instruct | ข้อความเป็นคำพูด | กอดใบหน้านางแบบ cope | Linux (ไม่รองรับ ARM), Windows (ไม่รองรับ), MacOS ✅ |
| cosyvoice-300m-sft | ข้อความเป็นคำพูด | กอดใบหน้านางแบบ cope | Linux (ไม่รองรับ ARM), Windows (ไม่รองรับ), MacOS ✅ |
| cosyvoice-300m | ข้อความเป็นคำพูด | กอดใบหน้านางแบบ cope | Linux (ไม่รองรับ ARM), Windows (ไม่รองรับ), MacOS ✅ |
| cosyvoice-300m-25Hz | ข้อความเป็นคำพูด | ModelsCope | Linux (ไม่รองรับ ARM), Windows (ไม่รองรับ), MacOS ✅ |
จุดสิ้นสุด : POST /v1/audio/speech
สร้างเสียงจากข้อความอินพุต เข้ากันได้กับ OpenAI Audio/Speech API
คำขอตัวอย่าง :
curl http://localhost/v1/audio/speech
-H " Authorization: Bearer $OPENAI_API_KEY "
-H " Content-Type: application/json "
-d ' {
"model": "cosyvoice",
"input": "Hello world",
"voice": "English Female"
} '
--output speech.mp3การตอบสนอง : เนื้อหาไฟล์เสียง
จุดสิ้นสุด : POST /v1/audio/transcriptions
ถอดเสียงออกเป็นภาษาอินพุต เข้ากันได้กับ OpenAI Audio/Transcription API
คำขอตัวอย่าง :
curl https://localhost/v1/audio/transcriptions
-H " Authorization: Bearer $OPENAI_API_KEY "
-H " Content-Type: multipart/form-data "
-F file= " @/path/to/file/audio.mp3 "
-F model= " whisper-large-v3 "การตอบสนอง :
{
"text" : " Hello world. "
} จุดสิ้นสุด : GET /v1/models
ส่งคืนโมเดลการทำงานปัจจุบัน
จุดสิ้นสุด : GET /v1/models/{model_id}
ส่งคืนโมเดลการรันปัจจุบัน
จุดสิ้นสุด : GET /v1/voices
ส่งคืนเสียงที่รองรับสำหรับรูปแบบการทำงานปัจจุบัน
จุดสิ้นสุด : GET /health
ส่งคืนผลการตรวจสอบ Heath ของกล่อง Vox