Ein mit der OpenAI-API kompatibeler Text-zu-Sprach- und Sprach-zu-Text-Server, der durch Backend-Unterstützung von Whisper, Funasr, Rinde und CoSyvoice betrieben wird.
Sie können das Projekt mit PIP installieren:
pip install vox-box
# For MacOS, you need to manually install `openfst`, `pynini`, and `wetextprocessing` after installing `vox-box` to make `cosyvoice` work:
brew install openfst
export CPLUS_INCLUDE_PATH= $( brew --prefix openfst ) /include
export LIBRARY_PATH= $( brew --prefix openfst ) /lib
pip install pynini==2.1.6
pip install wetextprocessing==1.0.4.1vox-box start --huggingface-repo-id Systran/faster-whisper-small --data-dir ./cache/data-dir --host 0.0.0.0 --port 80
# Windows
vox-box start --huggingface-repo-id Systran/faster-whisper-small --data-dir C: U sers m ichelia A ppData R oaming v ox-box --host 0.0.0.0 --port 8082| Modell | Typ | Link | Verifizierte Plattformen |
|---|---|---|---|
| Schneller-whisper-large-v3 | Sprache zu Text | Umarmt Gesicht, ModelsCope | Linux ✅, Windows ✅, macOS ✅ |
| Schneller-whisper-large-v2 | Sprache zu Text | Umarmt Gesicht, ModelsCope | Linux ✅, Windows ✅, macOS ✅ |
| Schneller-whisper-large-v1 | Sprache zu Text | Umarmt Gesicht, ModelsCope | |
| Schneller-Whisper-Medium | Sprache zu Text | Umarmt Gesicht, ModelsCope | Linux ✅, Windows ✅, macOS ✅ |
| Schneller-Whisper-Medium | Sprache zu Text | Umarmt Gesicht, ModelsCope | |
| Schneller-Whisper-Small | Sprache zu Text | Umarmt Gesicht, ModelsCope | Linux ✅, Windows ✅, macOS ✅ |
| Schneller-whisper-small.en | Sprache zu Text | Umarmt Gesicht, ModelsCope | |
| Schneller distil-wisper-large-v3 | Sprache zu Text | Umarmt Gesicht, ModelsCope | Macos ✅ |
| Schneller distil-wisper-large-v2 | Sprache zu Text | Umarmt Gesicht, ModelsCope | Macos ✅ |
| Schneller distil-wisper-medium.en | Sprache zu Text | Umarmt Gesicht, ModelsCope | |
| Schneller-Whisper-Tiny | Sprache zu Text | Umarmt Gesicht, ModelsCope | |
| Schneller-Whisper-tiny.en | Sprache zu Text | Umarmt Gesicht, ModelsCope | |
| Paraformer-Zh | Sprache zu Text | Umarmt Gesicht, ModelsCope | |
| Paraformer-Zh-Streaming | Sprache zu Text | Umarmt Gesicht, ModelsCope | Linux ✅, macOS ✅ |
| Paraformer-en | Sprache zu Text | Umarmt Gesicht, ModelsCope | |
| Konformer-en | Sprache zu Text | Umarmt Gesicht, ModelsCope | |
| SenseVoicesmall | Sprache zu Text | Umarmt Gesicht, ModelsCope | Linux ✅, Windows ✅, macOS ✅ |
| Bellen | Text-to-Speech | Umarmtes Gesicht | |
| Rinde-Small | Text-to-Speech | Umarmtes Gesicht | |
| Cosyvoice-300m-struktur | Text-to-Speech | Umarmt Gesicht, ModelsCope | Linux (Arm nicht unterstützt), Windows (nicht unterstützt), macOS ✅ |
| Cosyvoice-300m-sft | Text-to-Speech | Umarmt Gesicht, ModelsCope | Linux (Arm nicht unterstützt), Windows (nicht unterstützt), macOS ✅ |
| Cosyvoice-300m | Text-to-Speech | Umarmt Gesicht, ModelsCope | Linux (Arm nicht unterstützt), Windows (nicht unterstützt), macOS ✅ |
| Cosyvoice-300m-25hz | Text-to-Speech | ModelsCope | Linux (Arm nicht unterstützt), Windows (nicht unterstützt), macOS ✅ |
Endpunkt : POST /v1/audio/speech
Generiert Audio aus dem Eingabtext. Kompatibel mit der OpenAI -Audio-/Sprach -API.
Beispielanforderung :
curl http://localhost/v1/audio/speech
-H " Authorization: Bearer $OPENAI_API_KEY "
-H " Content-Type: application/json "
-d ' {
"model": "cosyvoice",
"input": "Hello world",
"voice": "English Female"
} '
--output speech.mp3Antwort : Der Inhalt der Audiodatei.
Endpunkt : POST /v1/audio/transcriptions
Transkribiert Audio in die Eingabessprache. Kompatibel mit der OpenAI -Audio-/Transkriptions -API.
Beispielanforderung :
curl https://localhost/v1/audio/transcriptions
-H " Authorization: Bearer $OPENAI_API_KEY "
-H " Content-Type: multipart/form-data "
-F file= " @/path/to/file/audio.mp3 "
-F model= " whisper-large-v3 "Antwort :
{
"text" : " Hello world. "
} Endpunkt : GET /v1/models
Gibt die aktuellen laufenden Modelle zurück.
Endpunkt : GET /v1/models/{model_id}
Gibt das aktuelle laufende Modell zurück.
Endpunkt : GET /v1/voices
Gibt die unterstützte Stimme für das aktuelle laufende Modell zurück.
Endpunkt : GET /health
Gibt das Heideprüfungsergebnis des Vox -Feldes zurück.