Un serveur de texte vocal et de parole compatible avec l'API OpenAI, alimenté par le support backend de Whisper, Funasr, Bark et Cosyvoice.
Vous pouvez installer le projet à l'aide de PIP:
pip install vox-box
# For MacOS, you need to manually install `openfst`, `pynini`, and `wetextprocessing` after installing `vox-box` to make `cosyvoice` work:
brew install openfst
export CPLUS_INCLUDE_PATH= $( brew --prefix openfst ) /include
export LIBRARY_PATH= $( brew --prefix openfst ) /lib
pip install pynini==2.1.6
pip install wetextprocessing==1.0.4.1vox-box start --huggingface-repo-id Systran/faster-whisper-small --data-dir ./cache/data-dir --host 0.0.0.0 --port 80
# Windows
vox-box start --huggingface-repo-id Systran/faster-whisper-small --data-dir C: U sers m ichelia A ppData R oaming v ox-box --host 0.0.0.0 --port 8082| Modèle | Taper | Lien | Plates-formes vérifiées |
|---|---|---|---|
| Plus rapide | discours à texte | Visage étreint, Modelscope | Linux ✅, Windows ✅, macOS ✅ |
| Plus rapide | discours à texte | Visage étreint, Modelscope | Linux ✅, Windows ✅, macOS ✅ |
| Plus rapide | discours à texte | Visage étreint, Modelscope | |
| Plus rapide | discours à texte | Visage étreint, Modelscope | Linux ✅, Windows ✅, macOS ✅ |
| Plus rapide | discours à texte | Visage étreint, Modelscope | |
| Plus rapide | discours à texte | Visage étreint, Modelscope | Linux ✅, Windows ✅, macOS ✅ |
| Plus rapide | discours à texte | Visage étreint, Modelscope | |
| Plus rapide-distil-whisper-large-v3 | discours à texte | Visage étreint, Modelscope | MacOS ✅ |
| Plus rapide-distil-whisper-large-v2 | discours à texte | Visage étreint, Modelscope | MacOS ✅ |
| Plus rapide-distil-whisper-medium.en | discours à texte | Visage étreint, Modelscope | |
| Plus rapide | discours à texte | Visage étreint, Modelscope | |
| Plus rapide | discours à texte | Visage étreint, Modelscope | |
| Paraformateur-zh | discours à texte | Visage étreint, Modelscope | |
| Paraformère-zh-streaming | discours à texte | Visage étreint, Modelscope | Linux ✅, macOS ✅ |
| Paraformateur-en | discours à texte | Visage étreint, Modelscope | |
| Conformer-en | discours à texte | Visage étreint, Modelscope | |
| SenseVoicesMall | discours à texte | Visage étreint, Modelscope | Linux ✅, Windows ✅, macOS ✅ |
| Aboyer | texte vocal | Visage étreint | |
| Écorce | texte vocal | Visage étreint | |
| Cosyvoice-300m-instruit | texte vocal | Visage étreint, Modelscope | Linux (bras non pris en charge), Windows (non pris en charge), macOS ✅ |
| Cosyvoice-300m-sft | texte vocal | Visage étreint, Modelscope | Linux (bras non pris en charge), Windows (non pris en charge), macOS ✅ |
| Cosyvoice-300m | texte vocal | Visage étreint, Modelscope | Linux (bras non pris en charge), Windows (non pris en charge), macOS ✅ |
| Cosyvoice-300m-25hz | texte vocal | Modelcope | Linux (bras non pris en charge), Windows (non pris en charge), macOS ✅ |
Point de terminaison : POST /v1/audio/speech
Génère l'audio à partir du texte d'entrée. Compatible avec l'API audio / discours OpenAI.
Exemple de demande :
curl http://localhost/v1/audio/speech
-H " Authorization: Bearer $OPENAI_API_KEY "
-H " Content-Type: application/json "
-d ' {
"model": "cosyvoice",
"input": "Hello world",
"voice": "English Female"
} '
--output speech.mp3Réponse : le contenu du fichier audio.
Point de terminaison : POST /v1/audio/transcriptions
Transcrit l'audio dans la langue d'entrée. Compatible avec l'API audio / transcription OpenAI.
Exemple de demande :
curl https://localhost/v1/audio/transcriptions
-H " Authorization: Bearer $OPENAI_API_KEY "
-H " Content-Type: multipart/form-data "
-F file= " @/path/to/file/audio.mp3 "
-F model= " whisper-large-v3 "Réponse :
{
"text" : " Hello world. "
} Point de terminaison : GET /v1/models
Renvoie les modèles en cours d'exécution actuels.
Point de terminaison : GET /v1/models/{model_id}
Renvoie le modèle en cours d'exécution actuel.
Point de terminaison : GET /v1/voices
Renvoie la voix prise en charge pour le modèle de course actuel.
Point de terminaison : GET /health
Renvoie le résultat de la vérification de la santé de la boîte Vox.