Un servidor de texto a voz y voz compatible con la API de OpenAI, alimentada por el soporte de backend de Whisper, Funasr, Bark y Cosyvoice.
Puede instalar el proyecto usando PIP:
pip install vox-box
# For MacOS, you need to manually install `openfst`, `pynini`, and `wetextprocessing` after installing `vox-box` to make `cosyvoice` work:
brew install openfst
export CPLUS_INCLUDE_PATH= $( brew --prefix openfst ) /include
export LIBRARY_PATH= $( brew --prefix openfst ) /lib
pip install pynini==2.1.6
pip install wetextprocessing==1.0.4.1vox-box start --huggingface-repo-id Systran/faster-whisper-small --data-dir ./cache/data-dir --host 0.0.0.0 --port 80
# Windows
vox-box start --huggingface-repo-id Systran/faster-whisper-small --data-dir C: U sers m ichelia A ppData R oaming v ox-box --host 0.0.0.0 --port 8082| Modelo | Tipo | Enlace | Plataformas verificadas |
|---|---|---|---|
| Más rápido | voz a texto | Abrazando la cara, Modelscope | Linux ✅, Windows ✅, macOS ✅ |
| Más rápido | voz a texto | Abrazando la cara, Modelscope | Linux ✅, Windows ✅, macOS ✅ |
| Más rápido | voz a texto | Abrazando la cara, Modelscope | |
| Más rápido | voz a texto | Abrazando la cara, Modelscope | Linux ✅, Windows ✅, macOS ✅ |
| Medio más rápido. | voz a texto | Abrazando la cara, Modelscope | |
| Más rápido | voz a texto | Abrazando la cara, Modelscope | Linux ✅, Windows ✅, macOS ✅ |
| Más rápido. | voz a texto | Abrazando la cara, Modelscope | |
| Más rápido-Distil-Whisper-Large-V3 | voz a texto | Abrazando la cara, Modelscope | MacOS ✅ |
| Más rápido | voz a texto | Abrazando la cara, Modelscope | MacOS ✅ |
| Más rápido-Distil-Whisper-Medium.en | voz a texto | Abrazando la cara, Modelscope | |
| Más rápido | voz a texto | Abrazando la cara, Modelscope | |
| Más rápido. | voz a texto | Abrazando la cara, Modelscope | |
| Paraformador-zh | voz a texto | Abrazando la cara, Modelscope | |
| Paraformador-zh-transmisión | voz a texto | Abrazando la cara, Modelscope | Linux ✅, macOS ✅ |
| Paraformador | voz a texto | Abrazando la cara, Modelscope | |
| Conformador | voz a texto | Abrazando la cara, Modelscope | |
| Sensevoicesmall | voz a texto | Abrazando la cara, Modelscope | Linux ✅, Windows ✅, macOS ✅ |
| Ladrar | texto a voz | Cara abrazada | |
| Pizca de corteza | texto a voz | Cara abrazada | |
| Cosyvoice-300m-Instructo | texto a voz | Abrazando la cara, Modelscope | Linux (brazo no es compatible), Windows (no compatible), macOS ✅ |
| Cosyvoice-300m-sft | texto a voz | Abrazando la cara, Modelscope | Linux (brazo no es compatible), Windows (no compatible), macOS ✅ |
| Cosyvoice-300m | texto a voz | Abrazando la cara, Modelscope | Linux (brazo no es compatible), Windows (no compatible), macOS ✅ |
| Cosyvoice-300m-25Hz | texto a voz | Modelscope | Linux (brazo no es compatible), Windows (no compatible), macOS ✅ |
Punto final : POST /v1/audio/speech
Genera audio a partir del texto de entrada. Compatible con la API de audio/discurso de Operai.
Solicitud de ejemplo :
curl http://localhost/v1/audio/speech
-H " Authorization: Bearer $OPENAI_API_KEY "
-H " Content-Type: application/json "
-d ' {
"model": "cosyvoice",
"input": "Hello world",
"voice": "English Female"
} '
--output speech.mp3Respuesta : el contenido del archivo de audio.
Punto final : POST /v1/audio/transcriptions
Transcribe audio al lenguaje de entrada. Compatible con la API de audio/transcripción de OpenAI.
Solicitud de ejemplo :
curl https://localhost/v1/audio/transcriptions
-H " Authorization: Bearer $OPENAI_API_KEY "
-H " Content-Type: multipart/form-data "
-F file= " @/path/to/file/audio.mp3 "
-F model= " whisper-large-v3 "Respuesta :
{
"text" : " Hello world. "
} Punto final : GET /v1/models
Devuelve los modelos de ejecución actuales.
Endpoint : GET /v1/models/{model_id}
Devuelve el modelo de ejecución actual.
Punto final : GET /v1/voices
Devuelve la voz compatible para el modelo de ejecución actual.
Punto final : GET /health
Devuelve el resultado de verificación de Heath de la casilla VOX.