Um servidor de texto para fala e fala para texto compatível com a API OpenAI, alimentada pelo suporte de back-end do Whisper, Fanasr, Bark e Cosyvoice.
Você pode instalar o projeto usando PIP:
pip install vox-box
# For MacOS, you need to manually install `openfst`, `pynini`, and `wetextprocessing` after installing `vox-box` to make `cosyvoice` work:
brew install openfst
export CPLUS_INCLUDE_PATH= $( brew --prefix openfst ) /include
export LIBRARY_PATH= $( brew --prefix openfst ) /lib
pip install pynini==2.1.6
pip install wetextprocessing==1.0.4.1vox-box start --huggingface-repo-id Systran/faster-whisper-small --data-dir ./cache/data-dir --host 0.0.0.0 --port 80
# Windows
vox-box start --huggingface-repo-id Systran/faster-whisper-small --data-dir C: U sers m ichelia A ppData R oaming v ox-box --host 0.0.0.0 --port 8082| Modelo | Tipo | Link | Plataformas verificadas |
|---|---|---|---|
| Mais rápido e largo-v3 | fala para texto | Abraçando o rosto, modelscope | Linux ✅, Windows ✅, macOS ✅ |
| Mais rápido e largo-v2 | fala para texto | Abraçando o rosto, modelscope | Linux ✅, Windows ✅, macOS ✅ |
| Mais rápido e largo-v1 | fala para texto | Abraçando o rosto, modelscope | |
| Mais rápido-medium | fala para texto | Abraçando o rosto, modelscope | Linux ✅, Windows ✅, macOS ✅ |
| Mais rápido e medium.en | fala para texto | Abraçando o rosto, modelscope | |
| Mais rápido e mais rápido | fala para texto | Abraçando o rosto, modelscope | Linux ✅, Windows ✅, macOS ✅ |
| Mais rápido e smaml.en | fala para texto | Abraçando o rosto, modelscope | |
| Distílio-mais rápido-mais rápido-V3 | fala para texto | Abraçando o rosto, modelscope | Macos ✅ |
| Distílio-mais rápido mais rápido-V2 | fala para texto | Abraçando o rosto, modelscope | Macos ✅ |
| Mais rápido-distílio-whisper-medium.en | fala para texto | Abraçando o rosto, modelscope | |
| Mais rápido e pequeno | fala para texto | Abraçando o rosto, modelscope | |
| Mais rápido e pequeno.en | fala para texto | Abraçando o rosto, modelscope | |
| Paraformer-Zh | fala para texto | Abraçando o rosto, modelscope | |
| Paraformador-Zh Streaming | fala para texto | Abraçando o rosto, modelscope | Linux ✅, macOS ✅ |
| Paraformador-en | fala para texto | Abraçando o rosto, modelscope | |
| Conformista-en | fala para texto | Abraçando o rosto, modelscope | |
| SenseVoicesmall | fala para texto | Abraçando o rosto, modelscope | Linux ✅, Windows ✅, macOS ✅ |
| Latido | Texto para fala | Abraçando o rosto | |
| Bark-small | Texto para fala | Abraçando o rosto | |
| Cosyvoice-300m-Instruct | Texto para fala | Abraçando o rosto, modelscope | Linux (ARM não suportado), Windows (não suportado), macOS ✅ |
| Cosyvoice-300m-sft | Texto para fala | Abraçando o rosto, modelscope | Linux (ARM não suportado), Windows (não suportado), macOS ✅ |
| Cosyvoice-300m | Texto para fala | Abraçando o rosto, modelscope | Linux (ARM não suportado), Windows (não suportado), macOS ✅ |
| Cosyvoice-300m-25Hz | Texto para fala | Modelscope | Linux (ARM não suportado), Windows (não suportado), macOS ✅ |
Endpoint : POST /v1/audio/speech
Gera áudio a partir do texto de entrada. Compatível com a API de áudio/fala do Openai.
Solicitação de exemplo :
curl http://localhost/v1/audio/speech
-H " Authorization: Bearer $OPENAI_API_KEY "
-H " Content-Type: application/json "
-d ' {
"model": "cosyvoice",
"input": "Hello world",
"voice": "English Female"
} '
--output speech.mp3Resposta : o conteúdo do arquivo de áudio.
Endpoint : POST /v1/audio/transcriptions
Transcreve áudio para o idioma de entrada. Compatível com a API de áudio/transcrição do Openai.
Solicitação de exemplo :
curl https://localhost/v1/audio/transcriptions
-H " Authorization: Bearer $OPENAI_API_KEY "
-H " Content-Type: multipart/form-data "
-F file= " @/path/to/file/audio.mp3 "
-F model= " whisper-large-v3 "Resposta :
{
"text" : " Hello world. "
} Endpoint : GET /v1/models
Retorna os modelos em execução atuais.
Endpoint : GET /v1/models/{model_id}
Retorna o modelo em execução atual.
Endpoint : GET /v1/voices
Retorna a voz suportada para o modelo de corrida atual.
Endpoint : GET /health
Retorna o resultado da verificação da saúde da caixa Vox.