Download vox box - download do código fonte vox box

vox box

Código-Fonte de IA

v0.0.9

Baixar

Vox Box

Um servidor de texto para fala e fala para texto compatível com a API OpenAI, alimentada pelo suporte de back-end do Whisper, Fanasr, Bark e Cosyvoice.

Requisitos

Python 3.10 ou superior
Apoie a NVIDIA GPU, exige que as seguintes bibliotecas da NVIDIA sejam instaladas:
- CUBLAS PARA CUDA 12
- Cudnn 9 para Cuda 12

Instalação

Você pode instalar o projeto usando PIP:

pip install vox-box

# For MacOS, you need to manually install `openfst`, `pynini`, and `wetextprocessing` after installing `vox-box` to make `cosyvoice` work:
brew install openfst
export CPLUS_INCLUDE_PATH= $( brew --prefix openfst ) /include
export LIBRARY_PATH= $( brew --prefix openfst ) /lib
pip install pynini==2.1.6
pip install wetextprocessing==1.0.4.1

Uso

vox-box start --huggingface-repo-id Systran/faster-whisper-small --data-dir ./cache/data-dir --host 0.0.0.0 --port 80

# Windows
vox-box start --huggingface-repo-id Systran/faster-whisper-small --data-dir C: U sers m ichelia A ppData R oaming v ox-box --host 0.0.0.0 --port 8082

Opções

-d, - -debug: Ativar modo de depuração.
-Host: host para vincular o servidor. O padrão é 0,0.0.0.
--port: porta para vincular o servidor. O padrão é 80.
-Modelo: Caminho do modelo.
-Device: dispositivo de ligação, por exemplo, cuda: 0. O padrão é CPU.
--Huggingface-repo-id: huggingface repo ID para o modelo.
-Model-Scope-Model-ID: Modelo Modelo ID do modelo para o modelo.
-Data-Dir: Diretório para armazenar dados do modelo baixado. O padrão é específico do sistema operacional.

Modelos suportados

Modelo	Tipo	Link	Plataformas verificadas
Mais rápido e largo-v3	fala para texto	Abraçando o rosto, modelscope	Linux ✅, Windows ✅, macOS ✅
Mais rápido e largo-v2	fala para texto	Abraçando o rosto, modelscope	Linux ✅, Windows ✅, macOS ✅
Mais rápido e largo-v1	fala para texto	Abraçando o rosto, modelscope
Mais rápido-medium	fala para texto	Abraçando o rosto, modelscope	Linux ✅, Windows ✅, macOS ✅
Mais rápido e medium.en	fala para texto	Abraçando o rosto, modelscope
Mais rápido e mais rápido	fala para texto	Abraçando o rosto, modelscope	Linux ✅, Windows ✅, macOS ✅
Mais rápido e smaml.en	fala para texto	Abraçando o rosto, modelscope
Distílio-mais rápido-mais rápido-V3	fala para texto	Abraçando o rosto, modelscope	Macos ✅
Distílio-mais rápido mais rápido-V2	fala para texto	Abraçando o rosto, modelscope	Macos ✅
Mais rápido-distílio-whisper-medium.en	fala para texto	Abraçando o rosto, modelscope
Mais rápido e pequeno	fala para texto	Abraçando o rosto, modelscope
Mais rápido e pequeno.en	fala para texto	Abraçando o rosto, modelscope
Paraformer-Zh	fala para texto	Abraçando o rosto, modelscope
Paraformador-Zh Streaming	fala para texto	Abraçando o rosto, modelscope	Linux ✅, macOS ✅
Paraformador-en	fala para texto	Abraçando o rosto, modelscope
Conformista-en	fala para texto	Abraçando o rosto, modelscope
SenseVoicesmall	fala para texto	Abraçando o rosto, modelscope	Linux ✅, Windows ✅, macOS ✅
Latido	Texto para fala	Abraçando o rosto
Bark-small	Texto para fala	Abraçando o rosto
Cosyvoice-300m-Instruct	Texto para fala	Abraçando o rosto, modelscope	Linux (ARM não suportado), Windows (não suportado), macOS ✅
Cosyvoice-300m-sft	Texto para fala	Abraçando o rosto, modelscope	Linux (ARM não suportado), Windows (não suportado), macOS ✅
Cosyvoice-300m	Texto para fala	Abraçando o rosto, modelscope	Linux (ARM não suportado), Windows (não suportado), macOS ✅
Cosyvoice-300m-25Hz	Texto para fala	Modelscope	Linux (ARM não suportado), Windows (não suportado), macOS ✅

APIs suportadas

Criar discurso

Endpoint : POST /v1/audio/speech

Gera áudio a partir do texto de entrada. Compatível com a API de áudio/fala do Openai.

Solicitação de exemplo :

curl http://localhost/v1/audio/speech 
  -H " Authorization: Bearer $OPENAI_API_KEY " 
  -H " Content-Type: application/json " 
  -d ' {
    "model": "cosyvoice",
    "input": "Hello world",
    "voice": "English Female"
  } ' 
  --output speech.mp3

Resposta : o conteúdo do arquivo de áudio.

Crie transcrição

Endpoint : POST /v1/audio/transcriptions

Transcreve áudio para o idioma de entrada. Compatível com a API de áudio/transcrição do Openai.

Solicitação de exemplo :

curl https://localhost/v1/audio/transcriptions 
  -H " Authorization: Bearer $OPENAI_API_KEY " 
  -H " Content-Type: multipart/form-data " 
  -F file= " @/path/to/file/audio.mp3 " 
  -F model= " whisper-large-v3 "

Resposta :