Descargar vox box - Descargar código fuente de vox box

vox box

Código Fuente de IA

v0.0.9

Descargar

Caja de vox

Un servidor de texto a voz y voz compatible con la API de OpenAI, alimentada por el soporte de backend de Whisper, Funasr, Bark y Cosyvoice.

Requisitos

Python 3.10 o mayor
Soporte de la GPU NVIDIA, requiere que se instalen las siguientes bibliotecas NVIDIA:
- CUBLAS para CUDA 12
- CUDNN 9 para CUDA 12

Instalación

Puede instalar el proyecto usando PIP:

pip install vox-box

# For MacOS, you need to manually install `openfst`, `pynini`, and `wetextprocessing` after installing `vox-box` to make `cosyvoice` work:
brew install openfst
export CPLUS_INCLUDE_PATH= $( brew --prefix openfst ) /include
export LIBRARY_PATH= $( brew --prefix openfst ) /lib
pip install pynini==2.1.6
pip install wetextprocessing==1.0.4.1

Uso

vox-box start --huggingface-repo-id Systran/faster-whisper-small --data-dir ./cache/data-dir --host 0.0.0.0 --port 80

# Windows
vox-box start --huggingface-repo-id Systran/faster-whisper-small --data-dir C: U sers m ichelia A ppData R oaming v ox-box --host 0.0.0.0 --port 8082

Opción

-d, - -debug: habilitar el modo de depuración.
--host: host para vincular el servidor a. El valor predeterminado es 0.0.0.0.
--port: puerto para vincular el servidor a. El valor predeterminado es 80.
-Modelo: ruta del modelo.
--Device: dispositivo de enlace, por ejemplo, Cuda: 0. El valor predeterminado es CPU.
--Huggingface-Repo-ID: Huggingface Repo ID para el modelo.
-Modelo-chope-model-id: Modelo de alcance ID del modelo de modelo para el modelo.
--data-Dir: directorio para almacenar datos de modelo descargados. El valor predeterminado es específico del sistema operativo.

Modelos compatibles

Modelo	Tipo	Enlace	Plataformas verificadas
Más rápido	voz a texto	Abrazando la cara, Modelscope	Linux ✅, Windows ✅, macOS ✅
Más rápido	voz a texto	Abrazando la cara, Modelscope	Linux ✅, Windows ✅, macOS ✅
Más rápido	voz a texto	Abrazando la cara, Modelscope
Más rápido	voz a texto	Abrazando la cara, Modelscope	Linux ✅, Windows ✅, macOS ✅
Medio más rápido.	voz a texto	Abrazando la cara, Modelscope
Más rápido	voz a texto	Abrazando la cara, Modelscope	Linux ✅, Windows ✅, macOS ✅
Más rápido.	voz a texto	Abrazando la cara, Modelscope
Más rápido-Distil-Whisper-Large-V3	voz a texto	Abrazando la cara, Modelscope	MacOS ✅
Más rápido	voz a texto	Abrazando la cara, Modelscope	MacOS ✅
Más rápido-Distil-Whisper-Medium.en	voz a texto	Abrazando la cara, Modelscope
Más rápido	voz a texto	Abrazando la cara, Modelscope
Más rápido.	voz a texto	Abrazando la cara, Modelscope
Paraformador-zh	voz a texto	Abrazando la cara, Modelscope
Paraformador-zh-transmisión	voz a texto	Abrazando la cara, Modelscope	Linux ✅, macOS ✅
Paraformador	voz a texto	Abrazando la cara, Modelscope
Conformador	voz a texto	Abrazando la cara, Modelscope
Sensevoicesmall	voz a texto	Abrazando la cara, Modelscope	Linux ✅, Windows ✅, macOS ✅
Ladrar	texto a voz	Cara abrazada
Pizca de corteza	texto a voz	Cara abrazada
Cosyvoice-300m-Instructo	texto a voz	Abrazando la cara, Modelscope	Linux (brazo no es compatible), Windows (no compatible), macOS ✅
Cosyvoice-300m-sft	texto a voz	Abrazando la cara, Modelscope	Linux (brazo no es compatible), Windows (no compatible), macOS ✅
Cosyvoice-300m	texto a voz	Abrazando la cara, Modelscope	Linux (brazo no es compatible), Windows (no compatible), macOS ✅
Cosyvoice-300m-25Hz	texto a voz	Modelscope	Linux (brazo no es compatible), Windows (no compatible), macOS ✅

API compatibles

Crear discurso

Punto final : POST /v1/audio/speech

Genera audio a partir del texto de entrada. Compatible con la API de audio/discurso de Operai.

Solicitud de ejemplo :

curl http://localhost/v1/audio/speech 
  -H " Authorization: Bearer $OPENAI_API_KEY " 
  -H " Content-Type: application/json " 
  -d ' {
    "model": "cosyvoice",
    "input": "Hello world",
    "voice": "English Female"
  } ' 
  --output speech.mp3

Respuesta : el contenido del archivo de audio.

Crear transcripción

Punto final : POST /v1/audio/transcriptions

Transcribe audio al lenguaje de entrada. Compatible con la API de audio/transcripción de OpenAI.

Solicitud de ejemplo :

curl https://localhost/v1/audio/transcriptions 
  -H " Authorization: Bearer $OPENAI_API_KEY " 
  -H " Content-Type: multipart/form-data " 
  -F file= " @/path/to/file/audio.mp3 " 
  -F model= " whisper-large-v3 "

Respuesta :