Téléchargement vox box - Téléchargement du code source vox box

vox box

Code Source AI

v0.0.9

Télécharger

Vox

Un serveur de texte vocal et de parole compatible avec l'API OpenAI, alimenté par le support backend de Whisper, Funasr, Bark et Cosyvoice.

Exigences

Python 3.10 ou plus
Prise en charge du GPU Nvidia, nécessite l'installation des bibliothèques NVIDIA suivantes:
- Cublil pour cuda 12
- cudnn 9 pour cuda 12

Installation

Vous pouvez installer le projet à l'aide de PIP:

pip install vox-box

# For MacOS, you need to manually install `openfst`, `pynini`, and `wetextprocessing` after installing `vox-box` to make `cosyvoice` work:
brew install openfst
export CPLUS_INCLUDE_PATH= $( brew --prefix openfst ) /include
export LIBRARY_PATH= $( brew --prefix openfst ) /lib
pip install pynini==2.1.6
pip install wetextprocessing==1.0.4.1

Usage

vox-box start --huggingface-repo-id Systran/faster-whisper-small --data-dir ./cache/data-dir --host 0.0.0.0 --port 80

# Windows
vox-box start --huggingface-repo-id Systran/faster-whisper-small --data-dir C: U sers m ichelia A ppData R oaming v ox-box --host 0.0.0.0 --port 8082

Options

-d, --debug: Activer le mode de débogage.
--host: hôte pour lier le serveur à. La valeur par défaut est de 0,0.0.0.
--port: port pour lier le serveur à. La valeur par défaut est 80.
--model: chemin du modèle.
--Device: Dispositif de liaison, par exemple, CUDA: 0. La valeur par défaut est CPU.
--HuggingFace-Repo-ID: HuggingFace Repo ID pour le modèle.
--model-scope-model-id: modèle de modèle de portée du modèle pour le modèle.
--Data-Dir: répertoire pour stocker les données du modèle téléchargées. La valeur par défaut est spécifique au système d'exploitation.

Modèles pris en charge

Modèle	Taper	Lien	Plates-formes vérifiées
Plus rapide	discours à texte	Visage étreint, Modelscope	Linux ✅, Windows ✅, macOS ✅
Plus rapide	discours à texte	Visage étreint, Modelscope	Linux ✅, Windows ✅, macOS ✅
Plus rapide	discours à texte	Visage étreint, Modelscope
Plus rapide	discours à texte	Visage étreint, Modelscope	Linux ✅, Windows ✅, macOS ✅
Plus rapide	discours à texte	Visage étreint, Modelscope
Plus rapide	discours à texte	Visage étreint, Modelscope	Linux ✅, Windows ✅, macOS ✅
Plus rapide	discours à texte	Visage étreint, Modelscope
Plus rapide-distil-whisper-large-v3	discours à texte	Visage étreint, Modelscope	MacOS ✅
Plus rapide-distil-whisper-large-v2	discours à texte	Visage étreint, Modelscope	MacOS ✅
Plus rapide-distil-whisper-medium.en	discours à texte	Visage étreint, Modelscope
Plus rapide	discours à texte	Visage étreint, Modelscope
Plus rapide	discours à texte	Visage étreint, Modelscope
Paraformateur-zh	discours à texte	Visage étreint, Modelscope
Paraformère-zh-streaming	discours à texte	Visage étreint, Modelscope	Linux ✅, macOS ✅
Paraformateur-en	discours à texte	Visage étreint, Modelscope
Conformer-en	discours à texte	Visage étreint, Modelscope
SenseVoicesMall	discours à texte	Visage étreint, Modelscope	Linux ✅, Windows ✅, macOS ✅
Aboyer	texte vocal	Visage étreint
Écorce	texte vocal	Visage étreint
Cosyvoice-300m-instruit	texte vocal	Visage étreint, Modelscope	Linux (bras non pris en charge), Windows (non pris en charge), macOS ✅
Cosyvoice-300m-sft	texte vocal	Visage étreint, Modelscope	Linux (bras non pris en charge), Windows (non pris en charge), macOS ✅
Cosyvoice-300m	texte vocal	Visage étreint, Modelscope	Linux (bras non pris en charge), Windows (non pris en charge), macOS ✅
Cosyvoice-300m-25hz	texte vocal	Modelcope	Linux (bras non pris en charge), Windows (non pris en charge), macOS ✅

API soutenues

Créer un discours

Point de terminaison : POST /v1/audio/speech

Génère l'audio à partir du texte d'entrée. Compatible avec l'API audio / discours OpenAI.

Exemple de demande :

curl http://localhost/v1/audio/speech 
  -H " Authorization: Bearer $OPENAI_API_KEY " 
  -H " Content-Type: application/json " 
  -d ' {
    "model": "cosyvoice",
    "input": "Hello world",
    "voice": "English Female"
  } ' 
  --output speech.mp3

Réponse : le contenu du fichier audio.

Créer une transcription

Point de terminaison : POST /v1/audio/transcriptions

Transcrit l'audio dans la langue d'entrée. Compatible avec l'API audio / transcription OpenAI.

Exemple de demande :

curl https://localhost/v1/audio/transcriptions 
  -H " Authorization: Bearer $OPENAI_API_KEY " 
  -H " Content-Type: multipart/form-data " 
  -F file= " @/path/to/file/audio.mp3 " 
  -F model= " whisper-large-v3 "

Réponse :