vox box 다운로드 -Vox vox box 소스 코드 다운로드

vox box

AI 소스 코드

v0.0.9

다운로드

Vox Box

Whisper, Funasr, Bark 및 Cosyvoice의 백엔드 지원으로 구동되는 OpenAI API와 호환되는 텍스트 음성 및 음성 텍스트 서버.

요구 사항

파이썬 3.10 이상
NVIDIA GPU를 지원하고 다음 NVIDIA 라이브러리를 설치해야합니다.
- Cuda 12를위한 Cublas
- Cuda 12의 경우 Cudnn 9

설치

PIP를 사용하여 프로젝트를 설치할 수 있습니다.

pip install vox-box

# For MacOS, you need to manually install `openfst`, `pynini`, and `wetextprocessing` after installing `vox-box` to make `cosyvoice` work:
brew install openfst
export CPLUS_INCLUDE_PATH= $( brew --prefix openfst ) /include
export LIBRARY_PATH= $( brew --prefix openfst ) /lib
pip install pynini==2.1.6
pip install wetextprocessing==1.0.4.1

용법

vox-box start --huggingface-repo-id Systran/faster-whisper-small --data-dir ./cache/data-dir --host 0.0.0.0 --port 80

# Windows
vox-box start --huggingface-repo-id Systran/faster-whisper-small --data-dir C: U sers m ichelia A ppData R oaming v ox-box --host 0.0.0.0 --port 8082

옵션

-d, -debug : 디버그 모드를 활성화합니다.
-호스트 : 서버를 바인딩하는 호스트. 기본값은 0.0.0.0입니다.
-포트 : 서버를 바인딩하는 포트. 기본값은 80입니다.
-모델 : 모델 경로.
-디바이스 : 바인딩 장치, 예를 들어, CUDA : 0. 기본값은 CPU입니다.
-Huggingface-Repo-ID : 모델의 Huggingface Repo ID.
-모델 스코프-모델 ID : 모델의 모델 스코프 모델 ID.
-data-dir : 다운로드 된 모델 데이터를 저장하는 디렉토리. 기본값은 OS 특정입니다.

지원되는 모델

모델	유형	링크	검증 된 플랫폼
더 빠른 휘파람 -Large-v3	음성-텍스트	포옹 얼굴, Modelscope	Linux ✅, Windows ✅, MacOS ✅
더 빠른 휘파람 -Large-V2	음성-텍스트	포옹 얼굴, Modelscope	Linux ✅, Windows ✅, MacOS ✅
더 빠른 휘파람 -Large-V1	음성-텍스트	포옹 얼굴, Modelscope
더 빠른 휘파수-메드륨	음성-텍스트	포옹 얼굴, Modelscope	Linux ✅, Windows ✅, MacOS ✅
더 빠른-whisper-medium.en	음성-텍스트	포옹 얼굴, Modelscope
더 빠른-스퍼 스마트	음성-텍스트	포옹 얼굴, Modelscope	Linux ✅, Windows ✅, MacOS ✅
더 빠른-whisper-small.en	음성-텍스트	포옹 얼굴, Modelscope
더 빠른 디스티벌-스퍼-래지 -V3	음성-텍스트	포옹 얼굴, Modelscope	마코스 ✅
더 빠른 디스틸-스퍼-래지 -V2	음성-텍스트	포옹 얼굴, Modelscope	마코스 ✅
더 빠른 디스틸-스퍼 -medium.en	음성-텍스트	포옹 얼굴, Modelscope
더 빠른 휘파람	음성-텍스트	포옹 얼굴, Modelscope
더 빠른-whisper-tiny.en	음성-텍스트	포옹 얼굴, Modelscope
Paraformer-Zh	음성-텍스트	포옹 얼굴, Modelscope
Paraformer-Zh 스트리밍	음성-텍스트	포옹 얼굴, Modelscope	Linux ✅, MacOS ✅
Paraformer-en	음성-텍스트	포옹 얼굴, Modelscope
순응 자	음성-텍스트	포옹 얼굴, Modelscope
Sensevoicesmall	음성-텍스트	포옹 얼굴, Modelscope	Linux ✅, Windows ✅, MacOS ✅
짖다	텍스트 음성	포옹 얼굴
짖는 소리	텍스트 음성	포옹 얼굴
COSYVOICE-300m-Instruct	텍스트 음성	포옹 얼굴, Modelscope	Linux (ARM 지원되지 않음), Windows (지원되지 않음), MacOS ✅
cosyvoice-300m-sft	텍스트 음성	포옹 얼굴, Modelscope	Linux (ARM 지원되지 않음), Windows (지원되지 않음), MacOS ✅
cosyvoice-300m	텍스트 음성	포옹 얼굴, Modelscope	Linux (ARM 지원되지 않음), Windows (지원되지 않음), MacOS ✅
cosyvoice-300m-25Hz	텍스트 음성	ModelsCope	Linux (ARM 지원되지 않음), Windows (지원되지 않음), MacOS ✅

지원되는 API

연설을 만드십시오

엔드 포인트 : POST /v1/audio/speech

입력 텍스트에서 오디오를 생성합니다. OpenAI 오디오/스피치 API와 호환됩니다.

예제 요청 :

curl http://localhost/v1/audio/speech 
  -H " Authorization: Bearer $OPENAI_API_KEY " 
  -H " Content-Type: application/json " 
  -d ' {
    "model": "cosyvoice",
    "input": "Hello world",
    "voice": "English Female"
  } ' 
  --output speech.mp3

응답 : 오디오 파일 컨텐츠.

전사를 만듭니다

엔드 포인트 : POST /v1/audio/transcriptions

오디오를 입력 언어로 전사합니다. OpenAI 오디오/전사 API와 호환됩니다.

예제 요청 :

curl https://localhost/v1/audio/transcriptions 
  -H " Authorization: Bearer $OPENAI_API_KEY " 
  -H " Content-Type: multipart/form-data " 
  -F file= " @/path/to/file/audio.mp3 " 
  -F model= " whisper-large-v3 "

응답 :