vox box
v0.0.9
Whisper, Funasr, Bark 및 Cosyvoice의 백엔드 지원으로 구동되는 OpenAI API와 호환되는 텍스트 음성 및 음성 텍스트 서버.
PIP를 사용하여 프로젝트를 설치할 수 있습니다.
pip install vox-box
# For MacOS, you need to manually install `openfst`, `pynini`, and `wetextprocessing` after installing `vox-box` to make `cosyvoice` work:
brew install openfst
export CPLUS_INCLUDE_PATH= $( brew --prefix openfst ) /include
export LIBRARY_PATH= $( brew --prefix openfst ) /lib
pip install pynini==2.1.6
pip install wetextprocessing==1.0.4.1vox-box start --huggingface-repo-id Systran/faster-whisper-small --data-dir ./cache/data-dir --host 0.0.0.0 --port 80
# Windows
vox-box start --huggingface-repo-id Systran/faster-whisper-small --data-dir C: U sers m ichelia A ppData R oaming v ox-box --host 0.0.0.0 --port 8082| 모델 | 유형 | 링크 | 검증 된 플랫폼 |
|---|---|---|---|
| 더 빠른 휘파람 -Large-v3 | 음성-텍스트 | 포옹 얼굴, Modelscope | Linux ✅, Windows ✅, MacOS ✅ |
| 더 빠른 휘파람 -Large-V2 | 음성-텍스트 | 포옹 얼굴, Modelscope | Linux ✅, Windows ✅, MacOS ✅ |
| 더 빠른 휘파람 -Large-V1 | 음성-텍스트 | 포옹 얼굴, Modelscope | |
| 더 빠른 휘파수-메드륨 | 음성-텍스트 | 포옹 얼굴, Modelscope | Linux ✅, Windows ✅, MacOS ✅ |
| 더 빠른-whisper-medium.en | 음성-텍스트 | 포옹 얼굴, Modelscope | |
| 더 빠른-스퍼 스마트 | 음성-텍스트 | 포옹 얼굴, Modelscope | Linux ✅, Windows ✅, MacOS ✅ |
| 더 빠른-whisper-small.en | 음성-텍스트 | 포옹 얼굴, Modelscope | |
| 더 빠른 디스티벌-스퍼-래지 -V3 | 음성-텍스트 | 포옹 얼굴, Modelscope | 마코스 ✅ |
| 더 빠른 디스틸-스퍼-래지 -V2 | 음성-텍스트 | 포옹 얼굴, Modelscope | 마코스 ✅ |
| 더 빠른 디스틸-스퍼 -medium.en | 음성-텍스트 | 포옹 얼굴, Modelscope | |
| 더 빠른 휘파람 | 음성-텍스트 | 포옹 얼굴, Modelscope | |
| 더 빠른-whisper-tiny.en | 음성-텍스트 | 포옹 얼굴, Modelscope | |
| Paraformer-Zh | 음성-텍스트 | 포옹 얼굴, Modelscope | |
| Paraformer-Zh 스트리밍 | 음성-텍스트 | 포옹 얼굴, Modelscope | Linux ✅, MacOS ✅ |
| Paraformer-en | 음성-텍스트 | 포옹 얼굴, Modelscope | |
| 순응 자 | 음성-텍스트 | 포옹 얼굴, Modelscope | |
| Sensevoicesmall | 음성-텍스트 | 포옹 얼굴, Modelscope | Linux ✅, Windows ✅, MacOS ✅ |
| 짖다 | 텍스트 음성 | 포옹 얼굴 | |
| 짖는 소리 | 텍스트 음성 | 포옹 얼굴 | |
| COSYVOICE-300m-Instruct | 텍스트 음성 | 포옹 얼굴, Modelscope | Linux (ARM 지원되지 않음), Windows (지원되지 않음), MacOS ✅ |
| cosyvoice-300m-sft | 텍스트 음성 | 포옹 얼굴, Modelscope | Linux (ARM 지원되지 않음), Windows (지원되지 않음), MacOS ✅ |
| cosyvoice-300m | 텍스트 음성 | 포옹 얼굴, Modelscope | Linux (ARM 지원되지 않음), Windows (지원되지 않음), MacOS ✅ |
| cosyvoice-300m-25Hz | 텍스트 음성 | ModelsCope | Linux (ARM 지원되지 않음), Windows (지원되지 않음), MacOS ✅ |
엔드 포인트 : POST /v1/audio/speech
입력 텍스트에서 오디오를 생성합니다. OpenAI 오디오/스피치 API와 호환됩니다.
예제 요청 :
curl http://localhost/v1/audio/speech
-H " Authorization: Bearer $OPENAI_API_KEY "
-H " Content-Type: application/json "
-d ' {
"model": "cosyvoice",
"input": "Hello world",
"voice": "English Female"
} '
--output speech.mp3응답 : 오디오 파일 컨텐츠.
엔드 포인트 : POST /v1/audio/transcriptions
오디오를 입력 언어로 전사합니다. OpenAI 오디오/전사 API와 호환됩니다.
예제 요청 :
curl https://localhost/v1/audio/transcriptions
-H " Authorization: Bearer $OPENAI_API_KEY "
-H " Content-Type: multipart/form-data "
-F file= " @/path/to/file/audio.mp3 "
-F model= " whisper-large-v3 "응답 :
{
"text" : " Hello world. "
} 엔드 포인트 : GET /v1/models
현재 실행중인 모델을 반환합니다.
엔드 포인트 : GET /v1/models/{model_id}
현재 실행중인 모델을 반환합니다.
엔드 포인트 : GET /v1/voices
현재 실행 모델에 대한 지원되는 음성을 반환합니다.
엔드 포인트 : GET /health
Vox 상자의 Heath Check 결과를 반환합니다.