vox box
v0.0.9
文本到语音和语音对文本服务器与OpenAI API兼容,由Whisper,Funasr,Bark和Cosyvoice提供支持。
您可以使用PIP安装项目:
pip install vox-box
# For MacOS, you need to manually install `openfst`, `pynini`, and `wetextprocessing` after installing `vox-box` to make `cosyvoice` work:
brew install openfst
export CPLUS_INCLUDE_PATH= $( brew --prefix openfst ) /include
export LIBRARY_PATH= $( brew --prefix openfst ) /lib
pip install pynini==2.1.6
pip install wetextprocessing==1.0.4.1vox-box start --huggingface-repo-id Systran/faster-whisper-small --data-dir ./cache/data-dir --host 0.0.0.0 --port 80
# Windows
vox-box start --huggingface-repo-id Systran/faster-whisper-small --data-dir C: U sers m ichelia A ppData R oaming v ox-box --host 0.0.0.0 --port 8082| 模型 | 类型 | 关联 | 经过验证的平台 |
|---|---|---|---|
| 更快的旋风大v3 | 语音到文本 | 拥抱的脸,模特尺寸 | Linux✅,Windows✅,MacOS✅ |
| 更快的旋转大量V2 | 语音到文本 | 拥抱的脸,模特尺寸 | Linux✅,Windows✅,MacOS✅ |
| 更快的旋风大v1 | 语音到文本 | 拥抱的脸,模特尺寸 | |
| 更快的中等 | 语音到文本 | 拥抱的脸,模特尺寸 | Linux✅,Windows✅,MacOS✅ |
| 更快的medper.en | 语音到文本 | 拥抱的脸,模特尺寸 | |
| 更快的旋风小all | 语音到文本 | 拥抱的脸,模特尺寸 | Linux✅,Windows✅,MacOS✅ |
| 更快的旋风small.en | 语音到文本 | 拥抱的脸,模特尺寸 | |
| 更快的distil-whisper-large-v3 | 语音到文本 | 拥抱的脸,模特尺寸 | macos✅ |
| 更快的distil-whisper-large-v2 | 语音到文本 | 拥抱的脸,模特尺寸 | macos✅ |
| 更快的distil-whisper-medium.en | 语音到文本 | 拥抱的脸,模特尺寸 | |
| 更快的旋风 | 语音到文本 | 拥抱的脸,模特尺寸 | |
| 更快的旋风小 | 语音到文本 | 拥抱的脸,模特尺寸 | |
| Paraformer-ZH | 语音到文本 | 拥抱的脸,模特尺寸 | |
| paraformer-zh-streaming | 语音到文本 | 拥抱的脸,模特尺寸 | Linux✅,MacOS✅ |
| paraformer-en | 语音到文本 | 拥抱的脸,模特尺寸 | |
| 构象-en | 语音到文本 | 拥抱的脸,模特尺寸 | |
| Sensevoicesmall | 语音到文本 | 拥抱的脸,模特尺寸 | Linux✅,Windows✅,MacOS✅ |
| 吠 | 文本到语音 | 拥抱脸 | |
| 树皮小all | 文本到语音 | 拥抱脸 | |
| cosyvoice-300m教学 | 文本到语音 | 拥抱的脸,模特尺寸 | Linux(不支持ARM),Windows(不支持),MacOS✅ |
| cosyvoice-300m-sft | 文本到语音 | 拥抱的脸,模特尺寸 | Linux(不支持ARM),Windows(不支持),MacOS✅ |
| Cosyvoice-300m | 文本到语音 | 拥抱的脸,模特尺寸 | Linux(不支持ARM),Windows(不支持),MacOS✅ |
| cosyvoice-300m-25Hz | 文本到语音 | ModelsCope | Linux(不支持ARM),Windows(不支持),MacOS✅ |
端点: POST /v1/audio/speech
从输入文本生成音频。与OpenAI音频/语音API兼容。
示例请求:
curl http://localhost/v1/audio/speech
-H " Authorization: Bearer $OPENAI_API_KEY "
-H " Content-Type: application/json "
-d ' {
"model": "cosyvoice",
"input": "Hello world",
"voice": "English Female"
} '
--output speech.mp3响应:音频文件内容。
端点: POST /v1/audio/transcriptions
将音频转录为输入语言。与OpenAI音频/转录API兼容。
示例请求:
curl https://localhost/v1/audio/transcriptions
-H " Authorization: Bearer $OPENAI_API_KEY "
-H " Content-Type: multipart/form-data "
-F file= " @/path/to/file/audio.mp3 "
-F model= " whisper-large-v3 "回复:
{
"text" : " Hello world. "
}端点: GET /v1/models
返回当前的运行模型。
端点: GET /v1/models/{model_id}
返回当前的运行模型。
端点: GET /v1/voices
为当前运行模型返回支持的语音。
终点: GET /health
返回Vox框的Heath检查结果。