vox box
v0.0.9
Whisper、Funasr、Bark、およびCosyvoiceからのバックエンドサポートを搭載したOpenai APIと互換性のあるテキストツーチーチとスピーチツーテキストサーバー。
PIPを使用してプロジェクトをインストールできます。
pip install vox-box
# For MacOS, you need to manually install `openfst`, `pynini`, and `wetextprocessing` after installing `vox-box` to make `cosyvoice` work:
brew install openfst
export CPLUS_INCLUDE_PATH= $( brew --prefix openfst ) /include
export LIBRARY_PATH= $( brew --prefix openfst ) /lib
pip install pynini==2.1.6
pip install wetextprocessing==1.0.4.1vox-box start --huggingface-repo-id Systran/faster-whisper-small --data-dir ./cache/data-dir --host 0.0.0.0 --port 80
# Windows
vox-box start --huggingface-repo-id Systran/faster-whisper-small --data-dir C: U sers m ichelia A ppData R oaming v ox-box --host 0.0.0.0 --port 8082| モデル | タイプ | リンク | 検証済みのプラットフォーム |
|---|---|---|---|
| より速いウィスパー - ラージ-V3 | 音声からテキスト | 抱きしめる顔、モデルスコープ | Linux✅、Windows✅、macos✅ |
| より速いウィスパー - ラージ-V2 | 音声からテキスト | 抱きしめる顔、モデルスコープ | Linux✅、Windows✅、macos✅ |
| より速いウィスパー - ラージ-V1 | 音声からテキスト | 抱きしめる顔、モデルスコープ | |
| より速いウィスパーメディウム | 音声からテキスト | 抱きしめる顔、モデルスコープ | Linux✅、Windows✅、macos✅ |
| より速いwhisper-medium.en | 音声からテキスト | 抱きしめる顔、モデルスコープ | |
| より速いウィスパースマル | 音声からテキスト | 抱きしめる顔、モデルスコープ | Linux✅、Windows✅、macos✅ |
| より速いwhisper-small.en | 音声からテキスト | 抱きしめる顔、モデルスコープ | |
| より速いディスティルウィスパー - ラージ-V3 | 音声からテキスト | 抱きしめる顔、モデルスコープ | macos✅ |
| より速いディスティルウィスパー - ラージ-V2 | 音声からテキスト | 抱きしめる顔、モデルスコープ | macos✅ |
| より速いディスティルウィスパーメディアム | 音声からテキスト | 抱きしめる顔、モデルスコープ | |
| より速いウィスパー - タイニー | 音声からテキスト | 抱きしめる顔、モデルスコープ | |
| より速いウィスパー-tiny.en | 音声からテキスト | 抱きしめる顔、モデルスコープ | |
| Paraformer-zh | 音声からテキスト | 抱きしめる顔、モデルスコープ | |
| Paraformer-Zh-streaming | 音声からテキスト | 抱きしめる顔、モデルスコープ | linux✅、macos✅ |
| パラフォーマー - エン | 音声からテキスト | 抱きしめる顔、モデルスコープ | |
| フィルマーエン | 音声からテキスト | 抱きしめる顔、モデルスコープ | |
| Sensevoicesmall | 音声からテキスト | 抱きしめる顔、モデルスコープ | Linux✅、Windows✅、macos✅ |
| 吠える | テキストからスピーチ | 顔を抱き締める | |
| barksmall | テキストからスピーチ | 顔を抱き締める | |
| cosyvoice-300m-Instruct | テキストからスピーチ | 抱きしめる顔、モデルスコープ | Linux(アームがサポートされていない)、Windows(サポートされていない)、macOS✅ |
| cosyvoice-300m-sft | テキストからスピーチ | 抱きしめる顔、モデルスコープ | Linux(アームがサポートされていない)、Windows(サポートされていない)、macOS✅ |
| cosyvoice-300m | テキストからスピーチ | 抱きしめる顔、モデルスコープ | Linux(アームがサポートされていない)、Windows(サポートされていない)、macOS✅ |
| Cosyvoice-300M-25Hz | テキストからスピーチ | ModelScope | Linux(アームがサポートされていない)、Windows(サポートされていない)、macOS✅ |
エンドポイント: POST /v1/audio/speech
入力テキストからオーディオを生成します。 Openaiオーディオ/スピーチAPIと互換性があります。
リクエストの例:
curl http://localhost/v1/audio/speech
-H " Authorization: Bearer $OPENAI_API_KEY "
-H " Content-Type: application/json "
-d ' {
"model": "cosyvoice",
"input": "Hello world",
"voice": "English Female"
} '
--output speech.mp3応答:オーディオファイルのコンテンツ。
エンドポイント: POST /v1/audio/transcriptions
オーディオを入力言語に転写します。 OpenAIオーディオ/転写APIと互換性があります。
リクエストの例:
curl https://localhost/v1/audio/transcriptions
-H " Authorization: Bearer $OPENAI_API_KEY "
-H " Content-Type: multipart/form-data "
-F file= " @/path/to/file/audio.mp3 "
-F model= " whisper-large-v3 "応答:
{
"text" : " Hello world. "
}エンドポイント: GET /v1/models
現在の実行モデルを返します。
エンドポイント: GET /v1/models/{model_id}
現在の実行モデルを返します。
Endpoint : GET /v1/voices
現在の実行モデルのサポートされている音声を返します。
エンドポイント: GET /health
VOXボックスのHEATHチェック結果を返します。