vox boxのダウンロードvox boxソースコードのダウンロード

vox box

AI ソースコード

v0.0.9

ダウンロード

Vox Box

Whisper、Funasr、Bark、およびCosyvoiceからのバックエンドサポートを搭載したOpenai APIと互換性のあるテキストツーチーチとスピーチツーテキストサーバー。

要件

Python 3.10以上
NVIDIA GPUをサポートするには、次のNVIDIAライブラリをインストールする必要があります。
- Cublas for Cuda 12
- CUDA 12のCudnn 9

インストール

PIPを使用してプロジェクトをインストールできます。

pip install vox-box

# For MacOS, you need to manually install `openfst`, `pynini`, and `wetextprocessing` after installing `vox-box` to make `cosyvoice` work:
brew install openfst
export CPLUS_INCLUDE_PATH= $( brew --prefix openfst ) /include
export LIBRARY_PATH= $( brew --prefix openfst ) /lib
pip install pynini==2.1.6
pip install wetextprocessing==1.0.4.1

使用法

vox-box start --huggingface-repo-id Systran/faster-whisper-small --data-dir ./cache/data-dir --host 0.0.0.0 --port 80

# Windows
vox-box start --huggingface-repo-id Systran/faster-whisper-small --data-dir C: U sers m ichelia A ppData R oaming v ox-box --host 0.0.0.0 --port 8082

オプション

-d、 - debug：デバッグモードを有効にします。
-HOST：サーバーをバインドするホスト。デフォルトは0.0.0.0です。
- ポート：サーバーをバインドするポート。デフォルトは80です。
- モデル：モデルパス。
- デバイス：バインディングデバイス、例えば、cuda：0。デフォルトはCPUです。
- Huggingface-Repo-ID：モデルのHuggingface Repo ID。
-Model-Scope-Model-ID：モデルのモデルスコープモデルID。
-Data-Dir：ダウンロードされたモデルデータを保存するディレクトリ。デフォルトはOS固有です。

サポートされているモデル

モデル	タイプ	リンク	検証済みのプラットフォーム
より速いウィスパー - ラージ-V3	音声からテキスト	抱きしめる顔、モデルスコープ	Linux✅、Windows✅、macos✅
より速いウィスパー - ラージ-V2	音声からテキスト	抱きしめる顔、モデルスコープ	Linux✅、Windows✅、macos✅
より速いウィスパー - ラージ-V1	音声からテキスト	抱きしめる顔、モデルスコープ
より速いウィスパーメディウム	音声からテキスト	抱きしめる顔、モデルスコープ	Linux✅、Windows✅、macos✅
より速いwhisper-medium.en	音声からテキスト	抱きしめる顔、モデルスコープ
より速いウィスパースマル	音声からテキスト	抱きしめる顔、モデルスコープ	Linux✅、Windows✅、macos✅
より速いwhisper-small.en	音声からテキスト	抱きしめる顔、モデルスコープ
より速いディスティルウィスパー - ラージ-V3	音声からテキスト	抱きしめる顔、モデルスコープ	macos✅
より速いディスティルウィスパー - ラージ-V2	音声からテキスト	抱きしめる顔、モデルスコープ	macos✅
より速いディスティルウィスパーメディアム	音声からテキスト	抱きしめる顔、モデルスコープ
より速いウィスパー - タイニー	音声からテキスト	抱きしめる顔、モデルスコープ
より速いウィスパー-tiny.en	音声からテキスト	抱きしめる顔、モデルスコープ
Paraformer-zh	音声からテキスト	抱きしめる顔、モデルスコープ
Paraformer-Zh-streaming	音声からテキスト	抱きしめる顔、モデルスコープ	linux✅、macos✅
パラフォーマー - エン	音声からテキスト	抱きしめる顔、モデルスコープ
フィルマーエン	音声からテキスト	抱きしめる顔、モデルスコープ
Sensevoicesmall	音声からテキスト	抱きしめる顔、モデルスコープ	Linux✅、Windows✅、macos✅
吠える	テキストからスピーチ	顔を抱き締める
barksmall	テキストからスピーチ	顔を抱き締める
cosyvoice-300m-Instruct	テキストからスピーチ	抱きしめる顔、モデルスコープ	Linux（アームがサポートされていない）、Windows（サポートされていない）、macOS✅
cosyvoice-300m-sft	テキストからスピーチ	抱きしめる顔、モデルスコープ	Linux（アームがサポートされていない）、Windows（サポートされていない）、macOS✅
cosyvoice-300m	テキストからスピーチ	抱きしめる顔、モデルスコープ	Linux（アームがサポートされていない）、Windows（サポートされていない）、macOS✅
Cosyvoice-300M-25Hz	テキストからスピーチ	ModelScope	Linux（アームがサポートされていない）、Windows（サポートされていない）、macOS✅

サポートされているAPI

スピーチを作成します

エンドポイント： POST /v1/audio/speech

入力テキストからオーディオを生成します。 Openaiオーディオ/スピーチAPIと互換性があります。

リクエストの例：

curl http://localhost/v1/audio/speech 
  -H " Authorization: Bearer $OPENAI_API_KEY " 
  -H " Content-Type: application/json " 
  -d ' {
    "model": "cosyvoice",
    "input": "Hello world",
    "voice": "English Female"
  } ' 
  --output speech.mp3

応答：オーディオファイルのコンテンツ。

転写を作成します

エンドポイント： POST /v1/audio/transcriptions

オーディオを入力言語に転写します。 OpenAIオーディオ/転写APIと互換性があります。

リクエストの例：

curl https://localhost/v1/audio/transcriptions 
  -H " Authorization: Bearer $OPENAI_API_KEY " 
  -H " Content-Type: multipart/form-data " 
  -F file= " @/path/to/file/audio.mp3 " 
  -F model= " whisper-large-v3 "

応答：