Ganyuttsは、テキストから音声を生成するためのVits + SO-Vitsツールです。もともとはゲームエリート危険のために作られていましたが、私はそれをメインプロジェクトから分離したので、今ではスタンドアロンの推論ツールまたはAPIとして機能できます。 Eddittsはこちらから入手できます。
これは間違いなく単なるおもちゃのプロジェクトなので、あまり期待しないでください。まだハードコーディングされていることがたくさんあり、コードはあまりきれいではありません。将来それをきれいにしようと思います。
私は自分の便利さのためにこのレポを作りましたが、あなたが望むならば、それを自由に使用してください。
このために仮想環境を使用することをお勧めします(CondaまたはVenv)。また、Python 3.9以降を使用することをお勧めします。 GPUは必須ではありませんが、推論を加速します。
pip install -r requirements.txtフォーンマイザーの場合、 ESPEAKをインストールする必要があります。 Windowsでは、ここからダウンロードできます。 Linuxでは、パッケージマネージャーを使用してインストールできます。
このプログラムには、ルートフォルダーにconfig.jsonという名前のconfigファイルが必要です。サンプルファイルが提供されています。モデルとAPIキーへのパスを変更できます。フォーンマイザーパスはWindowsユーザーにのみ関連します。別の場所にESPEAKがインストールされている場合は、ここで編集できます。インタラクティブモードを使用する場合は、OpenAIからAPIキーを取得する必要があります。それは非常に安く、回答の質に値します。
APIを開始するには、次のコマンドを実行します。
python main.pyこのアプリは、テキストからスピーチ用のシンプルなフラスコAPIを提供します。サーバーにPOSTリクエストを送信でき、Audio WAVファイルを返します。
例リクエストボディ:
{
"text" : " Hello, world! " ,
"sid1" : " 22 " , # speaker id in the multi-speaker VITS model
"sid2" : " ganyu " # speaker id in the SO-VITS model
}応答:
{
"audio" : " <audio wav> " # base64 encoded raw audio
}APIをテストするためにAPI_CLIENT_EXAMPLE.pyが提供されています。
2つの推論スクリプトがあります。1つはVITS用、もう1つはVits + SO-Vitsパイプライン用です。それらを使用して、単にCLIからオーディオを作成できます。
vitsのみ:
python inference_vits.py -t " Let's get started. I'll be your guide today. "vits + so-vitsの場合:
python inference_vits_sovits.py -t " Let's get started. I'll be your guide today "詳細については、 -hまたは--helpを使用してください。
すべてのモデルはモデルフォルダーにある必要があります。ハグピングフェイスリポジトリから手動でダウンロードする必要があります。また、Hubertモデルをダウンロードすることを忘れないでください。ソビットに必要です。 「checkpoint_best_legacy_500.pt」を使用しています