text_generation_webui_xtts
1.0.0
これは、多言語TTSを有効にするテキストジェネレーションWebuiの単純な拡張機能であり、Coqui-Ai/TTSのXTTSV2を使用して音声クローニングを使用します。
XTTSV2は、Text-Generation-Webui(coqui_tts)に組み込まれています。ナレーター機能のこの拡張機能をまだ更新するかもしれませんが、それを気にしない場合は、公式拡張機能を使用してください。
これは、Barktts拡張機能に基づいてすぐに一緒に投げた非常に粗い拡張機能です。それは機能するかもしれないし、そうでないかもしれません。コードを改善し、PRを送信してください。
cmd_windows.bat / cmd_linux.sh / cmd_macos.sh / cmd_wsl.batを実行することで環境をアクティブにして、プラットフォームに応じて、または手動でインストールした場合はコンドラ環境をアクティブにします。このレポをクローンします:
cd extensions
git clone https://github.com/kanttouchthis/text_generation_webui_xtts
TTSの依存関係をインストールします。
cd text_generation_webui_xtts
pip install -r requirements.txt
TTSをインストールします。それらのバージョンの要件は問題を引き起こすため、バージョンの要件なしで上記の依存関係をインストールします。
pip install TTS --no-dependencies
上記の手順が終了したら、Voicesフォルダーにいくつかの声を追加できます。これは、誰かが話している人の短い(3〜6秒)WAVクリップにすることができます。長いギャップがない高品質のオーディオであることを確認してください。次に、 --extensions text_generation_webui_xttsでWebUIを実行し、音声/言語およびその他の設定を下部に選択します。最初に実行したときに、コンソールを介して利用規約を受け入れる必要がある場合があります。