このリポジトリには、テキストのみとターゲット音声の10秒のオーディオサンプルを使用して音声をクローニングするための重要なコードが含まれています。 XTTS-2-UIは、セットアップと使用が簡単です。例の例?
16の言語で動作し、本録音/アップロードが組み込まれています。注:ELレベルの品質を期待しないでください。まだありません。
使用されるモデルはtts_models/multilingual/multi-dataset/xtts_v2です。詳細については、Face-XTTS-V2とその特定のバージョンXTTS-V2バージョン2.0.2を参照してください。

このプロジェクトをセットアップするには、次の手順に従ってください。
リポジトリをクローンします
git clone https://github.com/pbanuru/xtts2-ui.git
cd xtts2-ui仮想環境を作成します:
python -m venv venvWindows:
# cmd prompt
venv S cripts a ctivateまたは
# git bash
source venv/Scripts/activateLinux/Mac:
source venv/bin/activatepytorchをインストールします:
nvcc --versionpip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118他の必要なパッケージをインストールします:
pip install -r requirements.txtpip install --upgrade TTSこれらの手順を完了すると、セットアップが完了し、プロジェクトの使用を開始できます。
モデルは、最初の使用時に自動的にダウンロードされます。
パスのダウンロード:
/Users/USR/Library/Application Support/tts/tts_models--multilingual--multi-dataset--xtts_v2C:Users YOUR-USER-ACCOUNT AppDataLocalttstts_models--multilingual--multi-dataset--xtts_v2/home/${USER}/.local/share/tts/tts_models--multilingual--multi-dataset--xtts_v2 pord {user }/.local/share/tts/tts_models - multilingual - multi-dataset--xtts_v2 アプリケーションを実行するには:
python app.py
OR
streamlit run app2.py
または、Texts.jsonにサンプル入力テキストを提供し、複数のスピーカーを使用して複数のオーディオを生成することにより、端末自体から実行することもできます(Appterminal.pyで調整する必要がある場合があります)
python appTerminal.py
最初の使用時には、条件に同意する必要があります。
[XTTS] Loading XTTS...
> tts_models/multilingual/multi-dataset/xtts_v2 has been updated, clearing model cache...
> You must agree to the terms of service to use this model.
| > Please see the terms of service at https://coqui.ai/cpml.txt
| > "I have read, understood and agreed to the Terms and Conditions." - [y/n]
| | >
モデルが各実行を再ダウンロードしている場合は、GitHubで問題4723を参照してください。
データセットは、 targetsという名前の単一のフォルダーで構成され、テストのためにいくつかの声が事前に入力されています。
より多くの声を追加するには(GUIを通過したくない場合)、約10秒の24kHz WAVファイルを作成し、 targetsフォルダーの下に置きます。 YT-DLPを使用して、YouTubeから音声をダウンロードしてクローニングできます。
yt-dlp -x --audio-format wav "https://www.youtube.com/watch?"
| 言語 | オーディオサンプルリンク |
|---|---|
| 英語 | |
| ロシア | |
| アラビア語 |
アラビア語、中国語、チェコ語、オランダ語、英語、フランス語、ドイツ語、ハンガリー語、イタリア語、日本語(セットアップを参照)、韓国語、ポーランド語、ポルトガル語、ロシア語、スペイン語、トルコ語
日本語をターゲット言語として選択したい場合は、辞書をインストールする必要があります。
# Lite version
pip install fugashi[unidic-lite]またはより深刻な処理のために:
# Full version
pip install fugashi[unidic]
python -m unidic download詳細はこちらです。