検索ベースの音声生成テキストから音声システムは、2つのコアパーツに依存するPythonベースのテキストです。スピーチを生成できるようにするために、タコトロンに依存してテキストをスピーチに変換し、RVC音声変換を使用して、オーディオファイルを使用する必要なく、キャラクターのように聞こえるようにします。
このTTSはPython 3.10でテストされていますが、他のバージョンでは機能する可能性があります。
最新の64ビットESPEAK NGリリースが必要です。
FairSeqの依存関係を構築するには、Visual Studioを使用して、「C ++でデスクトップ開発」開発パッケージをインストールする必要があります。
それを使用するには、詩をインストールし、 poetry install --no-root 、次にHubert Model、Forward Tacotronモデル、RVCモデルをダウンロードします。次に、対応する名前を使用して、モデルフォルダーに配置できます。
hubert_base.pt > hubert.ptforward_steps90k.pt > forward.pt(rvc .pth model name) - > rvc_model.pth(rvc .index model name) - > rvc_index.index (オプション)これらすべてを取得したら、CLIを介して目的の引数を使用してRVG.pyファイルを実行し、グレードWebUIを起動するための引数なしでファイルを実行するか、独自のプロジェクトにこのコードを含めてRVG.pyからrvg_tts関数をインポートできます。
別の言語を使用するには、新しいフォワードタコトロンモデルをトレーニングする必要があります。これは、データセットなしではできないことです。これは私がコミュニティに助けを求める場所です。データセットを提供できる場合は、してください。
フォワードタコトロンは、MITライセンスに基づいてライセンスされています
RVC WebUIは、MITライセンスに基づいてライセンスされています
著作権2023 foxify52
Apacheライセンス、バージョン2.0(「ライセンス」)に基づいてライセンスされています。ライセンスに準拠している場合を除き、このファイルを使用することはできません。ライセンスのコピーを取得できます
http://www.apache.org/licenses/LICENSE-2.0
適用法で要求されていないか、書面で合意されていない限り、ライセンスに基づいて配布されたソフトウェアは、明示または黙示のいずれかの保証または条件なしに、「現状のまま」に基づいて配布されます。ライセンスに基づく権限と制限を管理する特定の言語のライセンスを参照してください。