vits mandarin biaobeiダウンロード-vits vits mandarin biaobeiソースコードダウンロード

vits mandarin biaobei

AI ソースコード

1.0.0

ダウンロード

VITS：エンドツーエンドのテキストからスピーチのための敵対的な学習を備えた条件付き変動自動エンコーダー

ジェヒヨン・キム、ジョンギル・コング、ジュヒーの息子

最近の論文では、vitsを提案します。エンドツーエンドのテキストからスピーチのための敵対的な学習を備えた条件付き変動自動エンコーダーです。

シングルステージトレーニングと並列サンプリングを有効にする最近のエンドツーエンドのテキスト（TTS）モデルが提案されていますが、そのサンプル品質は2段階のTTSシステムの品質と一致しません。この作業では、現在の2段階モデルよりも自然なサウンドオーディオを生成する並列エンドツーエンドTTSメソッドを提示します。私たちの方法は、正規化フローと敵対的なトレーニングプロセスで増強された変動推論を採用し、生成モデリングの表現力を向上させます。また、入力テキストからの多様なリズムを使用した音声を合成する確率的持続時間予測子を提案します。潜在変数に対する不確実性モデリングと確率的持続時間予測因子により、私たちの方法は、異なるピッチとリズムでテキスト入力を複数の方法で話すことができる自然な1対多くの関係を表します。 LJスピーチでの主観的な人間の評価（平均意見スコア、またはMOS）、単一のスピーカーデータセットは、この方法が最も公開されているTTSシステムを上回り、Ground Truthに匹敵するMOを達成することを示しています。

オーディオサンプルについては、デモにアクセスしてください。

また、前提条件のモデルも提供します。

**更新メモ：Rishikesh（ऋषिकेश）のおかげで、インタラクティブなTTSデモがColabノートブックで入手可能になりました。

トレーニングでのvits	推論でのvits

前提条件

Python> = 3.6
このリポジトリをクローンします
Python要件をインストールします。要件を参照してください。txt
1. ESPEAKを最初にインストールする必要があるかもしれません： apt-get install espeak
データセットをダウンロードします
1. LJ Speech Datasetをダウンロードして抽出し、データセットフォルダーへのリンクln -s /path/to/LJSpeech-1.1/wavs DUMMY1変更または作成します。
2. マルチスピーカー設定の場合、VCTKデータセットをダウンロードして抽出し、WAVファイルを22050 Hzにダウンサンプリングします。次に、データセットフォルダーへのリンクを変更または作成します： ln -s /path/to/VCTK-Corpus/downsampled_wavs DUMMY2
独自のデータセットを使用する場合は、単調アライメント検索を構築し、プリプロセシングを実行します。

 # Cython-version Monotonoic Alignment Search
cd monotonic_align
python setup.py build_ext --inplace

# Preprocessing (g2p) for your own datasets. Preprocessed phonemes for LJ Speech and VCTK have been already provided.
# python preprocess.py --text_index 1 --filelists filelists/ljs_audio_text_train_filelist.txt filelists/ljs_audio_text_val_filelist.txt filelists/ljs_audio_text_test_filelist.txt 
# python preprocess.py --text_index 2 --filelists filelists/vctk_audio_sid_text_train_filelist.txt filelists/vctk_audio_sid_text_val_filelist.txt filelists/vctk_audio_sid_text_test_filelist.txt

トレーニングエクスマープル

 # LJ Speech
python train.py -c configs/ljs_base.json -m ljs_base

# VCTK
python train_ms.py -c configs/vctk_base.json -m vctk_base

推論の例

Inference.ipynbを参照してください

拡大する

追加情報

バージョン 1.0.0
タイプ AI ソースコード
更新時間 2025-08-24
サイズ 963.36KB
から Github

vits mandarin biaobei

VITS：エンドツーエンドのテキストからスピーチのための敵対的な学習を備えた条件付き変動自動エンコーダー

ジェヒヨン・キム、ジョンギル・コング、ジュヒーの息子

前提条件

トレーニングエクスマープル

推論の例

GitHub sgrebnov/cordova plugin background download

Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

ジョーク

chat.petals.dev

GPT Prompt Templates

GPTyped

ML stack

awesome free chatgpt

pywin_contextmenu

Google Dorks

shepherd

mongo express