MB iSTFT VITS with AutoVocoder
1.0.0
Vitsから始めて、MB-Istft-vitsは、以下の手法を使用して合成速度を改善します。
この適切に設計されたフレームワークに基づいて、このリポジトリは、オートボコーダーによる音質と推論速度をさらに向上させることを目的としています。
このレポはMB-Istft-vitsに基づいており、予想される変更と拡張機能は次のとおりです。
1. ISTFTNETベースのデコーダーをオートボコーダーベースのデコーダーに交換します。
2。ISTFT操作では、フェーズ/マグニチュードコンポーネントの代わりにリアル/イマジナリーを使用して、複雑なスペクトログラムを構築します。タイムドメイン再構成損失を追加します。
3.後部エンコーダーを修正して、線形スペクトログラムの代わりに4つの複雑なコンポーネントを受け入れます。
(1024, 256, 1024) FFT/HOP/WINサイズで波形を直接生成することにより、波形を直接生成することにより、高速な推論速度があります。 (マルチバンドStartegyが維持されます)Mod 3.では、潜伏期に位相情報を提供することにより、事前にこれらの潜伏物を確実に近似できるかどうかをテストします。 Disclaimer : This repo is built for testing purpose. Performance is not guaranteed. Welcome your contributions.

apt-get install espeakln -s /path/to/LJSpeech-1.1/wavs DUMMY1変更または作成します。 # Cython-version Monotonoic Alignment Search
cd monotonic_align
mkdir monotonic_align
python setup.py build_ext --inplaceMB-Istft-Vitsトレーニングの場合、次のスクリプトを実行します
python train_latest.py -c configs/ljs_mb_istft_vits.json -m ljs_mb_istft_vits
トレーニング後、inconference.ipynbを使用して推論オーディオを確認できます