テキストからスピーチ(TTS)は最近、並列TTSシステムの急速な発展により、高品質のスピーチを合成することに大きな進歩を遂げましたが、自然主義的な韻律的なバリエーション、スピーキングスタイル、感情的なトーンでスピーチを生成することは依然として困難です。さらに、期間と音声は個別に生成されるため、並列TTSモデルには、自然主義的な音声合成に重要な最良の単調アライメントを見つけるのに問題があります。ここでは、参照音声発話から自然韻律で多様な音声を合成できる並列TTSのスタイルベースの生成モデルであるStylettsを提案します。新規移動可能な単調アライナー(TMA)および持続時間不変のデータ増強スキームにより、この方法は、音声の自然性とスピーカーの類似性の主観的テストにおける単一およびマルチスピーカーデータセットの最新モデルを大幅に上回ります。スピーキングスタイルの自己監視学習を通じて、私たちのモデルは、これらのカテゴリを明示的にラベル付けする必要なく、特定の参照スピーチと同じ韻律的で感情的なトーンで音声を合成できます。
論文:https://arxiv.org/abs/2107.10394
オーディオサンプル:https://styletts.github.io/
git clone https://github.com/yl4579/StyleTTS.git
cd StyleTTSpip install SoundFile torchaudio munch torch pydub pyyaml librosa git+https://github.com/resemble-ai/monotonic_align.git第一段階のトレーニング:
python train_first.py --config_path ./Configs/config.ymlセカンドステージトレーニング:
python train_second.py --config_path ./Configs/config.yml両方を連続して実行することができ、第1段階と第2段階の両方をトレーニングします。モデルは、「epoch_1st_%05d.pth」および「epoch_2nd_%05d.pth」という形式で保存されます。チェックポイントとテンソルボードログは、 log_dirで保存されます。
データリスト形式は、 filename.wav|transcriptionである必要があります。例としてval_list_libritts.txtを参照してください。
詳細については、Inference.ipynbを参照してください。
24 kHzのLjspeech Corpus上の前提条件のStylettsとHifi-Ganは、Styletts LinkとHifi-Ganリンクでダウンロードできます。
Libritts Corpusの前提条件のStylettsとHifi-Ganは、Styletts LinkとHifi-Ganリンクでダウンロードできます。また、ゼロショットデモを実行する場合は、LibrittsからTest-Cleanをダウンロードする必要があります。
それぞれのModelsとVocoderに解凍して、ノートブックで各セルを実行してください。また、この推論デモを実行するには、Phonemizerをインストールする必要があります。
事前に保護されたテキストアライナーとピッチ抽出モデルは、 Utilsフォルダーの下に提供されます。テキストアライナーモデルとピッチ抽出モデルの両方は、meldataset.pyを使用して前処理されたmelspectrogramsでトレーニングされています。
Meldataset.pyを独自のMelspectrogram前処理で編集できますが、提供された前提型モデルは機能しなくなります。新しい前処理で独自のテキストアライナーとピッチ抽出器をトレーニングする必要があります。
新しいテキストアライナーモデルをトレーニングするためのコードはこちらから入手でき、トレーニング用の新しいピッチ抽出モデルはこちらでご利用いただけます。
私は、時間があれば、将来的には公式のHifiganやESPNETのような既存の前処理をより多くのレッティを提供します。あなたが喜んで助けてくれるなら、ESPNETでレシープを自由に作ってください。