StyleTTSダウンロードStyleTTSソースコードのダウンロード

StyleTTS

AI ソースコード

1.0.0

ダウンロード

Styletts：自然で多様なテキストからスピーチへの合成のためのスタイルベースの生成モデル

Yinghao Aaron Li、Cong Han、Nima Mesgarani

テキストからスピーチ（TTS）は最近、並列TTSシステムの急速な発展により、高品質のスピーチを合成することに大きな進歩を遂げましたが、自然主義的な韻律的なバリエーション、スピーキングスタイル、感情的なトーンでスピーチを生成することは依然として困難です。さらに、期間と音声は個別に生成されるため、並列TTSモデルには、自然主義的な音声合成に重要な最良の単調アライメントを見つけるのに問題があります。ここでは、参照音声発話から自然韻律で多様な音声を合成できる並列TTSのスタイルベースの生成モデルであるStylettsを提案します。新規移動可能な単調アライナー（TMA）および持続時間不変のデータ増強スキームにより、この方法は、音声の自然性とスピーカーの類似性の主観的テストにおける単一およびマルチスピーカーデータセットの最新モデルを大幅に上回ります。スピーキングスタイルの自己監視学習を通じて、私たちのモデルは、これらのカテゴリを明示的にラベル付けする必要なく、特定の参照スピーチと同じ韻律的で感情的なトーンで音声を合成できます。

論文：https：//arxiv.org/abs/2107.10394

オーディオサンプル：https：//styletts.github.io/

前提条件

Python> = 3.7
このリポジトリをクローンします：

git clone https://github.com/yl4579/StyleTTS.git
cd StyleTTS

Python要件のインストール：

pip install SoundFile torchaudio munch torch pydub pyyaml librosa git+https://github.com/resemble-ai/monotonic_align.git

ljspeechデータセットをダウンロードして抽出し、データフォルダーに解凍し、データを24 kHzにアップサンプリングします。ボコーダー、テキストアライナー、ピッチ抽出器は24 kHzのデータで事前に訓練されていますが、プリプロセシングを簡単に変更して、独自の前処理を使用してそれらを再訓練することができます。時間があれば、後でより多くの受信者と事前に訓練されたモデルを提供します。あなたが喜んで助けてくれるなら、他の前処理方法に自由に作業してください。 Librittsについては、Train-Clean-360とTrain-Clean-100を組み合わせて、フォルダーTrain-Clean-460の名前を変更する必要があります（例としてval_list_libritts.txtを参照）。

トレーニング

第一段階のトレーニング：

python train_first.py --config_path ./Configs/config.yml

セカンドステージトレーニング：

python train_second.py --config_path ./Configs/config.yml

両方を連続して実行することができ、第1段階と第2段階の両方をトレーニングします。モデルは、「epoch_1st_％05d.pth」および「epoch_2nd_％05d.pth」という形式で保存されます。チェックポイントとテンソルボードログは、 log_dirで保存されます。

データリスト形式は、 filename.wav|transcriptionである必要があります。例としてval_list_libritts.txtを参照してください。

推論

詳細については、Inference.ipynbを参照してください。

24 kHzのLjspeech Corpus上の前提条件のStylettsとHifi-Ganは、Styletts LinkとHifi-Ganリンクでダウンロードできます。

Libritts Corpusの前提条件のStylettsとHifi-Ganは、Styletts LinkとHifi-Ganリンクでダウンロードできます。また、ゼロショットデモを実行する場合は、LibrittsからTest-Cleanをダウンロードする必要があります。

それぞれのModelsとVocoderに解凍して、ノートブックで各セルを実行してください。また、この推論デモを実行するには、Phonemizerをインストールする必要があります。

前処理

事前に保護されたテキストアライナーとピッチ抽出モデルは、 Utilsフォルダーの下に提供されます。テキストアライナーモデルとピッチ抽出モデルの両方は、meldataset.pyを使用して前処理されたmelspectrogramsでトレーニングされています。

Meldataset.pyを独自のMelspectrogram前処理で編集できますが、提供された前提型モデルは機能しなくなります。新しい前処理で独自のテキストアライナーとピッチ抽出器をトレーニングする必要があります。

新しいテキストアライナーモデルをトレーニングするためのコードはこちらから入手でき、トレーニング用の新しいピッチ抽出モデルはこちらでご利用いただけます。

私は、時間があれば、将来的には公式のHifiganやESPNETのような既存の前処理をより多くのレッティを提供します。あなたが喜んで助けてくれるなら、ESPNETでレシープを自由に作ってください。

拡大する

追加情報

バージョン 1.0.0
タイプ AI ソースコード
更新時間 2025-08-21
サイズ 111.28MB
から Github

StyleTTS

Styletts：自然で多様なテキストからスピーチへの合成のためのスタイルベースの生成モデル

Yinghao Aaron Li、Cong Han、Nima Mesgarani

前提条件

トレーニング

推論

前処理

ML stack

awesome free chatgpt

pywin_contextmenu

promptl

tick.chat

FastLoRAChat

chat.petals.dev

GPT Prompt Templates

GPTyped

ML stack

awesome free chatgpt

pywin_contextmenu

Google Dorks

shepherd

mongo express