tttsダウンロードtttsソースコードのダウンロード

ttts

AI ソースコード

1.0.0

ダウンロード

detailtts：ゼロショットテキストからスピーチのための残留詳細情報を学習します

インスピレーション

私の知る限り、このプロジェクトの方法は、私が提案した最初の方法です。主なアイデアは、VQ（Vector量子化）ベースの方法がオーディオを非常にうまく再構築できず、この残差をモデル化する方法もありません。ただし、従来のVITの場合、線形スペクトルなどの監督信号を作成する方法、または学習可能な埋め込みを使用して期間を学習する方法があります。これらの観察結果は、最終的にこの方法が非常に良い結果を達成することにつながりました。

デモ

デモページにアクセスしてください

インストール

事前に訓練されたモデルにアクセスしてください

 pip install -e .

トレーニング

1。トークネザートレーニング

ttts/prepare/bpe_all_text_to_one_file.pyを使用して、収集したすべてのテキストをマージします。トークンザーをトレーニングするには、詳細についてはttts/gpt/voice_tokenizerを確認してください。

2。VQVAEトレーニング

1_vad_asr_save_to_jsonl.pyと2_romanize_text.pyを使用して、プレースセットを使用してください。次の命令を使用して、モデルをトレーニングします。

 accelerate launch ttts/vqvae/train_v3.py

マルチ言語

現在、中国語、英語、日本語、韓国語をサポートしています。

このモデルでは、2つのステップで任意の言語を使用できます。

まず、この言語の多くのテキストを収集します。
第二に、辞書を取得するためにttts/gpt/voice_tokenizerをトレーニングします。

英語の場合、テキストを直接使用できます。ただし、中国語の場合はPinyinを使用する必要があり、日本語にはRomajiを使用して、テキストに発音情報を必ず含める必要があります。

推論

推論の詳細については、 api.py確認してください。

微調整

Train_V3.pyのロードパスを前処理されたモデルで変更してから、トレーニングします。データセットについて、テキストとオーディオパスとラテン語を事前に処理する必要があります。いくつかの情報についてはttts/prepare/2_romanize_text.pyを参照できます。

謝辞

このレポの始まりであるカメ。
ほとんどのコードが基になっていることを確認します。
bert-vits2 MASのような最適化されたコードはここから来ました。

拡大する

追加情報

バージョン 1.0.0
タイプ AI ソースコード
更新時間 2025-08-21
サイズ 68.96MB
から Github

ttts

detailtts：ゼロショットテキストからスピーチのための残留詳細情報を学習します

インスピレーション

デモ

インストール

トレーニング

1。トークネザートレーニング

2。VQVAEトレーニング

マルチ言語

推論

微調整

謝辞

ML stack

awesome free chatgpt

pywin_contextmenu

promptl

tick.chat

FastLoRAChat

chat.petals.dev

GPT Prompt Templates

GPTyped

ML stack

awesome free chatgpt

pywin_contextmenu

Google Dorks

shepherd

mongo express