Grad TTS ChineseダウンロードGrad TTS Chineseソースコードダウンロード

Grad TTS Chinese

AI ソースコード

release grad-tts-cfm

ダウンロード

中国語のHuawei Grad-TTS、統合されたBertおよびBigvgan

学習用のTTSアルゴリズムプロジェクトの推論速度は遅いですが、拡散は大きな傾向です

grad_tts

bert_grad_tts grad-tts-cfmフレームワーク

訓練されたモデルでテストされました

nvidia/bigvganからボコーダーモデルbigvgan_base_24khz_100bandをダウンロードします
g_05000000を./bigvgan_pretrain/g_0500000に入れます
executeDone/中国語fastspeech2からbert prosody_modelをダウンロードします
best_model.ptをprosody_model.ptに変更し、それを./bert/prosody_model.ptに入れます
リリースページgred_tts.ptからリリースページからTTSモデルをダウンロードする
現在のディレクトリまたはどこにでもgrad_tts.ptを入れます
インストール環境依存関係
PIPインストール-R要件。txt
cd ./grad/monotonic_align
python setup.py build_ext - インプレース
CD -
推論テスト
python inconference.py - file test.txt -checkpoint grad_tts.pt - timesteps 10 - temperature 1.015
./inference_outでオーディオを生成します。/inference_out
timestepsが大きいほど、効果が良くなるほど、推論時間が長くなります。 0に設定すると、拡散がスキップされ、フレームコダーによって生成されたMELスペクトルが出力されます。
temperature 、拡散推論によって追加されるノイズの量を決定し、最高の値をデバッグする必要があります。

標準データ

biaobeiデータの公式リンクをダウンロード：https：//www.data-baker.com/data/index/tntts/
Waves ./Data/Wavesに入れます
000001-010000.txtを./data/000001-010000.txtに入れます
BigVgan 24Kモデルが使用されるため、24kHzに再サンプリングします
python tools/preprocess_a.py -w ./data/wave/ -o ./data/wavs -s 24000
MELスペクトルを抽出し、ボコーダーを交換すると、コードに記載されているMELパラメーターに注意を払う必要があります。
python tools/preprocess_m.py-wav data/wavs/--out data/mels/
Bert発音ベクトルを抽出し、トレーニングインデックスファイルtrain.txtとvalid.txtを同時に生成します
Python Tools/Preprocess_b.py
出力には、 data/berts/およびdata/filesが含まれます
注：情報の印刷は儿化音削除することです（プロジェクトはアルゴリズムのデモンストレーションであり、制作を行いません）

追加の指示

オリジナルのラベル

 000001	卡尔普#2陪外孙#1玩滑梯#4。
	ka2 er2 pu3 pei2 wai4 sun1 wan2 hua2 ti1
000002	假语村言#2别再#1拥抱我#4。
	jia2 yu3 cun1 yan2 bie2 zai4 yong1 bao4 wo3

Bertは漢字卡尔普陪外孙玩滑梯。 （句読点を含む）、TTSは最終的な母音sil k a2 ^ er2 p u3 p ei2 ^ uai4 s uen1 ^ uan2 h ua2 t i1 sp sil必要とします

 000001	卡尔普陪外孙玩滑梯。
	ka2 er2 pu3 pei2 wai4 sun1 wan2 hua2 ti1
	sil k a2 ^ er2 p u3 p ei2 ^ uai4 s uen1 ^ uan2 h ua2 t i1 sp sil
000002	假语村言别再拥抱我。
	jia2 yu3 cun1 yan2 bie2 zai4 yong1 bao4 wo3
	sil j ia2 ^ v3 c uen1 ^ ian2 b ie2 z ai4 ^ iong1 b ao4 ^ uo3 sp sil

トレーニングラベル

 ./data/wavs/000001.wav|./data/mels/000001.pt|./data/berts/000001.npy|sil k a2 ^ er2 p u3 p ei2 ^ uai4 s uen1 ^ uan2 h ua2 t i1 sp sil
./data/wavs/000002.wav|./data/mels/000002.pt|./data/berts/000002.npy|sil j ia2 ^ v3 c uen1 ^ ian2 b ie2 z ai4 ^ iong1 b ao4 ^ uo3 sp sil

この文は間違っています

 002365	这图#2难不成#2是#1Ｐ过的#4？
	zhe4 tu2 nan2 bu4 cheng2 shi4 P IY1 guo4 de5

電車

デバッグデータセット
Python Tools/Preprocess_d.py
トレーニングを開始します
Python Train.py
回復トレーニング
python train.py -p logs/new_exp/grad_tts _ ***。pt

推論

python inconference.py - file test.txt -checkpoint ./logs/new_exp/grad_tts_***.pt - Timesteps 20 - temperature 1.15

損失

GRAD_TTS_LOSS

このプロジェクトは、次のプロジェクトに基づいています

https://github.com/huawei-noah/speech-backbones/blob/main/grad-tts

https://github.com/shivammehta25/matcha-tts

https://github.com/thuhcsi/lightgrad

https://github.com/executedone/chinese-fastspeech2

https://github.com/playvoice/vits_chinese

https://github.com/nvidia/bigvgan

卒業生の公式情報

拡散確率モデリングに基づくGradTTSモデルの公式実装。すべての詳細については、このリンクを介してICML 2021に受け入れられた論文をご覧ください。

著者：Vadim Popov*、Ivan Vovk*、Vladimir Gogoryan、Tasnima Sadekova、Mikhail Kudinov。

^{*平等な貢献。}

抽象的な

Abited Abstract：リンク付きデモページ。

最近、拡散確率モデルと一般化されたスコアマッチングの形成は、複雑なデータ分布のモデリングで高い可能性を示していますが、確率計算により、これらの手法に関する統一された視点が提供され、柔軟な推論スキームが可能になりました。このペーパーでは、エンコーダーによって予測され、単調なアライメント検索によってテキスト入力と整列するノイズを徐々に変換することにより、スコアベースのデコーダーを生成する新しいテキストからスピーチモデルを備えた新しいテキストからスピーチモデルであるGrad-TTSを紹介します。確率的微分方程式のフレームワークは、異なるパラメーターでノイズからデータを再構築する場合に従来の差確率モデルを一般化するのに役立ち、音質と推論速度の間のトレードオフを明示的に制御することにより、この再構成を柔軟にすることができます。主観的な人間の評価は、GradTTSが平均意見スコアの観点から最先端のテキストからスピーチへのアプローチと競争力があることを示しています。

参照

HIFI-GANモデルは、ボコーダー、公式GitHubリポジトリ：リンクとして使用されます。
単調アライメント検索アルゴリズムは、監視なしの持続時間モデリング、公式GitHubリポジトリ：リンクに使用されます。
Phonemizationは、cmudict、公式Githubリポジトリ：リンクを利用しています。

Bigvganの公式情報

Bigvgan：大規模なトレーニングを備えたユニバーサルニューラルボコーダー

Sang-Gil Lee、Wei Ping、Boris Ginsburg、Bryan Catanzaro、Sungroh Yoon

プロジェクトリンク：https：//github.com/nvidia/bigvgan

テストを推測します

プレトレインモデルbigvgan_base_24khz_100bandをダウンロードします

python bigvgan/inference.py 
--input_wavs_dir bigvgan_debug 
--output_dir bigvgan_out

ベイカーと一緒に訓練します

python bigvgan/train.py -config bigvgan_pretrain/config.json

参照

Hifi-gan（ジェネレーターと多周期識別器用）
ヘビ（定期的な活性化用）
エイリアスフリートーチ（アンチアリアシング用）
ジュリアス（ローパスフィルター用）
univnet（多解像度の識別器用）

拡大する

追加情報

バージョン release grad-tts-cfm
タイプ AI ソースコード
更新時間 2025-08-22
サイズ 639.22KB
から Github

Grad TTS Chinese

中国語のHuawei Grad-TTS、統合されたBertおよびBigvgan

訓練されたモデルでテストされました

標準データ

電車

推論

損失

このプロジェクトは、次のプロジェクトに基づいています

卒業生の公式情報

抽象的な

参照

Bigvganの公式情報

Bigvgan：大規模なトレーニングを備えたユニバーサルニューラルボコーダー

Sang-Gil Lee、Wei Ping、Boris Ginsburg、Bryan Catanzaro、Sungroh Yoon

テストを推測します

ベイカーと一緒に訓練します

参照

GitHub sgrebnov/cordova plugin background download

F5 TTS ComfyUI

Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

中国 DOS ゲーム (ブラウザー内の中国 DOS ゲーム) プロジェクトのソースコード正式版

音声開発に関する英語情報 (TTS ユーザーガイド Delphi 版)

chat.petals.dev

GPT Prompt Templates

GPTyped

ML stack

awesome free chatgpt

pywin_contextmenu

Google Dorks

shepherd

mongo express