SyntaSpeechのダウンロードSyntaSpeechソースコードのダウンロード

SyntaSpeech

AI ソースコード

Pretrained Models for LJ, Biaobei, and LibriTTS.

ダウンロード

Syntaspeech：構文を認識し、生成的な敵対的なテキストからスピーチ

| | | 中文文档

このリポジトリは、IJCAI-2022ペーパーの公式のPytorch実装であり、Syntaxを認識していない非自動性テキストからスピーチのためにSyntaspeechを提案します。

Syntaspeechは、3つの新機能を備えたPartaspeech（Neurips 2021）に基づいて構築されています。

Syntactic Graph Builder（Sec。3.1）および構文グラフエンコーダー（Sec。3.2）を提案します。これは、TTSモデルの韻律モデリングと持続時間精度を改善するための構文機能を抽出するための効果的なユニットであることが証明されています。
マルチレングスの敵対的訓練（セクション3.3）を導入します。これは、Portaspeechのフローベースのポストネットを置き換え、推論時間を高速化し、オーディオ品質の自然性を改善することができます。
3つのデータセットをサポートします：ljspeech（単一スピーカー英語データセット）、biaobei（シングルスピーカー中国のデータセット）、およびlibritts（マルチスピーカー英語データセット）。

環境

conda create -n synta python=3.7
condac activate synta
pip install -U pip
pip install Cython numpy==1.19.1
pip install torch==1.9.0 
pip install -r requirements.txt
# install dgl for graph neural network, dgl-cu102 supports rtx2080, dgl-cu113 support rtx3090
pip install dgl-cu102 dglgo -f https://data.dgl.ai/wheels/repo.html 
sudo apt install -y sox libsox-fmt-mp3
bash mfa_usr/install_mfa.sh # install force alignment tools

SynTaspeechを実行してください！

次の手順に従って、このレポを実行してください。

1。準備

データの準備

ljspeechとbiaobeiには、2装ナ化されたデータセットを直接使用できます。それらをダウンロードして、 data/binary/フォルダーに解凍します。

Librittsについては、RAWデータセットをダウンロードして、 data_genモジュールで処理できます。詳細な指示は、dosc/prepare_dataにあります。

ボコーダーの準備

3つのデータセットのボコーダーの事前に訓練されたモデルを提供します。具体的には、LjspeechとBiaobeiのHifi-Gan、LibrittsのParallelwavegan。 checkpoints/フォルダーにダウンロードして解凍します。

2。トレーニングの例

次に、3つのデータセットでSynTaspeechをトレーニングできます。

 cd < the root_dir of your SyntaSpeech folder >
export PYTHONPATH=./
CUDA_VISIBLE_DEVICES=0 python tasks/run.py --config egs/tts/lj/synta.yaml --exp_name lj_synta --reset # training in LJSpeech
CUDA_VISIBLE_DEVICES=0 python tasks/run.py --config egs/tts/biaobei/synta.yaml --exp_name biaobei_synta --reset # training in Biaobei
CUDA_VISIBLE_DEVICES=0 python tasks/run.py --config egs/tts/libritts/synta.yaml --exp_name libritts_synta --reset # training in LibriTTS

3。テンソルボード

tensorboard --logdir=checkpoints/lj_synta
tensorboard --logdir=checkpoints/biaobei_synta
tensorboard --logdir=checkpoints/libritts_synta

4。推論の例

CUDA_VISIBLE_DEVICES=0 python tasks/run.py --config egs/tts/lj/synta.yaml --exp_name lj_synta --reset --infer # inference in LJSpeech
CUDA_VISIBLE_DEVICES=0 python tasks/run.py --config egs/tts/biaobei/synta.yaml --exp_name biaobei_synta --reset --infer # inference in Biaobei
CUDA_VISIBLE_DEVICES=0 python tasks/run.py --config egs/tts/libritts/synta.yaml --exp_name libritts_synta --reset ---infer # inference in LibriTTS

オーディオデモ

論文のオーディオサンプルは、デモページにあります。

また、ljspeech用のハギングフェイスデモページも提供しています。そこで興味深い文章を試してみてください！

引用

 @article{ye2022syntaspeech,
  title={SyntaSpeech: Syntax-Aware Generative Adversarial Text-to-Speech},
  author={Ye, Zhenhui and Zhao, Zhou and Ren, Yi and Wu, Fei},
  journal={arXiv preprint arXiv:2204.11792},
  year={2022}
}