GenerSpeechのダウンロードGenerSpeechソースコードのダウンロード

GenerSpeech

AI ソースコード

1.0.0

ダウンロード

GenerSpeech：一般化可能なドメイン外のテキストからスピーチへのスタイル転送に向けて

Rongjie Huang、Yi Ren、Jinglin Liu、Chenye Cui、Zhou Zhao | Zhijiang University、Sea AI Lab

Pytorch GenerSepeechの実装（Neurips'22）：OODカスタム音声の高忠実度ゼロショットスタイル転送に向けたテキストからスピーチモデル。

このリポジトリには、実装モデルと事前処理モデルを提供します。

オーディオサンプルについては、デモページにアクセスしてください。

ニュース

2022年12月：GithubでリリースされたGenerSpeech（Neurips 2022） 。

重要な機能

表現力豊かなテキストからスピーチのためのマルチレベルスタイルの転送。
拡張されたモデルの一般化（分散除外（OOD）スタイルの参照）。

クイックスタート

GenerSepeechを使用して高忠実度サンプルを生成する方法の例を示します。

独自のデータセットを試してみるには、NVIDIA GPU + CUDA CUDNNで提供されたローカルマシンでこのリポジトリをクローンして、以下の指示に従ってください。

サポートデータセットと前処理されたモデル

ここで提供する前払いモデルを使用し、ここでデータを使用できます。各フォルダーの詳細は次のようになります。

モデル	データセット（16 kHz）	説明
GenerSpeech	Libritts、Esd	音響モデル（config）
hifi-gan	Libritts、Esd	ニューラルボコーダー
エンコーダー	/	感情エンコーダー

よりサポートされているデータセットがまもなく登場します。

依存関係

generspeechという名前の適切なコンドラ環境を作成してアクティブ化できます。

 conda env create -f environment.yaml
conda activate generspeech

マルチGPU

デフォルトでは、この実装では、 torch.cuda.device_count()によって返されるのと同じくらい多くのGPUを並列に使用します。トレーニングモジュールを実行する前に、 CUDA_DEVICES_AVAILABLE環境変数を設定することにより、使用するGPUを指定できます。

推論（ゼロショットTTS）

ここでは、GenerSepeechを使用した音声合成パイプラインを提供します。

GenerSpeechを準備する（音響モデル）： checkpoints/GenerSpeechにチェックポイントをダウンロードして配置します
HIFI-GAN （ニューラルボコーダー）の準備：チェックポイントをダウンロードしてcheckpoints/trainset_hifiganに配置します
感情エンコーダーの準備：チェックポイントをcheckpoints/Emotion_encoder.ptにダウンロードして配置します
データセットの準備：統計ファイルをdata/binary/training_setにダウンロードして配置します
Path/to/Reference_Audio（16K）の準備：デフォルトでは、GenerSpeechはASR + MFAを使用して、参照からテキストスピーチアライメントを取得します。

CUDA_VISIBLE_DEVICES= $GPU python inference/GenerSpeech.py --config modules/GenerSpeech/config/generspeech.yaml  --exp_name GenerSpeech --hparams= " text='here we go',ref_audio='assets/0011_001570.wav' "

生成されたWAVファイルは、デフォルトではinfer_outに保存されます。

独自のモデルを訓練します

データの準備と構成

raw_data_dir 、 processed_data_dir 、 binary_data_dirを構成ファイルに設定し、 raw_data_dirにデータセットをダウンロードします。
構成ファイルのpreprocess_cls確認します。データセット構造は、プロセッサpreprocess_clsに従う必要があります。または、データセットに従って書き換えることができます。 modules/GenerSpeech/config/generspeech.yamlの例としてLibrittsプロセッサを提供します
Global Emotion Encoderをemotion_encoder_pathにダウンロードします。詳細については、このブランチを参照してください。
プリプロセスデータセット

 # Preprocess step: unify the file structure.
python data_gen/tts/bin/preprocess.py --config $path /to/config
# Align step: MFA alignment.
python data_gen/tts/bin/train_mfa_align.py --config $path /to/config
# Binarization step: Binarize data for fast IO.
CUDA_VISIBLE_DEVICES= $GPU python data_gen/tts/bin/binarize.py --config $path /to/config

また、一般的なMFAデータ処理手順を共有するNatspeechを介してデータセットを構築することもできます。また、処理されたデータセット（16kHz Libritts+ESD）も提供しています。

GenerSpeechのトレーニング

CUDA_VISIBLE_DEVICES= $GPU python tasks/run.py --config modules/GenerSpeech/config/generspeech.yaml  --exp_name GenerSpeech --reset

GenerSpeechを使用した推論

CUDA_VISIBLE_DEVICES= $GPU python tasks/run.py --config modules/GenerSpeech/config/generspeech.yaml  --exp_name GenerSpeech --infer

謝辞

この実装では、次のGitHubリポジトリのコードの一部を使用します：fastdiff、natspeech、コードで説明されています。

引用

このコードがあなたの研究で役立つと思う場合は、私たちの仕事を引用してください。

 @inproceedings { huanggenerspeech ,
  title = { GenerSpeech: Towards Style Transfer for Generalizable Out-Of-Domain Text-to-Speech } ,
  author = { Huang, Rongjie and Ren, Yi and Liu, Jinglin and Cui, Chenye and Zhao, Zhou } ,
  booktitle = { Advances in Neural Information Processing Systems }
}