deepaudio tts
1.0.0
DeepAudio-TTSは、ニューラルネットワークベースのテキストからスピーチ(TTS)モデルをトレーニングするためのフレームワークです。これには、TTSおよびボコーダーモデル向けの一般的なニューラルネットワークアーキテクチャが含まれます。
混合精度、マルチノードトレーニング、TPUトレーニングなどのさまざまな機能を簡単に使用できるようにするために、このフレームワークでPytorch-LightingとHydraを導入しました。それはまだ開発中です。
$ export PYTHONPATH="${PYTHONPATH}:/dir/of/this/project/"
$ python -m deepaudio.tts.cli.train experiment=tacotron2 datamodule.train_metadata=/you/path/to/train_metadata datamodule.dev_metadata=/you/path/to/dev_metadata
それは個人的なプロジェクトです。したがって、多くの実験を行うのに十分なGPUリソースがありません。このプロジェクトはまだ開発中です。どんな種類のフィードバックや貢献に感謝しています。バグ修正、実験結果など、いくつかの小さな問題については、お気軽にrequsestを作成してください。ご質問がある場合は、問題を開いてください。
ESPNETとパドルスピーチから多くのコードを借りました