etos tts
1.0.0
ETOS TTSは、野生でサンプリングされた声でテキストをスピーチに変換できる神経テキスト(TTS)を構築することを目指しています。これは、タコトロンのPytorch実装です。完全にエンドツーエンドのテキストからスピーチ合成モデルです。
sudo apt install libsndfile1PIPを使用して他の要件をインストールできます。
pip3 install -r requirements.txt
models/may22で前提条件のモデルを使用して、TTS Webサーバーを実行できます。
python server.py -c server_conf.json
その後、 http://127.0.0.1:8000に移動してお楽しみください。
現在、TTSはデータローダーを提供しています
独自のトレーニングを実行するには、 config.jsonファイル(以下の単純なテンプレート)を定義し、コマンドで電話をかける必要があります。
train.py --config_path config.json
GPUの特定のセットを使用したい場合。
CUDA_VISIBLE_DEVICES="0,1,4" train.py --config_path config.json
各実行は、config.jsonで設定したフォルダーの下に、 config.jsonで設定されたフォルダーの下に、Corsesponfingの日付と時刻を備えた実験フォルダーを作成します。また、そのフォルダーの下にまだチェックポイントがない場合は、Ctrl+Cを押すと削除されます。
また、実験フォルダー--logdirている場合は、いくつかの優れたトレーニングログを使用してテンソルボードを楽しむことができます。
例config.json :
{
"num_mels": 80,
"num_freq": 1025,
"sample_rate": 22050,
"frame_length_ms": 50,
"frame_shift_ms": 12.5,
"preemphasis": 0.97,
"min_level_db": -100,
"ref_level_db": 20,
"embedding_size": 256,
"text_cleaner": "english_cleaners",
"epochs": 200,
"lr": 0.002,
"warmup_steps": 4000,
"batch_size": 32,
"eval_batch_size":32,
"r": 5,
"mk": 0.0, // guidede attention loss weight. if 0 no use
"priority_freq": true, // freq range emphasis
"griffin_lim_iters": 60,
"power": 1.2,
"dataset": "TWEB",
"meta_file_train": "transcript_train.txt",
"meta_file_val": "transcript_val.txt",
"data_path": "/data/shared/BibleSpeech/",
"min_seq_len": 0,
"num_loader_workers": 8,
"checkpoint": true, // if save checkpoint per save_step
"save_step": 200,
"output_path": "/path/to/my_experiment",
}