Comprehensive E2E TTS下載 - Comprehensive E2E TTS源代碼下載

Comprehensive E2E TTS

Ai源碼

1.0.0

下載

綜合-E2E-TTS- PYTORCH實施

非自動入學的端到端文本到語音（生成波形給定文本），支持SOTA家族無監督的持續時間模型。該項目隨著研究界的發展而發展，旨在實現最終的E2E-TT 。歡迎對最佳端到端TT的任何建議:)

建築設計

WavThruvec：潛在語音表示為神經語音綜合的中間特徵（Siuzdak等，2022）
噴氣機：共同訓練fastspeech2和hifi-gan，以端到頭文本到語音（Lim等，2022）

語言編碼器

FastSpeech 2：快速和高質量的端到端文本到語音（Ren等，2020）

音頻UPSAMPLER

HIFI ++：神經聲音，帶寬擴展和語音增強的統一框架（Andreev等，2022）
HIFI-GAN：生成的對抗網絡，以進行高效和高保真語音綜合（Kong等，2020）

持續時間建模

端到端文本到語音的可區分持續時間建模（Nguyen等，2022）
一個tts對齊都可以統治所有人（Badlani等，2021）

Quickstart

數據集在以下文檔中指的是數據集的名稱，例如LJSpeech和VCTK 。

依賴性

您可以使用

 pip3 install -r requirements.txt

此外，還為Docker用戶提供Dockerfile 。

推理

您必須下載驗證的型號（將很快共享），並將其放入output/ckpt/DATASET/ 。

對於單揚聲器TTS ，運行

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --restore_step RESTORE_STEP --mode single --dataset DATASET

對於多演講者TTS ，運行

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --speaker_id SPEAKER_ID --restore_step RESTORE_STEP --mode single --dataset DATASET

可以在preprocessed_data/DATASET/speakers.json上找到學習的揚聲器的字典，並且生成的話語將放在output/result/ 。

批次推理

也支持批次推理，嘗試

 python3 synthesize.py --source preprocessed_data/DATASET/val.txt --restore_step RESTORE_STEP --mode batch --dataset DATASET

綜合preprocessed_data/DATASET/val.txt中的所有話語。

可控性

可以通過指定所需的音高/能量/持續時間比來控制合成話語的音高/音量/口語速率。例如，一個人可以將語言率提高20％，並將數量減少20％

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --restore_step RESTORE_STEP --mode single --dataset DATASET --duration_control 0.8 --energy_control 0.8

添加-speaker_id speaker_id用於多演講者tts。

訓練

數據集

支持的數據集是

LJSpeech：單揚聲器英語數據集由13100個女演講者的簡短音頻剪輯組成，其中7本非小說類書籍的閱讀段落總共約24小時。
VCTK：CSTR VCTK語料庫包括由110位英語說話者（多揚聲器TTS ）發表的語音數據，並帶有各種口音。每個發言人都會讀出大約400個句子，這些句子是從報紙，彩虹通道和語音口音檔案中使用的啟發段落中選出的。

在LJSpeech和VCTK之後，分別添加了單個揚聲器TTS數據集（例如，2013年暴雪挑戰）和多揚聲器TTS數據集（例如，庫）。此外，可以在此處調整您自己的語言和數據集。

預處理

對於帶有外部揚聲器嵌入式的多揚聲器TT ，下載cacknn softmax+三胞胎預算的Philipperemy DeepSpeaker的揚聲器嵌入模型，並將其定位在./deepspeaker/pretrained_models/中。

通過

 python3 preprocess.py --dataset DATASET

訓練

培訓您的模型

 python3 train.py --dataset DATASET

有用的選項：

培訓師假定單節點多GPU培訓。要使用特定的GPU，請在上述命令的開頭指定CUDA_VISIBLE_DEVICES=<GPU_IDs> 。

張板

使用

 tensorboard --logdir output/log

在您的本地主機上提供張板。

筆記

嵌入多演講者TTS設置的兩個選項：從頭開始培訓揚聲器嵌入器或使用預先訓練的Philipperemy的DeepSpeaker模型（如Styler所做的那樣）。您可以通過設置配置（在'none'和'DeepSpeaker'之間）進行切換。
VCTK數據集上的DeepSpeaker在說話者之間顯示出明確的身份。下圖顯示了提取的揚聲器嵌入的T-SNE圖。