該項目是通過將Hifi-Gan Vocoder與FastSpeech2相結合的韓國多演講者TTS實現的。
該項目旨在開發“可見的個性化AI揚聲器”項目的TT 。它被您想要的周圍人的聲音所取代,而不是“ Siri”,“ Bixby”和“ Ari”的聲音。 (例如配偶,兒子,女兒,父母等)
為了應付立即生產AI揚聲器,而不是Tacotron2和WaveGlow的出色性能,而是非自動效率的Mostspeech2和基於GAN的Vocoder模型Hifi-GAN採用了質量和生產速度。
基於與DLLAB中實現的韓國數據集KSS相對應的FastSpeech2源代碼。
所使用的代碼中的添加內容如下。
揚聲器嵌入實施(韓國多演講者FastSpeech2)
data_preprocessing.py-end-end-to-end數據預處理實現,包含以下所有項目

對長句子不穩定綜合的反應

導入G2PK源代碼,僅應用數字和英語
如圖所示,將WAV目錄和JSON或成績單文件保存在數據集/數據名稱中。
學習Kaldi的蒙特拉爾強迫艾林格通過學習音頻數據來學習Textgrid 。
# lab 생성, mfa 학습, lab 분리
python data_preprocessing.py
保存HIFI-GAN學到的發電機在Vocoder/Prepained_models目錄中學習期間進行評估。
設置Hparam.py的批處理大小,HIFI-GAN生成器並開始學習的路徑。
python train.py
如果您正在學習,則可以通過添加Restore_Step來學習。
python train.py --restore_step [step]
如果您對多演講者進行預訓練,則存儲揚聲器_INFO.JSON自動在預訓練期間生成
將speeder_info.json放在目錄的頂部
與在火車上進行研究一樣,運行Python
python train.py --restore_step [pre-train의 step]
python synthesize.py --step [step수]
該管道是與服務相對應的TTS學習和創建的流動管道。

容器在很大程度上被歸類為四個。
在實際的服務情況下,只有三個容器可以工作。