Neural Voice Cloning With Few Samples
1.0.0
狀態:存檔(提供代碼為IS,沒有預期的更新)
我們正在嘗試為揚聲器克隆聲音,這是獨立的。這意味著我們必須對說話者的身份進行加密,而不是他們所說的內容。我們嘗試通過為不同揚聲器嵌入空間來做到這一點。
說話者的嵌入者試圖代表說話者的身份(聲音的各個方面,例如音調,口音等說話者),您可以將其視為說話者的語音指紋。
我們現在正在參考以下論文以進行我們的實施: -
已經構建了多演講者生成和揚聲器編碼器模型的體系結構。
使用VCTK-DATASET的揚聲器適應器已在NVIDIA-V100 GPU上完成,用於190000年時代的NVIDIA-V100 GPU,已完成了84位揚聲器的揚聲器改編培訓。
VCTK數據集被拆分進行培訓和測試:84位揚聲器用於培訓多演講型型號,8個揚聲器進行驗證和16位用於克隆的揚聲器。
以下將在數據集中的前84位揚聲器上訓練模型。
python speaker_adaptation.py --data-root=<path_of_vctk_dataset> --checkpoint-dir=<path> --checkpoint-interval=<int>
使用GPU可能需要20個小時。
初步培訓後,將模型調整到特定的揚聲器
python speaker_adaptation.py --data-root=<path_of_vctk_dataset> --restore-parts=<path_of_checkpoint> --checkpoint-dir=<path> --checkpoint-interval=<int>
這平均要花10到20分鐘。
到目前為止,我們已經使用揚聲器改編鏈接的一些圓錐形聲音
https://github.com/r9y9/deepvoice3_pytorch啟發了多聲音生成模型的實現。
神經語音克隆與幾個樣本
如果您在存儲庫中找到代碼有用,請使用以下方式引用它:
@misc{chitlangia2021voicecloning,
author = {Chitlangia, Sharad and Rastogi, Mehul and Ganguly, Rijul},
title = {An Open Source Implementation of Neural Voice Cloning With Few Samples},
year = {2021},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {Available at url{https://github.com/SforAiDl/Neural-Voice-Cloning-With-Few-Samples/} or url{https://github.com/Sharad24/Neural-Voice-Cloning-With-Few-Samples/}},
}