Neural Voice Cloning With Few Samples
1.0.0
状态:存档(提供代码为IS,没有预期的更新)
我们正在尝试为扬声器克隆声音,这是独立的。这意味着我们必须对说话者的身份进行加密,而不是他们所说的内容。我们尝试通过为不同扬声器嵌入空间来做到这一点。
说话者的嵌入者试图代表说话者的身份(声音的各个方面,例如音调,口音等说话者),您可以将其视为说话者的语音指纹。
我们现在正在参考以下论文以进行我们的实施: -
已经构建了多演讲者生成和扬声器编码器模型的体系结构。
使用VCTK-DATASET的扬声器适应器已在NVIDIA-V100 GPU上完成,用于190000年时代的NVIDIA-V100 GPU,已完成了84位扬声器的扬声器改编培训。
VCTK数据集被拆分进行培训和测试:84位扬声器用于培训多演讲型型号,8个扬声器进行验证和16位用于克隆的扬声器。
以下将在数据集中的前84位扬声器上训练模型。
python speaker_adaptation.py --data-root=<path_of_vctk_dataset> --checkpoint-dir=<path> --checkpoint-interval=<int>
使用GPU可能需要20个小时。
初步培训后,将模型调整到特定的扬声器
python speaker_adaptation.py --data-root=<path_of_vctk_dataset> --restore-parts=<path_of_checkpoint> --checkpoint-dir=<path> --checkpoint-interval=<int>
这平均要花10到20分钟。
到目前为止,我们已经使用扬声器改编链接的一些圆锥形声音
https://github.com/r9y9/deepvoice3_pytorch启发了多声音生成模型的实现。
神经语音克隆与几个样本
如果您在存储库中找到代码有用,请使用以下方式引用它:
@misc{chitlangia2021voicecloning,
author = {Chitlangia, Sharad and Rastogi, Mehul and Ganguly, Rijul},
title = {An Open Source Implementation of Neural Voice Cloning With Few Samples},
year = {2021},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {Available at url{https://github.com/SforAiDl/Neural-Voice-Cloning-With-Few-Samples/} or url{https://github.com/Sharad24/Neural-Voice-Cloning-With-Few-Samples/}},
}