Neural Voice Cloning With Few Samples下载 - Neural Voice Cloning With Few Samples源代码下载

Neural Voice Cloning With Few Samples

Ai源码

1.0.0

下载

状态：存档（提供代码为IS，没有预期的更新）

神经voice-cloning-with-few-shamples

我们正在尝试为扬声器克隆声音，这是独立的。这意味着我们必须对说话者的身份进行加密，而不是他们所说的内容。我们尝试通过为不同扬声器嵌入空间来做到这一点。

说话者的嵌入者试图代表说话者的身份（声音的各个方面，例如音调，口音等说话者），您可以将其视为说话者的语音指纹。

我们现在正在参考以下论文以进行我们的实施： -

百度

地位

已经构建了多演讲者生成和扬声器编码器模型的体系结构。

使用VCTK-DATASET的扬声器适应器已在NVIDIA-V100 GPU上完成，用于190000年时代的NVIDIA-V100 GPU，已完成了84位扬声器的扬声器改编培训。

演讲者适应

VCTK数据集被拆分进行培训和测试：84位扬声器用于培训多演讲型型号，8个扬声器进行验证和16位用于克隆的扬声器。

演讲者适应的培训

以下将在数据集中的前84位扬声器上训练模型。

 python speaker_adaptation.py --data-root=<path_of_vctk_dataset> --checkpoint-dir=<path> --checkpoint-interval=<int>

使用GPU可能需要20个小时。

初步培训后，将模型调整到特定的扬声器

 python speaker_adaptation.py --data-root=<path_of_vctk_dataset> --restore-parts=<path_of_checkpoint> --checkpoint-dir=<path> --checkpoint-interval=<int>

这平均要花10到20分钟。

一些克隆的声音

到目前为止，我们已经使用扬声器改编链接的一些圆锥形声音

致谢

https://github.com/r9y9/deepvoice3_pytorch启发了多声音生成模型的实现。
神经语音克隆与几个样本

引用

如果您在存储库中找到代码有用，请使用以下方式引用它：

 @misc{chitlangia2021voicecloning,
  author = {Chitlangia, Sharad and Rastogi, Mehul and Ganguly, Rijul},
  title = {An Open Source Implementation of Neural Voice Cloning With Few Samples},
  year = {2021},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {Available at url{https://github.com/SforAiDl/Neural-Voice-Cloning-With-Few-Samples/} or url{https://github.com/Sharad24/Neural-Voice-Cloning-With-Few-Samples/}},
}

展开

附加信息