Status : Arquivo (o código é fornecido como está, sem atualizações esperadas)
Estamos tentando clonar vozes para alto -falantes, o que é independente de conteúdo. Isso significa que temos que cena a identidade do falante, e não o conteúdo que eles falam. Tentamos fazer isso criando um espaço de incorporação de alto -falante para diferentes falantes.
As incorporações do alto -falante tentam representar a identidade do alto -falante (vários aspectos da voz, como pitch, sotaque, etc. do alto -falante), você pode considerar isso como a impressão digital de voz do alto -falante.
Agora estamos nos referindo ao seguinte artigo para nossa implementação:-
A arquitetura para o modelo generativo e codificador de alto-falantes foi construído.
O modelo generativo de vários falantes foi treinado para adaptação de alto-falantes para 84 alto-falantes usando o DataSet VCTK foi concluído no NVIDIA-V100 GPU para épocas de 190000.
O conjunto de dados VCTK foi dividido para treinamento e teste: 84 alto-falantes são usados para treinar o modelo de vários falantes, 8 alto-falantes para validação e 16 alto-falantes para clonagem.
A seguir, treinará o modelo nos primeiros 84 alto -falantes do conjunto de dados.
python speaker_adaptation.py --data-root=<path_of_vctk_dataset> --checkpoint-dir=<path> --checkpoint-interval=<int>
Isso pode levar até 20 horas usando uma GPU.
Para adaptar o modelo a um falante específico após o treinamento inicial
python speaker_adaptation.py --data-root=<path_of_vctk_dataset> --restore-parts=<path_of_checkpoint> --checkpoint-dir=<path> --checkpoint-interval=<int>
Isso levará em média 10 a 20 minutos.
Até agora, algumas das vozes do cone que temos usando o link de adaptação do alto -falante
A implementação do modelo generativo de vários alto-falantes foi inspirado em https://github.com/r9y9/deepvoice3_pytorch
Clonagem de voz neural com poucas amostras
Se você achar útil o código no repositório, cite -o usando:
@misc{chitlangia2021voicecloning,
author = {Chitlangia, Sharad and Rastogi, Mehul and Ganguly, Rijul},
title = {An Open Source Implementation of Neural Voice Cloning With Few Samples},
year = {2021},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {Available at url{https://github.com/SforAiDl/Neural-Voice-Cloning-With-Few-Samples/} or url{https://github.com/Sharad24/Neural-Voice-Cloning-With-Few-Samples/}},
}