Estado : Archivo (el código se proporciona como es, no se esperan actualizaciones)
Estamos tratando de clonar las voces para oradores que es independiente. Esto significa que tenemos que encapturar la identidad del altavoz en lugar del contenido que hablan. Tratamos de hacer esto haciendo que un altavoz incruste espacio para diferentes altavoces.
Las incrustaciones del altavoz intentan representar la identidad del altavoz (varios aspectos de la voz como el tono, el acento, etc. del altavoz), puede considerar esto como la huella digital de voz del altavoz.
En este momento nos referimos al siguiente documento para nuestra implementación:-
Se ha construido la arquitectura para el modelo generativo y codificador de altavoces múltiples.
El modelo generativo de múltiples altavoces ha sido entrenado para la adaptación de los altavoces para 84 altavoces que utilizan VCTK-Dataset se ha completado en NVIDIA-V100 GPU para épocas de 190000.
El conjunto de datos VCTK se dividió para el entrenamiento y las pruebas: 84 altavoces se utilizan para capacitar al modelo de múltiples altavoces, 8 altavoces para la validación y 16 altavoces para la clonación.
Lo siguiente capacitará al modelo en los primeros 84 altavoces en el conjunto de datos.
python speaker_adaptation.py --data-root=<path_of_vctk_dataset> --checkpoint-dir=<path> --checkpoint-interval=<int>
Esto puede demorar hasta 20 horas usando una GPU.
Para adaptar el modelo a un altavoz en particular después del entrenamiento inicial
python speaker_adaptation.py --data-root=<path_of_vctk_dataset> --restore-parts=<path_of_checkpoint> --checkpoint-dir=<path> --checkpoint-interval=<int>
Esto tomará un promedio de 10 a 20 minutos.
Hasta ahora, algunas de las voces conedes que tenemos usando el enlace de adaptación de altavoces
La implementación del modelo generativo de múltiples expansiones se inspiró en https://github.com/r9y9/deepvoice3_pytorch
Clonación de voz neuronal con pocas muestras
Si encuentra útil el código en el repositorio, cíquelo usando:
@misc{chitlangia2021voicecloning,
author = {Chitlangia, Sharad and Rastogi, Mehul and Ganguly, Rijul},
title = {An Open Source Implementation of Neural Voice Cloning With Few Samples},
year = {2021},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {Available at url{https://github.com/SforAiDl/Neural-Voice-Cloning-With-Few-Samples/} or url{https://github.com/Sharad24/Neural-Voice-Cloning-With-Few-Samples/}},
}