상태 : 아카이브 (코드는대로 제공되며 업데이트가 예상되지 않음)
우리는 콘텐츠 독립적 인 스피커를 위해 목소리를 복제하려고 노력하고 있습니다. 이것은 우리가 말하는 콘텐츠보다는 화자의 신원을 감수해야한다는 것을 의미합니다. 우리는 다른 스피커를위한 스피커를 포함시켜이를 위해 노력합니다.
스피커 임베딩은 스피커의 정체성 (스피커의 피치, 악센트 등과 같은 음성의 다양한 측면)을 나타내려고합니다.이를 스피커의 음성 지문으로 간주 할 수 있습니다.
우리는 지금 우리의 구현을 위해 다음 논문을 언급하고 있습니다.
멀티 스피커 생성 및 스피커 인코더 모델을위한 아키텍처가 구축되었습니다.
VCTK-Dataset을 사용하여 84 명의 스피커에 대한 스피커 적응에 대한 다중 스피커 생성 모델이 190000 년 에포크의 NVIDIA-V100 GPU에서 완료되었습니다.
VCTK 데이터 세트는 교육 및 테스트를 위해 분할되었습니다. 84 개의 스피커가 다중 스피커 모델, 검증을위한 8 개의 스피커 및 클로닝을 위해 16 개의 스피커를 훈련시키는 데 사용됩니다.
다음은 데이터 세트의 첫 84 개의 스피커에 대한 모델을 훈련시킵니다.
python speaker_adaptation.py --data-root=<path_of_vctk_dataset> --checkpoint-dir=<path> --checkpoint-interval=<int>
GPU를 사용하면 최대 20 시간이 걸릴 수 있습니다.
초기 훈련 후 특정 스피커에 모델을 조정하려면
python speaker_adaptation.py --data-root=<path_of_vctk_dataset> --restore-parts=<path_of_checkpoint> --checkpoint-dir=<path> --checkpoint-interval=<int>
이것은 평균 10 ~ 20 분이 걸립니다.
지금까지 우리가 스피커 적응 링크를 사용하여 우리가 얻은 일부 목소리
멀티 스피커 생성 모델의 구현은 https://github.com/r9y9/deepvoice3_pytorch에서 영감을 받았습니다.
몇 가지 샘플로 신경 음성 복제
저장소의 코드가 유용하다고 생각하면 다음을 사용하여 인용하십시오.
@misc{chitlangia2021voicecloning,
author = {Chitlangia, Sharad and Rastogi, Mehul and Ganguly, Rijul},
title = {An Open Source Implementation of Neural Voice Cloning With Few Samples},
year = {2021},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {Available at url{https://github.com/SforAiDl/Neural-Voice-Cloning-With-Few-Samples/} or url{https://github.com/Sharad24/Neural-Voice-Cloning-With-Few-Samples/}},
}