Status : Archiv (Code wird als IS bereitgestellt, keine Aktualisierungen erwartet)
Wir versuchen, Stimmen für Sprecher zu klonen, was zufrieden ist, unabhängig. Dies bedeutet, dass wir die Identität des Sprechers und nicht den Inhalt, den sie sprechen, verschlingen müssen. Wir versuchen, dies zu tun, indem wir einen Sprecher für verschiedene Lautsprecher Platz einbetten.
Der Sprecher -Einbettungen versuchen, die Identität des Sprechers (verschiedene Aspekte der Stimme wie Tonhöhe, Akzent usw. des Sprechers) darzustellen. Sie können dies als den Sprachfingerabdruck des Sprechers betrachten.
Wir beziehen uns derzeit auf das folgende Papier für unsere Implementierung:-
Die Architektur für das Multi-Sprecher-Generative- und Lautsprecher-Encoder-Modell wurde erstellt.
Multi-Sprecher-Generativmodell wurde für die Anpassung der Lautsprecher für 84 Lautsprecher unter Verwendung von VCTK-Datenet für 190000 Epochen abgeschlossen.
Der VCTK-Datensatz wurde für das Training und Test aufgeteilt: 84 Lautsprecher werden zum Training des Multi-Sprecher-Modells, 8 Lautsprecher zur Validierung und 16 Lautsprechern zum Klonen verwendet.
Im Folgenden trainiert das Modell für die ersten 84 Sprecher im Datensatz.
python speaker_adaptation.py --data-root=<path_of_vctk_dataset> --checkpoint-dir=<path> --checkpoint-interval=<int>
Dies kann mit einer GPU bis zu 20 Stunden dauern.
Das Modell nach dem ersten Training an einen bestimmten Sprecher anzupassen
python speaker_adaptation.py --data-root=<path_of_vctk_dataset> --restore-parts=<path_of_checkpoint> --checkpoint-dir=<path> --checkpoint-interval=<int>
Dies wird durchschnittlich 10 bis 20 Minuten annehmen.
Bisher haben einige der Coned -Stimmen, die wir mit Lautsprecheranpassungslink erhalten haben
Die Implementierung des Generativmodells mit mehreren Spitzen wurde von https://github.com/r9y9/deepvoice3_pytorch inspiriert
Neurales Sprachklonen mit wenigen Proben
Wenn Sie den Code im Repository nützlich finden, zitieren Sie ihn bitte mit:
@misc{chitlangia2021voicecloning,
author = {Chitlangia, Sharad and Rastogi, Mehul and Ganguly, Rijul},
title = {An Open Source Implementation of Neural Voice Cloning With Few Samples},
year = {2021},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {Available at url{https://github.com/SforAiDl/Neural-Voice-Cloning-With-Few-Samples/} or url{https://github.com/Sharad24/Neural-Voice-Cloning-With-Few-Samples/}},
}