Neural Voice Cloning With Few Samples Download - Neural Voice Cloning With Few Samples Musterquellencode Download

Neural Voice Cloning With Few Samples

AI-Quellcode

1.0.0

Herunterladen

Status : Archiv (Code wird als IS bereitgestellt, keine Aktualisierungen erwartet)

Neural-Voice-Kloning-mit den schwachen Samples

Wir versuchen, Stimmen für Sprecher zu klonen, was zufrieden ist, unabhängig. Dies bedeutet, dass wir die Identität des Sprechers und nicht den Inhalt, den sie sprechen, verschlingen müssen. Wir versuchen, dies zu tun, indem wir einen Sprecher für verschiedene Lautsprecher Platz einbetten.

Der Sprecher -Einbettungen versuchen, die Identität des Sprechers (verschiedene Aspekte der Stimme wie Tonhöhe, Akzent usw. des Sprechers) darzustellen. Sie können dies als den Sprachfingerabdruck des Sprechers betrachten.

Wir beziehen uns derzeit auf das folgende Papier für unsere Implementierung:-

"Neurales Sprachklonen mit wenigen Proben" von Baidu

Status

Die Architektur für das Multi-Sprecher-Generative- und Lautsprecher-Encoder-Modell wurde erstellt.

Multi-Sprecher-Generativmodell wurde für die Anpassung der Lautsprecher für 84 Lautsprecher unter Verwendung von VCTK-Datenet für 190000 Epochen abgeschlossen.

Lautsprecheradapatation

Der VCTK-Datensatz wurde für das Training und Test aufgeteilt: 84 Lautsprecher werden zum Training des Multi-Sprecher-Modells, 8 Lautsprecher zur Validierung und 16 Lautsprechern zum Klonen verwendet.

Training für die Lautsprecheradapatation

Im Folgenden trainiert das Modell für die ersten 84 Sprecher im Datensatz.

 python speaker_adaptation.py --data-root=<path_of_vctk_dataset> --checkpoint-dir=<path> --checkpoint-interval=<int>

Dies kann mit einer GPU bis zu 20 Stunden dauern.

Das Modell nach dem ersten Training an einen bestimmten Sprecher anzupassen

 python speaker_adaptation.py --data-root=<path_of_vctk_dataset> --restore-parts=<path_of_checkpoint> --checkpoint-dir=<path> --checkpoint-interval=<int>

Dies wird durchschnittlich 10 bis 20 Minuten annehmen.

Einige klonierte Stimmen

Bisher haben einige der Coned -Stimmen, die wir mit Lautsprecheranpassungslink erhalten haben

Anerkennung

Die Implementierung des Generativmodells mit mehreren Spitzen wurde von https://github.com/r9y9/deepvoice3_pytorch inspiriert
Neurales Sprachklonen mit wenigen Proben

Zitieren

Wenn Sie den Code im Repository nützlich finden, zitieren Sie ihn bitte mit:

 @misc{chitlangia2021voicecloning,
  author = {Chitlangia, Sharad and Rastogi, Mehul and Ganguly, Rijul},
  title = {An Open Source Implementation of Neural Voice Cloning With Few Samples},
  year = {2021},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {Available at url{https://github.com/SforAiDl/Neural-Voice-Cloning-With-Few-Samples/} or url{https://github.com/Sharad24/Neural-Voice-Cloning-With-Few-Samples/}},
}

Expandieren

Zusätzliche Informationen