Offizielle Umsetzung von Learn2Sing 2.0. Für alle Details finden Sie unser Papier, das von Interspeech 2022 über diesen Link akzeptiert wird.
Autoren : Heyang Xue, Xinsheng Wang, Yongmao Zhang, Lei Xie, Pengcheng Zhu, Mengxiao Bi.
Demo -Seite : Link.
Der Aufbau eines hochwertigen Gesangskorpus für eine Person, die nicht gut singen kann, ist nicht trivial und macht es schwierig, für diese Person einen Gesangssynthesizer zu schaffen. Learn2Sing widmet sich der Synthese der Gesangsstimme eines Sprechers ohne seine Gesangsdaten, indem sie aus Daten lernen, die von anderen, dh der Gesangslehrerin, aufgezeichnet wurden. Inspiriert von der Tatsache, dass Tonhöhe der Schlüsselfaktor für den Schlüssel ist, um das Singen von Sprechstimmen zu unterscheiden, erzeugt der vorgeschlagene Learn2sing 2.0 zunächst die vorläufige akustische Funktion mit gemitteltem Pitch -Wert in der Telefonebene, die die Ausbildung dieses Prozesses für verschiedene Stile ermöglicht, dh Sprechen oder Gesang, mit Ausnahme der Sprecherinformationen. Anschließend wird ein Diffusionsdecoder, der durch einen schnellen Stichprobenalgorithmus während der Inferenzstufe beschleunigt wird, um das endgültige akustische Merkmal schrittweise wiederherzustellen. Während des Trainings werden die Informationsverwirrung des Einbettungslautsprechers und der Stileinbettung eingesetzt, um das Lernen von Lautsprechern einzudämmen und ein Einbettung des Lautsprechers einzudämmen. Experimente zeigen, dass der vorgeschlagene Ansatz in der Lage ist, eine qualitativ hochwertige Gesangsstimme für den Ziellautsprecher zu synthetisieren, ohne Daten mit 10 Dekodierungsschritten zu singen.
Ersetzen Sie das Telefone und das Pitchset in Text/Symbols.Py durch Ihren eigenen Satz
Geben Sie den Pfad zu den Daten in config.json an. Der TestData -Ordner enthält Beispieldateien, um das Format zu demonstrieren
Ausbildung
bash run.sh
Schlussfolgerung
bash syn.sh outputs target_speaker_id 0 decoding_steps cuda True