Cross Speaker Emotion Transfer Download - Cross Speaker Emotion Transfer Quellcode Download

Cross Speaker Emotion Transfer

AI-Quellcode

v0.2.0

Herunterladen

Cross-Speaker-Emotion-Transfer-Pytorch-Implementierung

Pytorch-Implementierung des Cross-Sprecher-Emotionentransfs von Bytedance basierend auf der Normalisierung der Lautsprecherbedingung und einer halbübergreifenden Schulung in Text-zu-Sprache.

Audio -Samples

Audio -Samples sind bei /Demo erhältlich.

QuickStart

Der Datensatz bezieht sich auf die Namen von Datensätzen wie RAVDESS in den folgenden Dokumenten.

Abhängigkeiten

Sie können die Python -Abhängigkeiten mit installieren

 pip3 install -r requirements.txt

Installieren Sie außerdem Fairseq (offizielles Dokument, Github), um LConvBlock zu verwenden. Bitte überprüfen Sie hier, um ein Problem bei der Installation zu beheben. Beachten Sie, dass Dockerfile für Docker -Benutzer bereitgestellt wird, Sie jedoch fairseq manuell installieren müssen.

Schlussfolgerung

Sie müssen die vorbereiteten Modelle herunterladen und in output/ckpt/DATASET/ einfügen.

Um weiche Emotionstoken aus einem Referenz -Audio zu extrahieren, laufen Sie

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --speaker_id SPEAKER_ID --ref_audio REF_AUDIO_PATH --restore_step RESTORE_STEP --mode single --dataset DATASET

Oder um harte Emotionstoken aus einer Emotions -ID zu verwenden

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --speaker_id SPEAKER_ID --emotion_id EMOTION_ID --restore_step RESTORE_STEP --mode single --dataset DATASET

Das Wörterbuch der gelehrten Sprecher finden Sie unter preprocessed_data/DATASET/speakers.json , und die generierten Äußerungen werden in output/result/ .

Batch -Inferenz

Batch -Inferenz wird ebenfalls unterstützt, versuchen Sie es

 python3 synthesize.py --source preprocessed_data/DATASET/val.txt --restore_step RESTORE_STEP --mode batch --dataset DATASET

So synthetisieren Sie alle Äußerungen in preprocessed_data/DATASET/val.txt . Bitte beachten Sie, dass nur die Hard -Emotion -Token einer bestimmten Emotions -ID in diesem Modus unterstützt werden.

Ausbildung

Datensätze

Die unterstützten Datensätze sind

Ravdess: Dieser Teil der Ravdess enthält 1440 Dateien: 60 Versuche pro Schauspieler x 24 Schauspieler = 1440. Die Raupdess enthält 24 professionelle Schauspieler (12 weiblich, 12 männlich) und vokalisiert zwei lexikalisch übergreifende Aussagen in einem neutralen nordamerikanischen Akzent. Sprachgefühle sind ruhige, glückliche, traurig, wütende, ängstliche, überraschende und ekelhafte Ausdrucksformen. Jede Expression wird bei zwei Ebenen der emotionalen Intensität (normal, stark) mit einer zusätzlichen neutralen Expression produziert.

Ihre eigene Sprache und Ihr eigener Datensatz können hier gefolgt werden.

Vorverarbeitung

Download für ein Multi-Sprecher-TTS mit einem externen Lautsprecher-Einbettder Rescnn Softmax+Triplet Pretrainierte Modell von Philipperemy's Deepspeaker für den Lautsprecher-Einbettung und lokalisiert es in ./deepspeaker/pretrained_models/ .
Laufen
```
 python3 prepare_align.py --dataset DATASET
```
Für einige Vorbereitungen.
Für die erzwungene Ausrichtung wird Montreal erzwungene Aligner (MFA) verwendet, um die Ausrichtungen zwischen den Äußerungen und den Phonemsequenzen zu erhalten. Vorextrahierte Ausrichtungen für die Datensätze werden hier bereitgestellt. Sie müssen die Dateien in preprocessed_data/DATASET/TextGrid/ entpacken. Alternativ können Sie den Aligner selbst ausführen.
Führen Sie danach das Vorverarbeitungskript durch
```
 python3 preprocess.py --dataset DATASET
```

Ausbildung

Trainieren Sie Ihr Modell mit

 python3 train.py --dataset DATASET

Nützliche Optionen:

Um automatische gemischte Präzision zu verwenden, append --use_amp Argument zum obigen Befehl.
Der Trainer nimmt ein einziges Knoten-Multi-GPU-Training an. Um spezifische GPUs zu verwenden, geben Sie am Anfang des obigen Befehls CUDA_VISIBLE_DEVICES=<GPU_IDs> an.

Tensorboard

Verwenden

 tensorboard --logdir output/log

Tensorboard auf Ihrem örtlichen Haus servieren. Die Verlustkurven, synthetisierte Melspektrogramme und Audios werden gezeigt.

Notizen

Die aktuelle Implementierung wird aufgrund der geringen Datensatzgröße nicht semi-vorträglich geschult. Es kann jedoch leicht aktiviert werden, indem Zielredner angegeben und keine Emotions -ID ohne Emotionsklassifikatorverlust bestanden werden.
In Decoder wird 15 x 1 LCONV -Block aufgrund von Speicherproblemen anstelle von 17 x 1 verwendet.
Zwei Optionen zum Einbetten für die Multi-Sprecher-TTS- Einstellung: Trainingslautsprecher Einbettung von Grund auf oder verwenden Sie das Deepspeaker-Modell eines vorgebliebenen Philipperemy (wie es Styler tat). Sie können es umschalten, indem Sie die Konfiguration (zwischen 'none' und 'DeepSpeaker' ) einstellen.
Deepspeaker on Ravdess Dataset zeigt eine klare Identifizierung unter den Sprechern. Die folgende Abbildung zeigt das T-SNE-Diagramm von extrahiertem Lautsprecher.