Offizielle Implementierung von EDitts: Score-basierte Bearbeitung für kontrollierbare Text-zu-Sprache. Audio -Samples sind auf unserer Demo -Seite verfügbar.
Wir präsentieren Editts, eine off-the-Shelf-Sprachbearbeitungsmethode, die auf einer Score-basierten generativen Modellierung für die Text-zu-Sprach-Synthese basiert. Editts ermöglicht eine zielgerichtete, detaillierte Bearbeitung von Audio, sowohl in Bezug auf Inhalte als auch in Bezug auf die Tonhöhe, ohne dass zusätzliche Schulungen, aufgabenspezifische Optimierung oder architektonische Änderungen an dem Score-basierten Modell-Rückgrat erforderlich sind. Insbesondere wenden wir grobe und dennoch bewusste Störungen im früheren Raum von Gauß an, um das gewünschte Verhalten aus dem Diffusionsmodell zu induzieren, während Masken angewendet und Kernel weicher werden, um sicherzustellen, dass iterative Änderungen nur auf den Zielbereich angewendet werden. Hörtests zeigen, dass EDITTS in der Lage ist, natürliche Audioen zuverlässig zu generieren, die den benutzergerechneten Anforderungen erfüllen.
Bitte zitieren Sie diese Arbeit wie folgt.
@inproceedings { tae22_interspeech ,
author = { Jaesung Tae and Hyeongju Kim and Taesu Kim } ,
title = { {EdiTTS: Score-based Editing for Controllable Text-to-Speech} } ,
year = 2022 ,
booktitle = { Proc. Interspeech 2022 } ,
pages = { 421--425 } ,
doi = { 10.21437/Interspeech.2022-6 }
} Erstellen Sie eine virtuelle Python -Umgebung ( venv oder conda ) und installieren Sie Paketanforderungen gemäß requirements.txt .
python -m venv venv
source venv/bin/activate
pip install -U pip
pip install -r requirements.txtBauen Sie das monotonische Ausrichtungsmodul auf.
cd model/monotonic_align
python setup.py build_ext --inplaceWeitere Informationen finden Sie im offiziellen Repository von Grad-TTs.
Die folgenden Kontrollpunkte sind bereits als Teil dieses Repositorys unter checkpts enthalten.
Bereiten Sie eine Eingabedatei vor, die Muster für die Sprachgenerierung enthält. Markieren Sie das Segment, das über einen vertikalen Stangenabscheider bearbeitet werden soll, | . Zum Beispiel könnte eine einzelne Probe so aussehen
In | Das Gesicht der Hindernisse entmutigend |
Wir geben eine Beispieleingabedatei in resources/filelists/edit_pitch_example.txt .
Zum Ausführen von Schluss
CUDA_VISIBLE_DEVICES=0 python edit_pitch.py
-f resources/filelists/edit_pitch_example.txt
-c checkpts/grad-tts-old.pt -t 1000
-s out/pitch/wavs Passen Sie gegebenenfalls CUDA_VISIBLE_DEVICES an.
Bereiten Sie eine Eingabedatei mit Sätzenpaaren vor. Verkettieren Sie jedes Paar mit # und markieren Sie die Teile, die durch einen vertikalen Stangenabscheider ersetzt werden sollen. Zum Beispiel könnte ein einzelnes Paar so aussehen
Drei andere anschließend | identifiziert | Oswald von einem Foto. #Drei andere anschließend | anerkannt | Oswald von einem Foto.
Wir geben eine Beispieleingabedatei in resources/filelists/edit_content_example.txt .
Zum Ausführen von Schluss
CUDA_VISIBLE_DEVICES=0 python edit_content.py
-f resources/filelists/edit_content_example.txt
-c checkpts/grad-tts-old.pt -t 1000
-s out/content/wavsVeröffentlicht unter der modifizierten GNU General Public Lizenz.