editts Download - editts Source Code Download

editts

AI-Quellcode

1.0.0

Herunterladen

EDitts: Score-basierte Bearbeitung für kontrollierbare Text-zu-Sprache

Offizielle Implementierung von EDitts: Score-basierte Bearbeitung für kontrollierbare Text-zu-Sprache. Audio -Samples sind auf unserer Demo -Seite verfügbar.

Abstrakt

Wir präsentieren Editts, eine off-the-Shelf-Sprachbearbeitungsmethode, die auf einer Score-basierten generativen Modellierung für die Text-zu-Sprach-Synthese basiert. Editts ermöglicht eine zielgerichtete, detaillierte Bearbeitung von Audio, sowohl in Bezug auf Inhalte als auch in Bezug auf die Tonhöhe, ohne dass zusätzliche Schulungen, aufgabenspezifische Optimierung oder architektonische Änderungen an dem Score-basierten Modell-Rückgrat erforderlich sind. Insbesondere wenden wir grobe und dennoch bewusste Störungen im früheren Raum von Gauß an, um das gewünschte Verhalten aus dem Diffusionsmodell zu induzieren, während Masken angewendet und Kernel weicher werden, um sicherzustellen, dass iterative Änderungen nur auf den Zielbereich angewendet werden. Hörtests zeigen, dass EDITTS in der Lage ist, natürliche Audioen zuverlässig zu generieren, die den benutzergerechneten Anforderungen erfüllen.

Zitat

Bitte zitieren Sie diese Arbeit wie folgt.

 @inproceedings { tae22_interspeech ,
  author = { Jaesung Tae and Hyeongju Kim and Taesu Kim } ,
  title = { {EdiTTS: Score-based Editing for Controllable Text-to-Speech} } ,
  year = 2022 ,
  booktitle = { Proc. Interspeech 2022 } ,
  pages = { 421--425 } ,
  doi = { 10.21437/Interspeech.2022-6 }
}

Aufstellen

Erstellen Sie eine virtuelle Python -Umgebung ( venv oder conda ) und installieren Sie Paketanforderungen gemäß requirements.txt .
```
python -m venv venv
source venv/bin/activate
pip install -U pip
pip install -r requirements.txt
```

Bauen Sie das monotonische Ausrichtungsmodul auf.

 cd model/monotonic_align
python setup.py build_ext --inplace

Weitere Informationen finden Sie im offiziellen Repository von Grad-TTs.

Kontrollpunkte

Die folgenden Kontrollpunkte sind bereits als Teil dieses Repositorys unter checkpts enthalten.

Grad-TTs (alt ver.)
Hifi-gan (lj_ft_t2_v1 ver.)

Pitch -Verschiebung

Bereiten Sie eine Eingabedatei vor, die Muster für die Sprachgenerierung enthält. Markieren Sie das Segment, das über einen vertikalen Stangenabscheider bearbeitet werden soll, | . Zum Beispiel könnte eine einzelne Probe so aussehen
In | Das Gesicht der Hindernisse entmutigend |
Wir geben eine Beispieleingabedatei in resources/filelists/edit_pitch_example.txt .

Zum Ausführen von Schluss

CUDA_VISIBLE_DEVICES=0 python edit_pitch.py 
    -f resources/filelists/edit_pitch_example.txt 
    -c checkpts/grad-tts-old.pt -t 1000 
    -s out/pitch/wavs

Passen Sie gegebenenfalls CUDA_VISIBLE_DEVICES an.

Inhaltsersatz

Bereiten Sie eine Eingabedatei mit Sätzenpaaren vor. Verkettieren Sie jedes Paar mit # und markieren Sie die Teile, die durch einen vertikalen Stangenabscheider ersetzt werden sollen. Zum Beispiel könnte ein einzelnes Paar so aussehen
Drei andere anschließend | identifiziert | Oswald von einem Foto. #Drei andere anschließend | anerkannt | Oswald von einem Foto.
Wir geben eine Beispieleingabedatei in resources/filelists/edit_content_example.txt .

Zum Ausführen von Schluss

CUDA_VISIBLE_DEVICES=0 python edit_content.py 
    -f resources/filelists/edit_content_example.txt 
    -c checkpts/grad-tts-old.pt -t 1000 
    -s out/content/wavs