DailyTalk Download - DailyTalk Source Code Download

DailyTalk

AI-Quellcode

v0.1.0

Herunterladen

DailyTalk: Gesprochener Dialog-Datensatz für Konversationstext-zu-Sprache

Keon Lee ^* , Kyumin Park ^* , Daeyoung Kim

In unserem Artikel stellen wir DailyTalk vor, ein hochwertiges Gesprächs-Sprachdatensatz für Text-to-Speech.

Zusammenfassung: Die Mehrheit der TTS-Datensätze (TTS) der aktuellen Text-zu-Sprache, die Sammlungen einzelner Äußerungen sind, enthält nur wenige Konversationsaspekte. In diesem Artikel stellen wir DailyTalk vor, ein hochwertiges Gesprächs-Sprachdatensatz für TTs mit Gesprächen. Wir haben 2.541 Dialoge aus dem Open-Domain-Dialog-Dataset DailyDialog probiert, modifiziert und aufgezeichnet, in dem er seine kommentierten Attribute erbt. Zusätzlich zu unserem Datensatz erweitern wir frühere Arbeit als unsere Grundlinie, bei der ein nicht autoregressives TTS auf historische Informationen in einem Dialog bezieht. Aus dem Baseline -Experiment mit allgemeinen und unseren neuartigen Metriken zeigen wir, dass DailyTalk als allgemeiner TTS -Datensatz verwendet werden kann, und darüber hinaus kann unsere Grundlinie Kontextinformationen aus DailyTalk darstellen. Der DailyTalk-Datensatz und der Basiscode sind für die akademische Verwendung mit CC-by-SA 4.0-Lizenz frei verfügbar.

Datensatz

Sie können unseren Datensatz herunterladen. Weitere Informationen finden Sie in statistischen Details.

Vorbereitete Modelle

Sie können unsere vorbereiteten Modelle herunterladen. Es gibt zwei verschiedene Verzeichnisse: 'History_None' und 'History_Guo'. Ersteres hat keine historischen Kodierungen, so dass es sich nicht um ein konversatives Kontextmodell handelt. Letzteres hat historische Kodierungen nach Gesprächspartnern für die TTS für Sprachagent (Guo et al., 2020).

Schalten Sie die Art der Geschichtskodierungen durch

 # In the model.yaml
history_encoder :
  type : " Guo " # ["none", "Guo"]

QuickStart

Abhängigkeiten

Sie können die Python -Abhängigkeiten mit installieren

 pip3 install -r requirements.txt

Außerdem wird Dockerfile für Docker -Benutzer bereitgestellt.

Schlussfolgerung

Sie müssen beide unseren Datensatz herunterladen. Laden Sie vorgezogene Modelle herunter und geben Sie sie in output/ckpt/DailyTalk/ . Auch Unzip generator_LJSpeech.pth.tar oder generator_universal.pth.tar im Hifigan -Ordner. Die Modelle werden mit unbeaufsichtigter Dauermodellierung unter Transformator Building Block und den History Coding -Typen geschult.

Nur die Batch -Inferenz wird unterstützt, da die Erzeugung einer Kurve möglicherweise eine kontextbezogene Geschichte des Gesprächs erfordert. Versuchen

 python3 synthesize.py --source preprocessed_data/DailyTalk/val_*.txt --restore_step RESTORE_STEP --mode batch --dataset DailyTalk

So synthetisieren Sie alle Äußerungen in preprocessed_data/DailyTalk/val_*.txt

Ausbildung

Vorverarbeitung

Download für ein Multi-Sprecher-TTS mit einem externen Lautsprecher-Einbettder Rescnn Softmax+Triplet Pretrainierte Modell von Philipperemy's Deepspeaker für den Lautsprecher-Einbettung und lokalisiert es in ./deepspeaker/pretrained_models/ . Bitte beachten Sie, dass unsere vorbereiteten Modelle nicht damit trainiert sind (sie werden mit speaker_embedder: "none" ).
Laufen
```
 python3 prepare_align.py --dataset DailyTalk
```
Für einige Vorbereitungen.
Für die erzwungene Ausrichtung wird Montreal erzwungene Aligner (MFA) verwendet, um die Ausrichtungen zwischen den Äußerungen und den Phonemsequenzen zu erhalten. Vorextrahierte Ausrichtungen für die Datensätze werden hier bereitgestellt. Sie müssen die Dateien in preprocessed_data/DailyTalk/TextGrid/ entpacken. Alternativ können Sie den Aligner selbst ausführen. Bitte beachten Sie, dass unsere vorbereiteten Modelle nicht mit beaufsichtigter Dauermodellierung ausgebildet sind (sie werden mit learn_alignment: True trainiert).
Führen Sie danach das Vorverarbeitungskript durch
```
 python3 preprocess.py --dataset DailyTalk
```

Ausbildung

Trainieren Sie Ihr Modell mit

 python3 train.py --dataset DailyTalk

Nützliche Optionen:

Um eine automatische gemischte Präzision zu verwenden, append --use_amp Argument für den obigen Befehl.
Der Trainer nimmt ein einziges Knoten-Multi-GPU-Training an. Um spezifische GPUs zu verwenden, geben Sie am Anfang des obigen Befehls CUDA_VISIBLE_DEVICES=<GPU_IDs> an.

Tensorboard

Verwenden

 tensorboard --logdir output/log

Tensorboard auf Ihrem örtlichen Haus servieren. Die Verlustkurven, synthetisierte Melspektrogramme und Audios werden gezeigt.

Notizen

Faltungseinbettung wird als Stylespeech für die Varianz auf Phonemebene bei der Modellierung der unbeaufsichtigten Dauer verwendet. Andernfalls wird ein Einbettung auf Bucketbasis als Fastspeech2 verwendet.
Eine unbeaufsichtigte Modellierung der Dauer in Phonemebene dauert länger als Frame-Level, da die zusätzliche Berechnung der Varianz auf Phonemebene zur Laufzeit aktiviert wird.
Zwei Optionen zum Einbetten für die Multi-Sprecher-TTS- Einstellung: Trainingslautsprecher Einbettung von Grund auf oder verwenden Sie das Deepspeaker-Modell eines vorgebliebenen Philipperemy (wie es Styler tat). Sie können es umschalten, indem Sie die Konfiguration (zwischen 'none' und 'DeepSpeaker' ) einstellen.
Für Vocoder wird Hifi -gan für alle Experimente in unserem Papier verwendet.

Zitat

Wenn Sie unseren Datensatz und unseren Code verwenden oder auf unser Papier verweisen möchten, zitieren Sie bitte wie folgt.

@misc{lee2022dailytalk,
    title={DailyTalk: Spoken Dialogue Dataset for Conversational Text-to-Speech},
    author={Keon Lee and Kyumin Park and Daeyoung Kim},
    year={2022},
    eprint={2207.01063},
    archivePrefix={arXiv},
    primaryClass={eess.AS}
}

Lizenz

Diese Arbeit ist im Rahmen einer Creative Commons Attribution-Sharealike 4.0 International Lizenz lizenziert.

Referenzen

Keonlee9420's Styler
Keonlee9420's Expressive-Fastspeech2
Keonlee9420's umfassende Transformator-TTs

Expandieren

Zusätzliche Informationen

Version v0.1.0
Typ AI-Quellcode
Aktualisierungszeit 2025-08-20
Größe 104.71MB
Kommt von Github

Ähnliche Anwendungen

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

DailyTalk

DailyTalk: Gesprochener Dialog-Datensatz für Konversationstext-zu-Sprache

Keon Lee ^* , Kyumin Park ^* , Daeyoung Kim

Datensatz

Vorbereitete Modelle

QuickStart

Abhängigkeiten

Schlussfolgerung

Ausbildung

Vorverarbeitung

Ausbildung

Tensorboard

Notizen

Zitat

Lizenz

Referenzen

ML stack

awesome free chatgpt

pywin_contextmenu

promptl

tick.chat

FastLoRAChat

chat.petals.dev

GPT Prompt Templates

GPTyped

ML stack

awesome free chatgpt

pywin_contextmenu

Google Dorks

shepherd

mongo express

DailyTalk

DailyTalk: Gesprochener Dialog-Datensatz für Konversationstext-zu-Sprache

Keon Lee * , Kyumin Park * , Daeyoung Kim

Datensatz

Vorbereitete Modelle

QuickStart

Abhängigkeiten

Schlussfolgerung

Ausbildung

Vorverarbeitung

Ausbildung

Tensorboard

Notizen

Zitat

Lizenz

Referenzen

Keon Lee ^* , Kyumin Park ^* , Daeyoung Kim