Téléchargement de DailyTalk - Téléchargement du code source DailyTalk

DailyTalk

Code Source AI

v0.1.0

Télécharger

DailyTalk: ensemble de données de dialogue parlé pour le texte à la conversation conversationnel

Keon Lee ^* , Kyumin Park ^* , Daeyoung Kim

Dans notre article, nous introduisons DailyTalk, un ensemble de données de parole conversationnel de haute qualité conçu pour le texte vocable.

Résumé: La majorité des ensembles de données actuels de texte vocale (TTS), qui sont des collections d'énoncés individuels, contiennent peu d'aspects conversationnels. Dans cet article, nous introduisons DailyTalk, un ensemble de données de parole conversationnel de haute qualité conçu pour les TT conversationnels. Nous avons échantillonné, modifié et enregistré 2 541 dialogues de l'ensemble de données de dialogue de domaine ouvert quotidiennement héritant de ses attributs annotés. En plus de notre ensemble de données, nous étendons les travaux antérieurs comme notre base, où un TTS non autorégressif est conditionné aux informations historiques dans un dialogue. D'après l'expérience de base avec les mesures générales et nos nouvelles, nous montrons que DailyTalk peut être utilisé comme ensemble de données TTS général, et plus que cela, notre ligne de base peut représenter des informations contextuelles de DailyTalk. L'ensemble de données DailyTalk et le code de base sont disponibles gratuitement pour une utilisation académique avec la licence CC-BY-SA 4.0.

Ensemble de données

Vous pouvez télécharger notre ensemble de données. Veuillez vous référer aux détails des statistiques pour plus de détails.

Modèles pré-entraînés

Vous pouvez télécharger nos modèles pré-entraînés. Il y a deux répertoires différents: 'History_none' et 'History_Guo'. Le premier n'a pas d'encodages historiques pour qu'il ne s'agisse pas d'un modèle de contexte conversationnel. Ce dernier a des encodages historiques après des TT de bout en bout conversationnels pour l'agent vocal (Guo et al., 2020).

Basculer le type d'encodages d'histoire par

 # In the model.yaml
history_encoder :
  type : " Guo " # ["none", "Guo"]

Start

Dépendances

Vous pouvez installer les dépendances Python avec

 pip3 install -r requirements.txt

De plus, Dockerfile est fourni pour les utilisateurs Docker .

Inférence

Vous devez télécharger à la fois notre ensemble de données. Téléchargez des modèles pré-entraînés et mettez-les dans output/ckpt/DailyTalk/ . Unzip generator_LJSpeech.pth.tar ou generator_universal.pth.tar dans le dossier HIFIGAN. Les modèles sont formés avec une modélisation de durée non supervisée sous un bloc de construction du transformateur et les types d'encodage d'historique.

Seule l'inférence par lots est prise en charge car la génération d'un tour peut nécessiter une histoire contextuelle de la conversation. Essayer

 python3 synthesize.py --source preprocessed_data/DailyTalk/val_*.txt --restore_step RESTORE_STEP --mode batch --dataset DailyTalk

Pour synthétiser toutes les énoncés dans preprocessed_data/DailyTalk/val_*.txt .

Entraînement

Prétraitement

Pour un TTS multi-haut-parleurs avec un intérêt de haut-parleur externe, téléchargez Rescnn Softmax + Triplet Pretraind Model of Philippermy's DeepPeaker pour le haut-parleur incorpore et le localisez dans ./deepspeaker/pretrained_models/ . Veuillez noter que nos modèles pré-entraînés ne sont pas formés avec cela (ils sont formés avec speaker_embedder: "none" ).
Courir
```
 python3 prepare_align.py --dataset DailyTalk
```
pour certaines préparatifs.
Pour l'alignement forcé, l'aligneur forcé de Montréal (MFA) est utilisé pour obtenir les alignements entre les énoncés et les séquences de phonèmes. Les alignements pré-extractés pour les ensembles de données sont fournis ici. Vous devez décompresser les fichiers dans preprocessed_data/DailyTalk/TextGrid/ . Alternativement, vous pouvez exécuter l'aligneur par vous-même. Veuillez noter que nos modèles pré-entraînés ne sont pas formés avec une modélisation de durée supervisée (ils sont formés avec learn_alignment: True ).
Après cela, exécutez le script de prétraitement par
```
 python3 preprocess.py --dataset DailyTalk
```

Entraînement

Former votre modèle avec

 python3 train.py --dataset DailyTalk

Options utiles:

Pour utiliser une précision mixte automatique, appelez l'argument --use_amp sur la commande ci-dessus.
L'entraîneur suivit une formation multi-GPU à nœuds. Pour utiliser des GPU spécifiques, spécifiez CUDA_VISIBLE_DEVICES=<GPU_IDs> au début de la commande ci-dessus.

Tensorboard

Utiliser

 tensorboard --logdir output/log

pour servir Tensorboard sur votre hôte local. Les courbes de perte, les spectrogrammes de MEL synthétisés et les audios sont affichés.

Notes

L'intégration convolutionnelle est utilisée comme stylespeech pour la variance au niveau du phonème dans la modélisation de durée non supervisée. Sinon, l'intégration basée sur le seau est utilisée comme FastSpeech2.
La modélisation de la durée non supervisée au niveau du phonème prendra du temps plus long que le niveau du cadre, car le calcul supplémentaire de la variance au niveau du phonème est activé au moment de l'exécution.
Deux options d'incorporation pour le paramètre TTS multi-haut-parleurs : Entraînement de haut-parleur à partir de zéro ou utilisant un modèle DeepPeaker de Philippermy pré-formé (comme Styler l'a fait). Vous pouvez le basculer en définissant la configuration (entre 'none' et 'DeepSpeaker' ).
Pour Vocoder, Hifi-Gan est utilisé pour toutes les expériences de notre article.

Citation

Si vous souhaitez utiliser notre ensemble de données et notre code ou vous référer à notre article, veuillez citer comme suit.

@misc{lee2022dailytalk,
    title={DailyTalk: Spoken Dialogue Dataset for Conversational Text-to-Speech},
    author={Keon Lee and Kyumin Park and Daeyoung Kim},
    year={2022},
    eprint={2207.01063},
    archivePrefix={arXiv},
    primaryClass={eess.AS}
}