Descargar DailyTalk - Descargar el código fuente de DailyTalk

DailyTalk

Código Fuente de IA

v0.1.0

Descargar

DailyTalk: conjunto de datos de diálogo hablado para texto de conversación a voz

Keon Lee ^* , Kyumin Park ^* , Daeyoung Kim

En nuestro artículo, presentamos a DailyTalk, un conjunto de datos de discurso conversacional de alta calidad diseñado para texto a voz.

Resumen: La mayoría de los conjuntos de datos actuales de texto a voz (TTS), que son colecciones de expresiones individuales, contienen pocos aspectos de conversación. En este artículo, presentamos a DailyTalk, un conjunto de datos de discurso conversacional de alta calidad diseñado para TTS conversacionales. Muestras, modificamos y registramos 2,541 diálogos del conjunto de datos de diálogo de dominio abierto DailyDialog heredando sus atributos anotados. Además de nuestro conjunto de datos, extendemos el trabajo previo como nuestra línea de base, donde un TTS no autorgresivo está condicionado a la información histórica en un diálogo. Desde el experimento de referencia con las métricas generales y nuevas, mostramos que DailyTalk puede usarse como un conjunto de datos TTS general, y más que eso, nuestra línea de base puede representar información contextual de DailyTalk. El conjunto de datos DailyTalk y el código de línea de base están disponibles gratuitamente para uso académico con la licencia CC-by-SA 4.0.

Conjunto de datos

Puede descargar nuestro conjunto de datos. Consulte los detalles estadísticos para obtener detalles.

Modelos previos a la aparición

Puede descargar nuestros modelos previos a la aparición. Hay dos directorios diferentes: 'History_None' y 'History_Guo'. El primero no tiene codificaciones históricas para que no sea un modelo de contexto conversacional. Este último tiene codificaciones históricas después de TTS de extremo a extremo conversacional para el agente de voz (Guo et al., 2020).

Alternar el tipo de codificaciones de historial de

 # In the model.yaml
history_encoder :
  type : " Guo " # ["none", "Guo"]

Inicio rápido

Dependencias

Puede instalar las dependencias de Python con

 pip3 install -r requirements.txt

Además, Dockerfile se proporciona para los usuarios Docker .

Inferencia

Tienes que descargar tanto nuestro conjunto de datos. Descargue los modelos previos a la aparición y póngalos en output/ckpt/DailyTalk/ . También unzip generator_LJSpeech.pth.tar o generator_universal.pth.tar en la carpeta Hifigan. Los modelos están entrenados con modelado de duración no supervisado bajo el bloque de construcción del transformador y los tipos de codificación del historial.

Solo la inferencia por lotes es compatible ya que la generación de un giro puede necesitar historia contextual de la conversación. Intentar

 python3 synthesize.py --source preprocessed_data/DailyTalk/val_*.txt --restore_step RESTORE_STEP --mode batch --dataset DailyTalk

Para sintetizar todas las expresiones en preprocessed_data/DailyTalk/val_*.txt .

Capacitación

Preprocesamiento

Para un TTS de múltiples altavoces con un incrustador de altavoces externo, descargue el modelo de retraso previo al petróleo rescnn Softmax+de Filipperemy's DeepSpeaker para la incrustación del altavoz y lo ubique ./deepspeaker/pretrained_models/ Tenga en cuenta que nuestros modelos previos al estado de trabajo no están entrenados con esto (están entrenados con speaker_embedder: "none" ).
Correr
```
 python3 prepare_align.py --dataset DailyTalk
```
para algunos preparativos.
Para la alineación forzada, el alineador forzado de Montreal (MFA) se usa para obtener las alineaciones entre las expresiones y las secuencias de fonema. Aquí se proporcionan alineaciones preextracidas para los conjuntos de datos. Debe descomprimir los archivos en preprocessed_data/DailyTalk/TextGrid/ . Alternativamente, puede ejecutar el alineador usted mismo. Tenga en cuenta que nuestros modelos previos al estado previamente están capacitados con modelado de duración supervisado (están entrenados con learn_alignment: True ).
Después de eso, ejecute el script de preprocesamiento por
```
 python3 preprocess.py --dataset DailyTalk
```

Capacitación

Entrena tu modelo con

 python3 train.py --dataset DailyTalk

Opciones útiles:

Para usar un argumento automático de precisión mixta, append --use_amp al comando anterior.
El entrenador asume el entrenamiento de múltiples GPU de un solo nodo. Para usar GPU específicas, especifique CUDA_VISIBLE_DEVICES=<GPU_IDs> al comienzo del comando anterior.

Tabla tensor

Usar

 tensorboard --logdir output/log

para servir tensorboard en su localhost. Se muestran las curvas de pérdida, los espectrogramas MEL sintetizados y los audios.

Notas

La incrustación convolucional se utiliza como clima de estilos para la varianza a nivel de fonema en el modelado de duración no supervisado. De lo contrario, la incrustación basada en cubos se usa como FastSpeech2.
El modelado de duración no supervisado en el nivel de fonema tomará más tiempo que el nivel de cuadro ya que el cálculo adicional de la varianza a nivel de fonema se activa en tiempo de ejecución.
Dos opciones para integrar para la configuración de TTS de múltiples altavoces : entrenamiento de altavoces de altavoz desde cero o usando un modelo de brevepeaker de Philipperemy previamente capacitado (como lo hizo Styler). Puede alternar estableciendo la configuración (entre 'none' y 'DeepSpeaker' ).
Para Vocoder, Hifi-Gan se usa para todos los experimentos en nuestro artículo.

Citación

Si desea utilizar nuestro conjunto de datos y código o consultar nuestro documento, cite de la siguiente manera.

@misc{lee2022dailytalk,
    title={DailyTalk: Spoken Dialogue Dataset for Conversational Text-to-Speech},
    author={Keon Lee and Kyumin Park and Daeyoung Kim},
    year={2022},
    eprint={2207.01063},
    archivePrefix={arXiv},
    primaryClass={eess.AS}
}