Descarga Cross Speaker Emotion Transfer - Descargar el código fuente Cross Speaker Emotion Transfer

Cross Speaker Emotion Transfer

Código Fuente de IA

v0.2.0

Descargar

Transferencia de emoción transversal-Implementación de Pytorch

Implementación de Pytorch de la transferencia de emoción de bytedance a través de la transferencia de emociones basada en la normalización de la capa de condición del altavoz y el entrenamiento semi-supervisado en texto a voz.

Muestras de audio

Las muestras de audio están disponibles en /demostración.

Inicio rápido

El conjunto de datos se refiere a los nombres de conjuntos de datos como RAVDESS en los siguientes documentos.

Dependencias

Puede instalar las dependencias de Python con

 pip3 install -r requirements.txt

Además, instale FairSeq (documento oficial, GitHub) para utilizar LConvBlock . Consulte aquí para resolver cualquier problema al instalarlo. Tenga en cuenta que Dockerfile se proporciona para los usuarios Docker , pero debe instalar FairSeq manualmente.

Inferencia

Debe descargar los modelos previos a la aparición y ponerlos en output/ckpt/DATASET/ .

Para extraer tokens de emoción suave de un audio de referencia, ejecute

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --speaker_id SPEAKER_ID --ref_audio REF_AUDIO_PATH --restore_step RESTORE_STEP --mode single --dataset DATASET

O, para usar tokens de emoción dura de una identificación de emoción, correr

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --speaker_id SPEAKER_ID --emotion_id EMOTION_ID --restore_step RESTORE_STEP --mode single --dataset DATASET

El diccionario de los altavoces aprendidos se puede encontrar en preprocessed_data/DATASET/speakers.json , y las expresiones generadas se colocarán en output/result/ .

Inferencia por lotes

También es compatible con la inferencia por lotes, intente

 python3 synthesize.py --source preprocessed_data/DATASET/val.txt --restore_step RESTORE_STEP --mode batch --dataset DATASET

Para sintetizar todas las expresiones en preprocessed_data/DATASET/val.txt . Tenga en cuenta que solo los tokens de emoción dura de una identificación de emoción dada se apoyan en este modo.

Capacitación

Conjuntos de datos

Los conjuntos de datos compatibles son

Ravdess: Esta parte del Ravdess contiene 1440 archivos: 60 ensayos por actor X 24 actores = 1440. El Ravdess contiene 24 actores profesionales (12 mujeres, 12 hombres), vocalizando dos declaraciones de emparejado léxicamente en un acento neutral de América del Norte. Las emociones del habla incluyen expresiones calmes, felices, tristes, enojadas, temerosas, sorpresa y de asco. Cada expresión se produce en dos niveles de intensidad emocional (normal, fuerte), con una expresión neutra adicional.

Su propio idioma y conjunto de datos se pueden adaptar siguiendo aquí.

Preprocesamiento

Para un TTS de múltiples altavoces con un incrustador de altavoces externo, descargue el modelo de retraso previo al petróleo rescnn Softmax+de Filipperemy's DeepSpeaker para la incrustación del altavoz y lo ubique ./deepspeaker/pretrained_models/
Correr
```
 python3 prepare_align.py --dataset DATASET
```
para algunos preparativos.
Para la alineación forzada, el alineador forzado de Montreal (MFA) se usa para obtener las alineaciones entre las expresiones y las secuencias de fonema. Aquí se proporcionan alineaciones preextracidas para los conjuntos de datos. Debe descomprimir los archivos en preprocessed_data/DATASET/TextGrid/ . Alternativamente, puede ejecutar el alineador usted mismo.
Después de eso, ejecute el script de preprocesamiento por
```
 python3 preprocess.py --dataset DATASET
```

Capacitación

Entrena tu modelo con

 python3 train.py --dataset DATASET

Opciones útiles:

Para usar el argumento automático de precisión mixta, append --use_amp al comando anterior.
El entrenador asume el entrenamiento de múltiples GPU de un solo nodo. Para usar GPU específicas, especifique CUDA_VISIBLE_DEVICES=<GPU_IDs> al comienzo del comando anterior.

Tabla tensor

Usar

 tensorboard --logdir output/log

para servir tensorboard en su localhost. Se muestran las curvas de pérdida, los espectrogramas MEL sintetizados y los audios.

Notas

La implementación actual no está capacitada de manera semi-supervisada debido al pequeño tamaño del conjunto de datos. Pero se puede activar fácilmente especificando altavoces objetivo y sin pasar una identificación de emoción sin pérdida del clasificador de emoción.
En el decodificador , se usa un bloque de 15 x 1 LCONV en lugar de 17 x 1 debido a problemas de memoria.
Dos opciones para integrar para la configuración de TTS de múltiples altavoces : entrenamiento de altavoces de altavoz desde cero o usando un modelo de brevepeaker de Philipperemy previamente capacitado (como lo hizo Styler). Puede alternar estableciendo la configuración (entre 'none' y 'DeepSpeaker' ).
Deepspeaker en el conjunto de datos Ravdess muestra una identificación clara entre los oradores. La siguiente figura muestra la gráfica T-SNE de la incrustación de altavoces extraídos.