Descargar editts - Descargar código fuente editts

editts

Código Fuente de IA

1.0.0

Descargar

Editts: edición basada en puntaje para texto a voz controlable

Implementación oficial de editts: edición basada en puntaje para texto a voz controlable. Las muestras de audio están disponibles en nuestra página de demostración.

Abstracto

Presentamos Editts, una metodología de edición del habla estándar basada en el modelado generativo basado en puntaje para la síntesis de texto a voz. Editts permite la edición granular de audio, tanto en términos de contenido como de tono, sin la necesidad de capacitación adicional, optimización específica de tareas o modificaciones arquitectónicas para la columna vertebral del modelo basado en la puntuación. Específicamente, aplicamos perturbaciones gruesas pero deliberadas en el espacio previo gaussiano para inducir el comportamiento deseado del modelo de difusión, mientras aplicamos máscaras y suavizantes de núcleos para garantizar que las ediciones iterativas se apliquen solo a la región objetivo. Las pruebas de escucha demuestran que Editts es capaz de generar un audio de sonido natural que satisfaga los requisitos impuestos al usuario.

Citación

Por favor cita este trabajo de la siguiente manera.

 @inproceedings { tae22_interspeech ,
  author = { Jaesung Tae and Hyeongju Kim and Taesu Kim } ,
  title = { {EdiTTS: Score-based Editing for Controllable Text-to-Speech} } ,
  year = 2022 ,
  booktitle = { Proc. Interspeech 2022 } ,
  pages = { 421--425 } ,
  doi = { 10.21437/Interspeech.2022-6 }
}

Configuración

Cree un entorno virtual de Python ( venv o conda ) e instale los requisitos del paquete como se especifica en requirements.txt .
```
python -m venv venv
source venv/bin/activate
pip install -U pip
pip install -r requirements.txt
```

Construya el módulo de alineación monotónica.

 cd model/monotonic_align
python setup.py build_ext --inplace

Para obtener más información, consulte el repositorio oficial de Grad-TTS.

Puntos de control

Los siguientes puntos de control ya están incluidos como parte de este repositorio, en checkpts .

Grad-TTS (Old Ver.
Hifi-Gan (LJ_FT_T2_V1 Ver.)

Lanzamiento

Prepare un archivo de entrada que contenga muestras para la generación del habla. Marque el segmento que se editará a través de un separador de barras vertical, | . Por ejemplo, una sola muestra puede parecer
En | La cara de los impedimentos confesamente desalentador |
Proporcionamos un archivo de entrada de muestra en resources/filelists/edit_pitch_example.txt .

Para ejecutar inferencia, escriba

CUDA_VISIBLE_DEVICES=0 python edit_pitch.py 
    -f resources/filelists/edit_pitch_example.txt 
    -c checkpts/grad-tts-old.pt -t 1000 
    -s out/pitch/wavs

Ajuste CUDA_VISIBLE_DEVICES según corresponda.

Reemplazo de contenido

Prepare un archivo de entrada que contenga pares de oraciones. Concatene cada par con # y marque las piezas que se reemplazarán con un separador de barras vertical. Por ejemplo, un solo par podría parecer
Otros tres posteriormente | identificado | Oswald de una fotografía. #Tres otros posteriormente | Reconocido | Oswald de una fotografía.
Proporcionamos un archivo de entrada de muestra en resources/filelists/edit_content_example.txt .

Para ejecutar inferencia, escriba

CUDA_VISIBLE_DEVICES=0 python edit_content.py 
    -f resources/filelists/edit_content_example.txt 
    -c checkpts/grad-tts-old.pt -t 1000 
    -s out/content/wavs