Implementación oficial de editts: edición basada en puntaje para texto a voz controlable. Las muestras de audio están disponibles en nuestra página de demostración.
Presentamos Editts, una metodología de edición del habla estándar basada en el modelado generativo basado en puntaje para la síntesis de texto a voz. Editts permite la edición granular de audio, tanto en términos de contenido como de tono, sin la necesidad de capacitación adicional, optimización específica de tareas o modificaciones arquitectónicas para la columna vertebral del modelo basado en la puntuación. Específicamente, aplicamos perturbaciones gruesas pero deliberadas en el espacio previo gaussiano para inducir el comportamiento deseado del modelo de difusión, mientras aplicamos máscaras y suavizantes de núcleos para garantizar que las ediciones iterativas se apliquen solo a la región objetivo. Las pruebas de escucha demuestran que Editts es capaz de generar un audio de sonido natural que satisfaga los requisitos impuestos al usuario.
Por favor cita este trabajo de la siguiente manera.
@inproceedings { tae22_interspeech ,
author = { Jaesung Tae and Hyeongju Kim and Taesu Kim } ,
title = { {EdiTTS: Score-based Editing for Controllable Text-to-Speech} } ,
year = 2022 ,
booktitle = { Proc. Interspeech 2022 } ,
pages = { 421--425 } ,
doi = { 10.21437/Interspeech.2022-6 }
} Cree un entorno virtual de Python ( venv o conda ) e instale los requisitos del paquete como se especifica en requirements.txt .
python -m venv venv
source venv/bin/activate
pip install -U pip
pip install -r requirements.txtConstruya el módulo de alineación monotónica.
cd model/monotonic_align
python setup.py build_ext --inplacePara obtener más información, consulte el repositorio oficial de Grad-TTS.
Los siguientes puntos de control ya están incluidos como parte de este repositorio, en checkpts .
Prepare un archivo de entrada que contenga muestras para la generación del habla. Marque el segmento que se editará a través de un separador de barras vertical, | . Por ejemplo, una sola muestra puede parecer
En | La cara de los impedimentos confesamente desalentador |
Proporcionamos un archivo de entrada de muestra en resources/filelists/edit_pitch_example.txt .
Para ejecutar inferencia, escriba
CUDA_VISIBLE_DEVICES=0 python edit_pitch.py
-f resources/filelists/edit_pitch_example.txt
-c checkpts/grad-tts-old.pt -t 1000
-s out/pitch/wavs Ajuste CUDA_VISIBLE_DEVICES según corresponda.
Prepare un archivo de entrada que contenga pares de oraciones. Concatene cada par con # y marque las piezas que se reemplazarán con un separador de barras vertical. Por ejemplo, un solo par podría parecer
Otros tres posteriormente | identificado | Oswald de una fotografía. #Tres otros posteriormente | Reconocido | Oswald de una fotografía.
Proporcionamos un archivo de entrada de muestra en resources/filelists/edit_content_example.txt .
Para ejecutar inferencia, escriba
CUDA_VISIBLE_DEVICES=0 python edit_content.py
-f resources/filelists/edit_content_example.txt
-c checkpts/grad-tts-old.pt -t 1000
-s out/content/wavsLanzado bajo la Licencia Pública General de GNU modificada.