Esta es una aplicación simple para grabar conjuntos de datos TTS caseros, implementados en Python usando Kivy. El caso de uso diseñado es mostrar el texto de línea por línea y registrar una duración fija del audio desde el micrófono predeterminado en función de la longitud de texto que se muestra. La velocidad de lectura es ajustable y el texto puede navegarse mediante controles simples en caso de que una oración sea necesario volver a grabar debido al ruido, el error del altavoz, etc.
Solo probé esto en Mac OS y Ubuntu, creo que puede ejecutarse en Windows con pequeñas modificaciones. Tampoco probé bien la GUI y los tamaños de widgets y los modelos de widgets, por lo que la aplicación podría verse funky en diferentes tamaños de ventana y resoluciones de escritorio.
Requiere Python 3.
pip install -r requirements.txt
python prompter.py
La aplicación leerá el texto en text.txt en la misma carpeta y lo mostrará línea por línea. Presione el botón Record y diga la oración mientras se muestra la Recording... Se muestra el texto. La grabación se detendrá automáticamente después de un tiempo. Si el tiempo asignado es muy poco o demasiado, puede ajustarlo para su velocidad de lectura usando el control deslizante. Las grabaciones se guardarán como archivos .wav a 48000 kHz en ~/Desktop/TTS_dataset_recordings , con los nombres de archivo correspondientes a los números de línea en text.txt