Este é um aplicativo simples para gravar conjuntos de dados TTS de cerveja homebraga, implementada no Python usando o Kivy. O estojo de uso projetado é exibir a linha de texto por linha e gravar uma duração fixa do áudio do microfone padrão com base no comprimento do texto exibido. A velocidade de leitura é ajustável e o texto pode ser navegado por controles simples, caso uma frase precise ser regravada devido a ruído, erro do alto-falante etc.
Eu só testei isso no Mac OS e Ubuntu, acho que pode ser executado no Windows com pequenas modificações. Também não testei bem a GUI e codifiquei os tamanhos e os pás do widgets, para que o aplicativo possa parecer descolado em diferentes tamanhos de janela e resoluções de mesa.
Requer Python 3.
pip install -r requirements.txt
python prompter.py
O aplicativo lerá o texto em text.txt na mesma pasta e exibi -lo linha por linha. Pressione o botão Record e diga a frase enquanto a Recording... o texto é exibido. A gravação será interrompida automaticamente após algum tempo. Se o tempo previsto for muito pouco ou demais, você poderá ajustá -lo para sua velocidade de leitura usando o controle deslizante. As gravações serão salvas como arquivos .wav a 48000 kHz em ~/Desktop/TTS_dataset_recordings , com os nomes de arquivos correspondentes aos números de linha em text.txt