Это простое приложение для записи наборов данных Homebrew TTS, реализованных в Python с использованием Kivy. Образованный вариант использования - отображение текстовой линии по линии и записать фиксированную продолжительность звука из микрофона по умолчанию на основе отображаемой длины текста. Скорость считывания регулируется, и текст может перемещаться простыми элементами управления в случае, если предложение должно быть повторно записано из-за шума, ошибки динамика и т. Д.
Я только протестировал это на Mac OS и Ubuntu, я думаю, что она может работать в Windows с небольшими модификациями. Я также не проверял графический интерфейс и жестко кодировал размеры и падения виджетов, поэтому приложение может выглядеть забавно при разных размерах окна и разрешения на рабочем столе.
Требуется Python 3.
pip install -r requirements.txt
python prompter.py
Приложение будет считывать текст в text.txt в той же папке и отобразить его по строке. Нажмите кнопку Record и скажите предложение во время Recording... отображается текст. Запись автоматически остановится через некоторое время. Если отведенное время слишком мало или слишком много, вы можете настроить его для скорости чтения, используя слайдер. Записи будут сохранены в виде файлов .wav при 48000 кГц в ~/Desktop/TTS_dataset_recordings , с именами файлов, соответствующих номерам строк в text.txt