TTSDatasetRecorder
1.0.0
이것은 Kivy를 사용하여 Python으로 구현 된 Homebrew TTS 데이터 세트를 녹음하기위한 간단한 앱입니다. 설계된 사용 사례는 텍스트를 라인별로 표시하고 표시된 텍스트 길이를 기반으로 기본 마이크에서 고정 된 오디오 기간을 기록하는 것입니다. 읽기 속도가 조정 가능하며 소음, 스피커 오류로 인해 문장을 다시 녹음 해야하는 경우 간단한 컨트롤로 텍스트를 탐색 할 수 있습니다.
Mac OS와 Ubuntu에서만 테스트했는데 작은 수정으로 Windows에서 실행될 수 있다고 생각합니다. 또한 GUI를 잘 테스트하지 않고 위젯 크기와 패딩을 하드 코딩하여 앱이 다른 창 크기와 데스크탑 해상도에서 펑키 해 보일 수 있습니다.
파이썬 3이 필요합니다.
pip install -r requirements.txt
python prompter.py
앱은 동일한 폴더의 text.txt 의 텍스트를 읽고 라인별로 표시합니다. Record 버튼을 누르고 Recording... 텍스트가 표시되는 동안 문장을 말하십시오. 일정 시간이 지나면 녹음이 자동으로 중지됩니다. 할당 된 시간이 너무 적거나 너무 많으면 슬라이더를 사용하여 읽기 속도에 맞게 조정할 수 있습니다. 녹화는 ~/Desktop/TTS_dataset_recordings 의 48000 khz에서 .wav 파일로 저장되며, 파일 이름은 text.txt 의 줄 번호에 해당합니다.