Ini adalah aplikasi sederhana untuk merekam dataset TTS Homebrew, yang diimplementasikan dalam Python menggunakan Kivy. Kasing penggunaan yang dirancang adalah untuk menampilkan baris teks demi baris dan merekam durasi audio yang tetap dari mikrofon default berdasarkan panjang teks yang ditampilkan. Kecepatan membaca dapat disesuaikan dan teks dapat dinavigasi dengan kontrol sederhana jika kalimat perlu direkam ulang karena kebisingan, kesalahan speaker dll.
Saya hanya menguji ini di Mac OS dan Ubuntu, saya pikir itu dapat berjalan di Windows dengan modifikasi kecil. Saya juga tidak menguji GUI dengan baik dan menyandarkan ukuran widget dan padding, sehingga aplikasi mungkin terlihat funky pada berbagai ukuran jendela dan resolusi desktop.
Membutuhkan Python 3.
pip install -r requirements.txt
python prompter.py
Aplikasi akan membaca teks di text.txt di folder yang sama dan menampilkannya baris demi baris. Tekan tombol Record dan katakan kalimat saat Recording... teks ditampilkan. Perekaman akan secara otomatis berhenti setelah beberapa waktu. Jika waktu yang ditentukan terlalu sedikit atau terlalu banyak, Anda dapat menyesuaikannya dengan kecepatan membaca Anda menggunakan slider. Rekaman akan disimpan sebagai file .wav pada 48000 kHz di ~/Desktop/TTS_dataset_recordings , dengan nama file yang sesuai dengan nomor baris di text.txt