Kabooks adalah akronim rekursif untuk "Kabooks AudioBooks Dataset Creator" yang merupakan alat untuk mengotomatisasi proses pembuatan dataset untuk pelatihan teks-ke-speech (TTS) dan model wicara-ke-teks (STT). Ini didasarkan pada karya Pansori [https://arxiv.org/abs/1812.09798].
Menerima file audio dan teks yang sesuai sebagai input, Kabooks akan membersihkan teks, membaginya menjadi kalimat, menyalin setiap segmen dan menemukan teks kebenaran dasar di buku teks lengkap.
Gunakan dengan risiko Anda sendiri.
Pastikan untuk menginstal FFMPEG:
$ apt-get update
$ apt install ffmpeg$ conda create -n kabooks python=3.9 pip
$ conda activate kabooksInstal Pytorch:
pip3 install torch torchvision torchaudioInstal Persyaratan Kabooks:
$ pip install -r requirements.txtLangkah ini menerima file JSON dari langkah sebelumnya dan melakukan segmentasi file audio. Skrip ini didasarkan pada skrip yang disediakan oleh Keith Ito, yang dengan ramah menyediakannya melalui email. Pada langkah ini, daftar logis segmen pertama kali dibuat, menyimpan nama file, zaman awal dan akhir. Kemudian, buka daftar logis ini, membagi audio asli, menyimpan setiap segmen ke disk.
Fungsionalitas ini disediakan oleh skrip bernama "audio_segmentation.py" dan dapat digunakan secara terpisah. Jalankan skrip menggunakan argumen input jalur file audio (mp3) untuk disegmentasi.
$ python segment_tools.py Input harus berupa file MP3, yang harus berada di dalam folder input. Setelah menjalankan skrip, segmen audio akan dihasilkan di folder WAVS, dan segmen akan memiliki nama yang sama dengan file asli.
Di sini ada skrip untuk menggunakan WAV2VEC2. Fungsionalitas ini disediakan oleh skrip bernama "transcribe_audios.py" dan dapat digunakan secara terpisah. Jalankan skrip menggunakan argumen input dari direktori input file WAVS, file output transkripsi. Misalnya:
$ python transcription_tools.pyInput default skrip adalah isi folder WAVS. Hasilnya adalah file .csv (transcription.csv) yang berisi transkrip masing -masing file audio yang ada di folder WAVS.
Pada langkah ini, setiap transkrip dari langkah sebelumnya akan dibandingkan dengan teks lengkap yang mengacu pada audiobook input. Untuk setiap transkrip skrip akan mengembalikan kalimat dengan kesamaan terbesar, yang ditemukan dalam teks lengkap.
Hasilnya adalah .csv (result.csv) yang berisi transkrip, kalimat asli dan nilai kesamaan, untuk masing -masing segmen audio yang ada di folder WAVS.
$ python search_substring.pyAnda juga dapat menggunakan versi yang sama dari skrip ini, tetapi menggunakan utas:
$ python search_substring_with_threads.py --number_threads=16