Unduh kabooks - Unduh Kode Sumber kabooks

kabooks

Kode Sumber AI

1.0.0

Unduh

Kabooks - Kabooks Audiobooks Dataset Creator

Kabooks adalah akronim rekursif untuk "Kabooks AudioBooks Dataset Creator" yang merupakan alat untuk mengotomatisasi proses pembuatan dataset untuk pelatihan teks-ke-speech (TTS) dan model wicara-ke-teks (STT). Ini didasarkan pada karya Pansori [https://arxiv.org/abs/1812.09798].

Menerima file audio dan teks yang sesuai sebagai input, Kabooks akan membersihkan teks, membaginya menjadi kalimat, menyalin setiap segmen dan menemukan teks kebenaran dasar di buku teks lengkap.

Gunakan dengan risiko Anda sendiri.

Instalasi

Pastikan untuk menginstal FFMPEG:

$ apt-get update
$ apt install ffmpeg

$ conda create -n kabooks python=3.9 pip
$ conda activate kabooks

Instalasi Persyaratan

Instal Pytorch:

pip3 install torch torchvision torchaudio

Instal Persyaratan Kabooks:

$ pip install -r requirements.txt

Segmentasi audio

Langkah ini menerima file JSON dari langkah sebelumnya dan melakukan segmentasi file audio. Skrip ini didasarkan pada skrip yang disediakan oleh Keith Ito, yang dengan ramah menyediakannya melalui email. Pada langkah ini, daftar logis segmen pertama kali dibuat, menyimpan nama file, zaman awal dan akhir. Kemudian, buka daftar logis ini, membagi audio asli, menyimpan setiap segmen ke disk.

Fungsionalitas ini disediakan oleh skrip bernama "audio_segmentation.py" dan dapat digunakan secara terpisah. Jalankan skrip menggunakan argumen input jalur file audio (mp3) untuk disegmentasi.

$ python segment_tools.py

Input harus berupa file MP3, yang harus berada di dalam folder input. Setelah menjalankan skrip, segmen audio akan dihasilkan di folder WAVS, dan segmen akan memiliki nama yang sama dengan file asli.

Menuliskan

Di sini ada skrip untuk menggunakan WAV2VEC2. Fungsionalitas ini disediakan oleh skrip bernama "transcribe_audios.py" dan dapat digunakan secara terpisah. Jalankan skrip menggunakan argumen input dari direktori input file WAVS, file output transkripsi. Misalnya:

$ python transcription_tools.py

Input default skrip adalah isi folder WAVS. Hasilnya adalah file .csv (transcription.csv) yang berisi transkrip masing -masing file audio yang ada di folder WAVS.

Cari Teks

Pada langkah ini, setiap transkrip dari langkah sebelumnya akan dibandingkan dengan teks lengkap yang mengacu pada audiobook input. Untuk setiap transkrip skrip akan mengembalikan kalimat dengan kesamaan terbesar, yang ditemukan dalam teks lengkap.

Hasilnya adalah .csv (result.csv) yang berisi transkrip, kalimat asli dan nilai kesamaan, untuk masing -masing segmen audio yang ada di folder WAVS.

$ python search_substring.py

Anda juga dapat menggunakan versi yang sama dari skrip ini, tetapi menggunakan utas:

$ python search_substring_with_threads.py --number_threads=16

Referensi:

Sourcecode Pansori
Kertas Pansori
Katabe, alat serupa kami, digunakan untuk membuat dataset dari YouTube.

Terima kasih

Keith Ito

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode Sumber AI
Waktu Pembaruan 2025-09-14
ukuran 161.75KB
Berasal dari Github

Aplikasi Terkait

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
ML stack

Kode Sumber AI

1.0.0
awesome free chatgpt

Kode Sumber AI

1.0.0
pywin_contextmenu

Kode Sumber AI

Version update
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua