Download voice dataset creation - Unduh Kode Sumber voice dataset creation

voice dataset creation

Kode Sumber AI

1.0.0

Unduh

Pembuatan Dataset Suara

Repo ini menguraikan langkah-langkah dan skrip yang diperlukan untuk membuat dataset teks-ke-ucapan Anda sendiri untuk melatih model suara. Output akhir adalah dalam format LJSPEECH.

Flow chart

Daftar isi

Buat rekaman suara Anda sendiri
Buat dataset suara sintetis
Buat transkripsi untuk rekaman suara yang ada
Utilitas lainnya

Buat rekaman suara Anda sendiri

Persyaratan

Perangkat lunak perekaman suara
Mikrofon yang dipasang di kepala omni-directional
Kartu audio berkualitas baik

Buat Korpus Kalimat Teks

Buat kalimat yang akan sekitar 3-10 detik saat diucapkan
Gunakan format ljspeech
- "|" nilai terpisah, wav file id lalu teks kalimat
- 100|this is an example sentence

Berbicara dan merekam kalimat

Bicaralah setiap kalimat seperti yang tertulis
Laju sampel harus 22050 atau lebih besar

Panjang kalimat

Jalankan skrip/wavdurations2csv.sh untuk memetakan panjang kalimat dan memverifikasi bahwa Anda memiliki distribusi panjang file wav yang baik.

Buat dataset suara sintetis

Persyaratan

Instance compute platform cloud platform cloud
- Cloud API access scopes Pilih Allow full access to all Cloud APIs
Conda

Instalasi

Buat Lingkungan Conda di Instance GCP

conda create -n tts python=3.7
conda activate tts
pip install google-cloud-texttospeech==2.1.0 tqdm pandas

Buat Korpus Kalimat Teks

Buat kalimat yang akan sekitar 3-10 detik saat diucapkan
Gunakan format ljspeech
- "|" nilai terpisah, wav file id lalu teks kalimat
- 100|this is an example sentence

Menghasilkan dataset suara sintetis

python text_to_wav.py tts_generate

Panjang kalimat

Jalankan skrip/wavdurations2csv.sh untuk memetakan panjang kalimat dan memverifikasi bahwa Anda memiliki distribusi panjang file wav yang baik.

Buat transkripsi untuk rekaman suara yang ada

Persyaratan

Audisi atau keberanian Adobe
Instance compute platform cloud platform cloud
- Cloud API access scopes Pilih Allow full access to all Cloud APIs
Conda

Instalasi

Buat Lingkungan Conda di Instance GCP

conda create -n stt python=3.7
conda activate stt
pip install google-cloud-speech tqdm pandas

Isi lembar data untuk dataset suara

Tinjau lembar data untuk dataset oleh Gebru et al.: Https://arxiv.org/pdf/1803.09010.pdf
Markdown DataTheet: https://github.com/jrmeyer/markdown-datasheet-for-datasets/blob/master/datasheet.md

Tandai pidato

Dalam Audisi Adobe , buka file audio:

Pilih Diagnostics -> Mark Audio
Pilih Mark the Speech
Klik Scan
Klik Find Levels
Klik Scan Lagi
Klik Mark All
Sesuaikan sinyal audio dan hening db dan panjang hingga klip antara 3-10 detik

Atau, di Audacity , buka file audio:

Pilih Analyze -> Sound Finder
Sesuaikan sinyal audio dan hening db dan panjang hingga klip antara 3-10 detik

Sesuaikan penanda atau batas label

Dalam audisi :

Tab Buka Markers
Sesuaikan penanda, menghilangkan keheningan dan kebisingan untuk membuat panjang klip antara 3 hingga 10 detik

Dalam audisi :

Sesuaikan batas label, menghilangkan keheningan dan kebisingan untuk membuat panjang klip antara 3 hingga 10 detik

Ekspor Penanda/Label dan WAVS

Dalam audisi :

Pilih semua penanda dalam daftar
Pilih Export Selected Markers to CSV dan Simpan sebagai Markers.CSV
Pilih Preferences -> Media & Disk Cache dan Tentar Save Peak Files
Pilih Export Audio of Selected Range Markers dengan opsi berikut:
- Periksa Use marker names in filenames
- Perbarui format ke WAV PCM
- Perbarui sampel tipe 22050 Hz Mono, 16-bit
- Gunakan folder wavs_export

Atau, dalam keberanian :

Pilih Export multiple...
- Format: WAV
- Opsi: PCM 16-bit yang ditandatangani
- Pisahkan file berdasarkan label
- Nama file menggunakan label/nama trek
- Gunakan folder wavs_export
Pilih Export labels ke Label Track.txt

Menganalisis WAV dengan colab rasio sinyal ke noise

Jalankan colabs/voice_dataset_snr.ipynb
Bersihkan atau hapus file bising

Buat transkripsi awal dengan STT

Untuk audisi , menggunakan folder yang diekspor Markers.csv dan WAVS:

 cd scripts
python wav_to_text.py audition

Script menghasilkan file baru, Markers_STT.csv .

Untuk Audacity , menggunakan Label Track.txt dan WAVS Folder Run:

 cd scripts
python wav_to_text.py audacity

Script menghasilkan file baru, Label Track STT.csv .

Transkripsi fine-tune

Untuk audisi :

Hapus semua penanda
Pilih Import Markers from File dan Pilih File dengan Transkripsi STT: Markers_stt.csv
Menyempurnakan bidang deskripsi dalam spidol agar sesuai dengan kata-kata yang diucapkan

Untuk keberanian :

Buka Label Track STT.txt dalam editor teks.
Fine-tune bidang label dalam file teks agar sesuai dengan kata-kata yang diucapkan

Marker Ekspor (Audisi saja) dan WAVS

Untuk audisi :

Pilih semua penanda dalam daftar
Pilih Export Selected Markers to CSV dan Simpan sebagai Markers.CSV
Pilih Export Audio of Selected Range Markers dengan opsi berikut:
- Periksa Use marker names in filenames
- Perbarui format ke WAV PCM
- Perbarui sampel tipe 22050 Hz Mono, 16-bit
- Gunakan folder wavs_export

Untuk keberanian :

Pilih Export multiple...
- Format: WAV
- Opsi: PCM 16-bit yang ditandatangani
- Pisahkan file berdasarkan label
- Nama file menggunakan label/nama trek
- Gunakan folder wavs_export

Konversi penanda (audisi) atau label (Audacity) menjadi format ljspeech

Menggunakan Markers.csv yang diekspor.csv (audisi) atau Label Track STT.txt (Audacity) dan wavs di wavs_export, skrip/markersfile_to_metadata.py akan membuat metadata.csv dan folder wavs untuk melatih model tts Anda:

Untuk audisi :

python markersfile_to_metadata.py audition

Untuk keberanian :

python markersfile_to_metadata.py audacity

Panjang kalimat

Jalankan skrip/wavdurations2csv.sh untuk memetakan panjang kalimat dan memverifikasi bahwa Anda memiliki distribusi panjang file wav yang baik.

Utilitas lainnya

File wav upsample

FFMPEG: ffmpeg Resampy: Resampy Kami menguji tiga metode untuk meningkatkan file WAV dari 16.000 menjadi 22.050 Hz. Setelah meninjau spektrogram, kami memilih FFMPEG untuk upampling karena mencakup 2 kHz informasi kelas atas lainnya bila dibandingkan dengan resampy. Scripts/ResampleWav.sh

 scripts/resamplewav.sh

Referensi

Mozilla TTS: https://github.com/mozilla/tts
Mengotomatisasi Penyelarasan, Termasuk Audio Segmen tentang Keheningan, Google Speech API, dan penyelarasan pengakuan: https://github.com/carpedm20/multi-speaker-tacotron-tensorflow#2-2-generate-antean-datasets
Pretraining pada korpus sintetis besar dan fine tuning pada yang spesifik https://twitter.com/garygarywang
DataSheets untuk dataset https://arxiv.org/abs/1803.09010

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode Sumber AI
Waktu Pembaruan 2025-08-23
ukuran 6.27MB
Berasal dari Github

Aplikasi Terkait

glaucoma dataset metadata

2024-11-09
ffhq wrinkle dataset

2024-11-07
GLM 4 Voice

2024-11-02
Retrieval based Voice Conversion WebUI

2024-11-01
Bola Penciptaan

2022-07-26
Antarmuka SMS tak terbatas GOOGLE VOICE

2009-11-07

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
ML stack

Kode Sumber AI

1.0.0
awesome free chatgpt

Kode Sumber AI

1.0.0
pywin_contextmenu

Kode Sumber AI

Version update
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua