Unduh voicefilter - Unduh kode sumber voicefilter

voicefilter

ular piton

1.0.0

Unduh

Voicefilter

Catatan dari Seung-Won (2020.10.25)

Hai semuanya! Seung-won dari Minds Lab, Inc. Sudah lama sekali saya telah merilis open-source ini, dan saya tidak berharap repositori ini mengambil begitu banyak perhatian untuk waktu yang lama. Saya ingin mengucapkan terima kasih kepada semua orang karena telah memberikan perhatian seperti itu, dan juga Tn. Quan Wang (penulis pertama dari The Voicefilter Paper) karena merujuk proyek ini dalam makalahnya.

Sebenarnya, proyek ini dilakukan oleh saya ketika baru 3 bulan setelah saya mulai mempelajari pembelajaran yang mendalam & pemisahan bicara tanpa pengawas di bidang yang relevan. Saat itu, saya tidak tahu apa itu kompresi hukum-hukum, dan cara yang benar untuk memvalidasi/menguji model. Sekarang saya telah menghabiskan lebih banyak waktu untuk pembelajaran & pidato yang mendalam sejak saat itu (saya juga menulis sebuah makalah yang diterbitkan di Interspeech 2020?), Saya dapat mengamati beberapa kesalahan jelas yang telah saya buat. Masalah -masalah itu diangkat dengan baik oleh pengguna GitHub; Silakan merujuk ke masalah dan tarik permintaan untuk itu. Yang sedang berkata, repositori ini bisa sangat tidak dapat diandalkan, dan saya ingin mengingatkan semua orang untuk menggunakan kode ini dengan risiko sendiri (sebagaimana ditentukan dalam lisensi).

Sayangnya, saya tidak dapat membeli waktu tambahan untuk merevisi proyek ini atau meninjau permintaan masalah / tarik. Sebaliknya, saya ingin menawarkan beberapa petunjuk ke sumber daya yang lebih baru dan lebih dapat diandalkan:

Voicefilter-Lite: Ini adalah versi yang lebih baru dari voicefilter yang disajikan di Interspeech 2020, yang juga ditulis oleh Mr. Quan Wang (dan rekan-rekannya di Google). Saya sangat merekomendasikan memeriksa makalah ini, karena fokus pada situasi yang lebih realistis di mana voicefilter diperlukan.
Daftar implementasi voicefilter yang tersedia di GitHub: Pada bulan Maret 2019, repositori ini adalah satu-satunya implementasi open-source yang tersedia dari voicefilter. Namun, implementasi yang jauh lebih baik yang layak mendapat lebih banyak perhatian menjadi tersedia di seluruh GitHub. Silakan periksa, dan pilih yang memenuhi permintaan Anda.
Pytorch Lightning: Kembali pada tahun 2019, saya tidak dapat menemukan template proyek belajar yang dalam untuk diri saya sendiri, jadi saya dan rekan-rekan saya telah menggunakan proyek ini sebagai template untuk proyek baru lainnya. Untuk orang -orang yang mencari template proyek seperti itu, saya ingin sangat merekomendasikan Pytorch Lightning. Meskipun saya telah melakukan banyak upaya untuk mengembangkan template saya sendiri selama 2019 (voicefilter -> randwirenn -> Melnet -> Melgan), saya menemukan Pytorch Lightning jauh lebih baik daripada template saya sendiri.

Terima kasih telah membaca, dan saya berharap semua orang kesehatan yang baik selama situasi pandemi global.

Salam Hormat, Seung-Won Park

Implementasi Pytorch tidak resmi dari Google AI: Voicefilter: Pemisahan suara yang ditargetkan oleh masking spektrogram yang dikondisikan oleh pembicara.

Hasil

Pelatihan memakan waktu sekitar 20 jam di AWS P3.2xlarge (NVIDIA V100).

Sampel audio

Dengarkan sampel audio di halaman web: http://swpark.me/voicefilter/

Metrik

Median sdr	Kertas	Milik kita
sebelum voicefilter	2.5	1.9
setelah voicefilter	12.6	10.2

SDR berkumpul di 10, yang sedikit lebih rendah dari kertas.

Dependensi

Python dan paket
Kode ini diuji pada Python 3.6 dengan Pytorch 1.0.1. Paket lain dapat diinstal oleh:
```
pip install -r requirements.txt
```
Aneka ragam
FFMPEG-Normalize digunakan untuk resampling dan menormalkan file WAV. Lihat ReadMe.MD dari FFMPEG-Normalisasi untuk Instalasi.

Siapkan dataset

Unduh Dataset Librispeech
Untuk mereplikasi kertas voicefilter, dapatkan dataset Librispeech di http://www.openslr.org/12/. train-clear-100.tar.gz (6.3G) berisi pidato 252 pembicara, dan train-clear-360.tar.gz (23G) berisi 922 speaker. Anda dapat menggunakan keduanya, tetapi semakin banyak speaker yang Anda miliki dalam dataset, semakin banyak voicefilter yang lebih baik.

Resample & Normalisasi File WAV

Pertama, file unzip tar.gz ke folder yang diinginkan:

tar -xvzf train-clear-360.tar.gz

Selanjutnya, salin utils/normalize-resample.sh ke root direktori folder data unzip. Kemudian:

vim normalize-resample.sh # set "N" as your CPU core number.
chmod a+x normalize-resample.sh
./normalize-resample.sh # this may take long

Edit config.yaml

 cd config
cp default.yaml config.yaml
vim config.yaml

Preprocess WAV File
Untuk meningkatkan kecepatan pelatihan, lakukan STFT untuk setiap file sebelum pelatihan oleh:
```
python generator.py -c [config yaml] -d [data directory] -o [output directory] -p [processes to run]
```
Ini akan membuat data 100.000 (kereta) + 1000 (uji). (Sekitar 160g)

Latih voicefilter

Dapatkan model pretrained untuk sistem pengenalan speaker
Voicefilter menggunakan sistem pengenalan speaker (embeddings vektor D). Di sini, kami menyediakan model pretrained untuk mendapatkan embeddings vektor D.
Model ini dilatih dengan dataset Voxceleb2, di mana ucapan secara acak sesuai dengan panjang waktu [70, 90]. Tes dilakukan dengan Window 80 / Hop 40 dan telah menunjukkan tingkat kesalahan yang sama sekitar 1%. Data yang digunakan untuk pengujian dipilih dari 8 speaker pertama dari dataset uji Voxceleb1, di mana 10 ucapan per setiap speaker dipilih secara acak.
Pembaruan : Evaluasi pada pasangan yang dipilih Voxceleb1 menunjukkan 7,4% EER.
Model dapat diunduh di tautan GDRIVE ini.
Berlari
Setelah menentukan train_dir , test_dir di config.yaml , jalankan:
```
python trainer.py -c [config yaml] -e [path of embedder pt file] -m [name]
```
Ini akan membuat chkpt/name dan logs/name di direktori dasar ( -b opsi . Di default)
Lihat Tensorboardx
```
tensorboard --logdir ./logs
```

Melanjutkan dari pos pemeriksaan

python trainer.py -c [config yaml] --checkpoint_path [chkpt/name/chkpt_{step}.pt] -e [path of embedder pt file] -m name

Mengevaluasi

python inference.py -c [config yaml] -e [path of embedder pt file] --checkpoint_path [path of chkpt pt file] -m [path of mixed wav file] -r [path of reference wav file] -o [output directory]

Kemungkinan perbaikan

Cobalah kesalahan rekonstruksi terkompresi-law sebagai fungsi kerugian, bukan MSE. (Lihat #14)

Pengarang

Taman Seungwon di Mindslab ([email protected], [email protected])

Lisensi

Lisensi Apache 2.0

Repositori ini berisi kode yang diadaptasi/disalin dari pengikut:

utils/Adabound.py dari https://github.com/luolc/adabound (lisensi Apache 2.0)
utils/audio.py dari https://github.com/keithito/tacotron (lisensi MIT)
utils/hparams.py dari https://github.com/harryvolek/pytorch_speaker_verifikasi (tidak ada lisensi yang ditentukan)
utils/normalize-reesample.sh dari https://unix.stackexchange.com/a/216475

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe ular piton
Waktu Pembaruan 2025-07-14
ukuran 1.15MB
Berasal dari Github

Aplikasi Terkait

ToDo Co

2025-03-22
Python Portfolio

2024-11-10
datamule python

2024-11-08
Alat bagan data sumber terbuka Redash v24.10.0

2024-11-27
platform visualisasi data smartchart v6.9

2024-11-27
Alat pengujian beban belalang v2.32.0

2024-11-27

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
ToDo Co

ular piton

1.0.0
Python Portfolio

ular piton
datamule python

ular piton
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua