TTS Tacotron Pytorch Unduh - TTS Tacotron Pytorch Kode Sumber Download

TTS Tacotron Pytorch

Kode Sumber AI

1.0.0

Unduh

Tacotron

Implementasi Pytorch dari Jaringan Sintesis Pidato Tacotron Google.

Implementasi ini juga mencakup perhatian yang peka terhadap lokasi dan fitur stop token dari Tacotron 2.

Selain itu, model ini dilatih pada dataset ucapan LJ, dengan model terlatih disediakan.

Sampel audio dapat ditemukan di direktori hasil.

Perkenalan

Implementasi ini didasarkan pada r9y9/tacotron_pytorch, perbedaan utamanya adalah:

Menambahkan perhatian yang peka terhadap lokasi dan token berhenti dari kertas Tacotron 2. Ini dapat sangat mengurangi jumlah waktu dan data yang diperlukan untuk melatih model.
Hapus semua dependensi TensorFlow yang digunakan R9Y9, sekarang hanya berjalan pada Pytorch dan Pytorch saja .
Menambahkan modul kerugian, dan gunakan kerugian L2 (MSE) alih -alih kerugian L1.
Menambahkan modul loader data.
Menggabungkan skrip preprocessing data pidato LJ dari Keithito.
Faktor dan optimasi kode untuk debug yang lebih mudah dan memperluas furture.

Selain itu, beberapa perbedaan dari kertas tacotron asli adalah:

Prediksi r = 5 bingkai out-lepas berturut-turut pada setiap langkah decoder alih-alih r = 2.
Feed All R Frame ke langkah input decoder berikutnya, bukan hanya bingkai terakhir r frame.
Skala kehilangan pada spektrogram linier yang diprediksi sehingga frekuensi yang lebih rendah yang sesuai dengan ucapan manusia (0 hingga 3000 Hz) beratnya lebih banyak.
Tidak menggunakan topeng kerugian dalam pembelajaran urutan-ke-urutan, ini memaksa model untuk belajar kapan harus menghentikan sintesis.
Nonaktifkan bias untuk unit konvolusi 1 dimensi di modulehas CBHG. Detail implementasi ini membantu konvergensi model.

Kualitas audio belum sebagus demo Google, tapi semoga akhirnya akan membaik. Permintaan tarik dipersilakan!

Awal yang cepat

Pengaturan

Klone repo ini: git clone [email protected]:andi611/Tacotron-Pytorch.git
CD ke repo ini: cd Tacotron-Pytorch

Menginstal dependensi

Pasang Python 3.
Instal versi terbaru Pytorch sesuai dengan platform Anda. Untuk kinerja yang lebih baik, instal dengan dukungan GPU (CUDA) jika layak. Kode ini berfungsi dengan Pytorch 0.4 dan yang lebih baru.
Instal Persyaratan:
```
 pip3 install -r requirements.txt
```
Peringatan: Anda perlu menginstal obor tergantung pada platform Anda. Di sini daftar versi Pytorch yang digunakan saat dibangun proyek ini dibangun.

Pelatihan

Unduh dataset LJ Speech.
- Pidato LJ
Anda dapat menggunakan set data lain jika Anda mengonversinya ke format yang tepat. Lihat pelatihan_data.md untuk info lebih lanjut.
Buka kumpulan dataset menjadi ~/Tacotron-Pytorch/data
Setelah membongkar, pohon Anda harus terlihat seperti ini untuk pidato LJ:
```
 |- Tacotron-Pytorch
	 |- data
		 |- LJSpeech-1.1
			 |- metadata.csv
			 |- wavs
```

Preprocess The LJ Speech Dataset dan buat file meta siap-model menggunakan preprocess.py:

 python3 preprocess.py --mode make

Setelah preprocessing, pohon Anda akan terlihat seperti ini:

 |- Tacotron-Pytorch
	 |- data
		 |- LJSpeech-1.1 (The downloaded dataset)
			 |- metadata.csv
			 |- wavs
		 |- meta (generate by preprocessing)
			 |- meta_text.txt 
			 |- meta_mel_xxxxx.npy ...
			 |- meta_spec_xxxxx.npy ...
		 |- test_transcripts.txt (provided)

Latih model menggunakan train.py
```
 python3 train.py --ckpt_dir ckpt/ --log_dir log/
```
Kembalikan pelatihan dari pos pemeriksaan sebelumnya:
```
 python3 train.py --ckpt_dir ckpt/ --log_dir log/ --model_name 500000
```
Hyperparameters Tunable ditemukan di config.py.
Anda dapat menyesuaikan parameter ini dan pengaturan dengan mengedit file, hyperparameter default direkomendasikan untuk pidato LJ.
Monitor dengan Tensorboard (Opsional)
```
 tensorboard --logdir 'path to log_dir'
```
Pelatih membuang audio dan keselarasan setiap 2000 langkah secara default. Anda dapat menemukannya di tacotron/ckpt/ .

Pengujian: Menggunakan model pra-terlatih dan test.py

Jalankan lingkungan pengujian dengan mode interaktif :

 python3 test.py --interactive --plot --model_name 500000

Jalankan algoritma pengujian pada satu set transkrip (hasil dapat ditemukan di direktori hasil/500000):
```
 python3 test.py --plot --model_name 500000 --test_file_path ./data/test_transcripts.txt
```

Pengakuan

Kredit untuk Ryuichi Yamamoto untuk implementasi Pytorch yang indah dari Tacotron, yang sebagian besar didasarkan pada karya ini. Pekerjaan ini juga terinspirasi oleh implementasi Pytorch Tacotron 2 NVIDIA.