Unduh PortaSpeech - Unduh Kode Sumber PortaSpeech

PortaSpeech

Kode Sumber AI

v0.2.0

Unduh

Portaspeech - Implementasi Pytorch

Pytorch Implementasi Portaspeech: Teks-ke-portabel dan berkualitas tinggi.

Sampel audio

Sampel audio tersedia di /demo.

Ukuran model

Modul	Normal	Kecil	Normal (kertas)	Kecil (kertas)
Total	24m	7.6m	21.8m	6.7m
Linguisticencoder	3.7m	1.4m	-	-
Variasionalenerator	11m	2.8m	-	-
Flowpostnet	9.3m	3.4m	-	-

QuickStart

Dataset mengacu pada nama dataset seperti LJSpeech dalam dokumen berikut.

Dependensi

Anda dapat menginstal dependensi Python dengan

 pip3 install -r requirements.txt

Juga, Dockerfile disediakan untuk pengguna Docker .

Kesimpulan

Anda harus mengunduh model pretrained dan memasukkannya ke dalam output/ckpt/DATASET/ .

Untuk TTS penutur tunggal , jalankan

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --restore_step RESTORE_STEP --mode single --dataset DATASET

Ucapan yang dihasilkan akan dimasukkan ke dalam output/result/ .

Inferensi Batch

Inferensi batch juga didukung, coba

 python3 synthesize.py --source preprocessed_data/DATASET/val.txt --restore_step RESTORE_STEP --mode batch --dataset DATASET

Untuk mensintesis semua ucapan di preprocessed_data/DATASET/val.txt .

Kemampuan kontrol

Tingkat berbicara dari ucapan yang disintesis dapat dikontrol dengan menentukan rasio durasi yang diinginkan. Misalnya, seseorang dapat meningkatkan tingkat berbicara sebesar 20 oleh

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --restore_step RESTORE_STEP --mode single --dataset DATASET --duration_control 0.8

Harap dicatat bahwa kemampuan kontrol berasal dari FastSpeech2 dan bukan minat vital dari Portaspeech.

Pelatihan

Kumpulan data

Dataset yang didukung adalah

LJSPEECH: Dataset bahasa Inggris speaker tunggal terdiri dari 13100 klip audio pendek dari pembicara pembicara wanita bagian dari 7 buku non-fiksi, total sekitar 24 jam.

Preprocessing

Berlari

 python3 prepare_align.py --dataset DATASET

untuk beberapa persiapan.

Untuk penyelarasan paksa, Montreal memaksa Aligner (MFA) digunakan untuk mendapatkan keberpihakan antara ucapan dan urutan fonem. Penyelarasan yang telah diekstraksi untuk set data disediakan di sini. Anda harus membuka ritsleting file di preprocessed_data/DATASET/TextGrid/ . Bergantian, Anda dapat menjalankan pelurus sendiri.

Setelah itu, jalankan skrip preprocessing dengan

 python3 preprocess.py --dataset DATASET

Pelatihan

Latih model Anda dengan

 python3 train.py --dataset DATASET

Opsi yang berguna:

Untuk menggunakan presisi campuran otomatis, tambahkan argumen --use_amp ke perintah di atas.
Pelatih mengasumsikan pelatihan multi-GPU simpul tunggal. Untuk menggunakan GPU tertentu, tentukan CUDA_VISIBLE_DEVICES=<GPU_IDs> di awal perintah di atas.

Tensorboard

Menggunakan

 tensorboard --logdir output/log

untuk melayani Tensorboard di Localhost Anda. Kurva kehilangan, sintesis mel-spectrograms, dan audio ditampilkan.

Model normal

Kehilangan model kecil

Catatan

Untuk Vocoder, Hifi-Gan dan Melgan didukung.
Tidak ada aktivasi relu dan layernorm di variationalgenerator untuk menghindari output tumbuk.
Percepat konvergensi penyelarasan kata-ke-fonem dalam linguisticencoder dengan membagi kata-kata panjang menjadi subword dan menyortir dataset dengan panjang bingkai Mel-Spectrogram.
Ada dua jenis kehilangan penolong untuk meningkatkan penyelarasan kata-ke-fonem: "CTC" dan "DGA". Anda dapat beralih mereka sebagai berikut:
```
 # In the train.yaml
aligner :
    helper_type : " dga " # ["dga", "ctc", "none"]
```
- "DGA": Kehilangan Perhatian Terpandu Diagonal (DGA)
- "CTC": Kerugian Klasifikasi Temporal (CTC) Connectionist dengan algoritma Forward-Sum
- Jika Anda menetapkan "tidak ada", tidak ada kehilangan penolong yang akan diterapkan selama pelatihan.
- Perbandingan Alignments dari tiga metode ("DGA", "CTC", dan "None" dari atas ke bawah):
- Pengaturan default adalah "DGA". Meskipun "CTC" membuat keselarasan terkuat, kualitas output dan akurasinya lebih buruk daripada "DGA".
- Tapi tetap saja, ada ruang untuk peningkatan kualitas output. Kualitas audio dan alingment (akurasi) tampaknya menjadi trade-off.
Akan diperluas ke TTS multi-speaker .