Download Cross Speaker Emotion Transfer - Unduh Kode Sumber Cross Speaker Emotion Transfer

Cross Speaker Emotion Transfer

Kode Sumber AI

v0.2.0

Unduh

Cross-speaker-emotion-transfer-Implementasi Pytorch

Implementasi Pytorch dari transfer emosi lintas-speaker Bytedance berdasarkan kondisi normalisasi lapisan speaker dan pelatihan semi-diawasi dalam teks-ke-speech.

Sampel audio

Sampel audio tersedia di /demo.

QuickStart

Dataset mengacu pada nama dataset seperti RAVDESS dalam dokumen berikut.

Dependensi

Anda dapat menginstal dependensi Python dengan

 pip3 install -r requirements.txt

Juga, instal fairseq (dokumen resmi, github) untuk memanfaatkan LConvBlock . Silakan periksa di sini untuk menyelesaikan masalah apa pun saat menginstalnya. Perhatikan bahwa Dockerfile disediakan untuk pengguna Docker , tetapi Anda harus menginstal Fairseq secara manual.

Kesimpulan

Anda harus mengunduh model pretrained dan memasukkannya ke dalam output/ckpt/DATASET/ .

Untuk mengekstraksi token emosi yang lembut dari audio referensi, jalankan

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --speaker_id SPEAKER_ID --ref_audio REF_AUDIO_PATH --restore_step RESTORE_STEP --mode single --dataset DATASET

Atau, untuk menggunakan token emosi keras dari ID emosi, lari

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --speaker_id SPEAKER_ID --emotion_id EMOTION_ID --restore_step RESTORE_STEP --mode single --dataset DATASET

Kamus speaker yang dipelajari dapat ditemukan di preprocessed_data/DATASET/speakers.json , dan ucapan yang dihasilkan akan dimasukkan ke dalam output/result/ .

Inferensi Batch

Inferensi batch juga didukung, coba

 python3 synthesize.py --source preprocessed_data/DATASET/val.txt --restore_step RESTORE_STEP --mode batch --dataset DATASET

Untuk mensintesis semua ucapan di preprocessed_data/DATASET/val.txt . Harap dicatat bahwa hanya token emosi keras dari ID emosi yang diberikan yang didukung dalam mode ini.

Pelatihan

Kumpulan data

Dataset yang didukung adalah

Ravdess: Bagian Ravdess ini berisi 1440 file: 60 uji coba per aktor x 24 aktor = 1440. Ravdess berisi 24 aktor profesional (12 wanita, 12 pria), menyuarakan dua pernyataan yang cocok dengan leksikal dalam aksen Amerika Utara yang netral. Emosi ucapan termasuk ekspresi yang tenang, bahagia, sedih, marah, takut, terkejut, dan jijik. Setiap ekspresi diproduksi pada dua tingkat intensitas emosional (normal, kuat), dengan ekspresi netral tambahan.

Bahasa dan dataset Anda sendiri dapat diadaptasi di sini.

Preprocessing

Untuk TTS multi-speaker dengan embedder speaker eksternal, unduh rescnn softmax+triplet pretrained model Deepspeaker Philipperemy untuk penyematan speaker dan temukan di ./deepspeaker/pretrained_models/ .
Berlari
```
 python3 prepare_align.py --dataset DATASET
```
untuk beberapa persiapan.
Untuk penyelarasan paksa, Montreal memaksa Aligner (MFA) digunakan untuk mendapatkan keberpihakan antara ucapan dan urutan fonem. Penyelarasan yang telah diekstraksi untuk set data disediakan di sini. Anda harus membuka ritsleting file di preprocessed_data/DATASET/TextGrid/ . Bergantian, Anda dapat menjalankan pelurus sendiri.
Setelah itu, jalankan skrip preprocessing dengan
```
 python3 preprocess.py --dataset DATASET
```

Pelatihan

Latih model Anda dengan

 python3 train.py --dataset DATASET

Opsi yang berguna:

Untuk menggunakan presisi campuran otomatis, tambahkan argumen --use_amp ke perintah di atas.
Pelatih mengasumsikan pelatihan multi-GPU simpul tunggal. Untuk menggunakan GPU tertentu, tentukan CUDA_VISIBLE_DEVICES=<GPU_IDs> di awal perintah di atas.

Tensorboard

Menggunakan

 tensorboard --logdir output/log

untuk melayani Tensorboard di Localhost Anda. Kurva kehilangan, sintesis mel-spectrograms, dan audio ditampilkan.

Catatan

Implementasi saat ini tidak dilatih dengan cara semi-diawasi karena ukuran dataset kecil. Tapi itu dapat dengan mudah diaktifkan dengan menentukan speaker target dan tidak melewati ID emosi tanpa kehilangan emosi.
Dalam dekoder , blok LCONV 15 x 1 digunakan sebagai ganti 17 x 1 karena masalah memori.
Dua opsi untuk penyematan untuk pengaturan TTS multi-speaker : pelatihan pembicara pembicara dari awal atau menggunakan model Deepspeaker Philipperemy yang sudah terlatih (seperti yang dilakukan Styler). Anda dapat mengubahnya dengan mengatur konfigurasi (antara 'none' dan 'DeepSpeaker' ).
Deepspeaker pada dataset Ravdess menunjukkan identifikasi yang jelas di antara pembicara. Gambar berikut menunjukkan plot T-SNE dari embedding speaker yang diekstraksi.