Unduh DailyTalk - Download Kode Sumber DailyTalk

DailyTalk

Kode Sumber AI

v0.1.0

Unduh

DailyTalk: Dataset Dialog Lisan untuk Teks-ke-Kata-kata Conversational

Keon Lee ^* , Kyumin Park ^* , Daeyoung Kim

Dalam makalah kami, kami memperkenalkan DailyTalk, dataset pidato percakapan berkualitas tinggi yang dirancang untuk teks-ke-bicara.

Abstrak: Mayoritas dataset teks-ke-speech (TTS) saat ini, yang merupakan koleksi ucapan individu, berisi beberapa aspek percakapan. Dalam makalah ini, kami memperkenalkan DailyTalk, dataset pidato percakapan berkualitas tinggi yang dirancang untuk TTS percakapan. Kami mencicipi, memodifikasi, dan merekam 2.541 dialog dari dataset dialog domain terbuka DailyDialog yang mewarisi atribut beranotasi. Di atas dataset kami, kami memperluas pekerjaan sebelumnya sebagai baseline kami, di mana TTS non-autoregresif dikondisikan pada informasi historis dalam dialog. Dari percobaan dasar dengan metrik umum dan novel kami, kami menunjukkan bahwa DailyTalk dapat digunakan sebagai dataset TTS umum, dan lebih dari itu, baseline kami dapat mewakili informasi kontekstual dari DailyTalk. Dataset DailyTalk dan kode dasar tersedia secara bebas untuk penggunaan akademik dengan lisensi CC-by-SA 4.0.

Dataset

Anda dapat mengunduh dataset kami. Silakan merujuk ke detail statistik untuk detailnya.

Model pretrained

Anda dapat mengunduh model pretrained kami. Ada dua direktori yang berbeda: 'history_none' dan 'history_guo'. Yang pertama tidak memiliki pengkodean historis sehingga bukan model yang sadar konteks percakapan. Yang terakhir memiliki pengkodean historis mengikuti TTS end-to-end percakapan untuk agen suara (Guo et al., 2020).

Beralihnya jenis pengkodean riwayat oleh

 # In the model.yaml
history_encoder :
  type : " Guo " # ["none", "Guo"]

QuickStart

Dependensi

Anda dapat menginstal dependensi Python dengan

 pip3 install -r requirements.txt

Juga, Dockerfile disediakan untuk pengguna Docker .

Kesimpulan

Anda harus mengunduh kedua dataset kami. Unduh model pretrained dan letakkan di output/ckpt/DailyTalk/ . Juga unzip generator_LJSpeech.pth.tar atau generator_universal.pth.tar di folder hifigan. Model dilatih dengan pemodelan durasi tanpa pengawasan di bawah blok bangunan transformator dan jenis pengkodean sejarah.

Hanya inferensi batch yang didukung karena generasi putaran mungkin memerlukan sejarah kontekstual percakapan. Mencoba

 python3 synthesize.py --source preprocessed_data/DailyTalk/val_*.txt --restore_step RESTORE_STEP --mode batch --dataset DailyTalk

Untuk mensintesis semua ucapan di preprocessed_data/DailyTalk/val_*.txt .

Pelatihan

Preprocessing

Untuk TTS multi-speaker dengan embedder speaker eksternal, unduh rescnn softmax+triplet pretrained model Deepspeaker Philipperemy untuk penyematan speaker dan temukan di ./deepspeaker/pretrained_models/ . Harap dicatat bahwa model pretrain kami tidak dilatih dengan ini (mereka dilatih dengan speaker_embedder: "none" ).
Berlari
```
 python3 prepare_align.py --dataset DailyTalk
```
untuk beberapa persiapan.
Untuk penyelarasan paksa, Montreal memaksa Aligner (MFA) digunakan untuk mendapatkan keberpihakan antara ucapan dan urutan fonem. Penyelarasan yang telah diekstraksi untuk set data disediakan di sini. Anda harus membuka ritsleting file di preprocessed_data/DailyTalk/TextGrid/ . Bergantian, Anda dapat menjalankan pelurus sendiri. Harap dicatat bahwa model pretrain kami tidak dilatih dengan pemodelan durasi yang diawasi (mereka dilatih dengan learn_alignment: True ).
Setelah itu, jalankan skrip preprocessing dengan
```
 python3 preprocess.py --dataset DailyTalk
```

Pelatihan

Latih model Anda dengan

 python3 train.py --dataset DailyTalk

Opsi yang berguna:

Untuk menggunakan presisi campuran otomatis, append --use_amp argumen ke perintah di atas.
Pelatih mengasumsikan pelatihan multi-GPU simpul tunggal. Untuk menggunakan GPU tertentu, tentukan CUDA_VISIBLE_DEVICES=<GPU_IDs> di awal perintah di atas.

Tensorboard

Menggunakan

 tensorboard --logdir output/log

untuk melayani Tensorboard di Localhost Anda. Kurva kehilangan, sintesis mel-spectrograms, dan audio ditampilkan.

Catatan

Embedding konvolusional digunakan sebagai stylespeech untuk varians tingkat fonem dalam pemodelan durasi tanpa pengawasan. Kalau tidak, embedding berbasis bucket digunakan sebagai fastspeech2.
Pemodelan durasi yang tidak diawasi dalam tingkat fonem akan memakan waktu lebih lama dari level bingkai karena perhitungan tambahan varians tingkat fonem diaktifkan saat runtime.
Dua opsi untuk penyematan untuk pengaturan TTS multi-speaker : pelatihan pembicara pembicara dari awal atau menggunakan model Deepspeaker Philipperemy yang sudah terlatih (seperti yang dilakukan Styler). Anda dapat mengubahnya dengan mengatur konfigurasi (antara 'none' dan 'DeepSpeaker' ).
Untuk Vocoder, HiFi-Gan digunakan untuk semua percobaan dalam makalah kami.

Kutipan

Jika Anda ingin menggunakan dataset dan kode kami atau merujuk ke makalah kami, silakan kutip sebagai berikut.

@misc{lee2022dailytalk,
    title={DailyTalk: Spoken Dialogue Dataset for Conversational Text-to-Speech},
    author={Keon Lee and Kyumin Park and Daeyoung Kim},
    year={2022},
    eprint={2207.01063},
    archivePrefix={arXiv},
    primaryClass={eess.AS}
}