durian pytorch Download - durian pytorch Source Code Download

durian pytorch

Kode Sumber AI

1.0.0

Unduh

Durian

Implementasi "Durasi Informed Attention Network untuk Sintesis Multimodal" (https://arxiv.org/pdf/1909.01700.pdf).

Status : Dirilis

1 info

Durian adalah arsitektur encoder-decoder untuk tugas sintesis teks-ke-pidato. Tidak seperti arsitektur sebelumnya seperti Tacotron 2, ia tidak belajar mekanisme perhatian tetapi memperhitungkan informasi durasi fonem. Jadi, tentu saja, untuk menggunakan model ini, seseorang harus memiliki dataset fonemized dan durasi-selaras. Namun, Anda dapat mencoba menggunakan model durasi pretrained pada dataset LJSPEECH (Dict CMU yang digunakan). Tautan akan disediakan di bawah ini.

2 detail arsitektur

Model durian terdiri dari dua modul: sintesizer backbone dan prediktor durasi. Berikut adalah beberapa perbedaan paling menonjol dari durian yang dijelaskan dalam kertas:

Penanda batas prosodik tidak digunakan (tidak memiliki berlabel), dan dengan demikian tidak ada 'lewati negara' pengecualian batas prosodik 'negara tersembunyi'
Kode gaya tidak digunakan juga (alasan yang sama)
Prenet yang Dihapus Sebelum Encoder CBHG (tidak meningkatkan akurasi selama percobaan)
Output sel berulang decoder bingkai spektrogram tunggal sekaligus

Synthesizer tulang punggung dan model durasi dilatih secara bersamaan. Untuk Model Durasi Penyederhanaan Implementasi memprediksi penyelarasan atas jumlah bingkai maks yang tetap. Anda dapat mempelajari output ini sebagai masalah BCE, masalah MSE dengan menjumlahkan sumbu frame atau untuk menggunakan kedua kerugian (belum menguji yang ini), atur di config.json . Eksperimen menunjukkan bahwa versi baru dari proses optimisasi menunjukkan dirinya tidak stabil dengan urutan teks yang lebih panjang, jadi lebih suka menggunakan MSE+BCE atau Just-MSE (jangan keberatan jika Anda mendapatkan keberpihakan yang buruk di Tensorboard).

3 Reproduksibilitas

Anda dapat memeriksa sintesis demo wavfile (diperoleh jauh sebelum konvergensi) di folder demo (menggunakan vocoder waveglow).

Pertama -tama, pastikan Anda telah menginstal semua paket menggunakan pip install --upgrade -r requirements.txt . Kode diuji menggunakan pytorch==1.5.0
Klon The Repository: git clone https://github.com/ivanvovk/DurrIAN
Untuk memulai pelatihan versi durian berbasis kertas, jalankan python train.py -c configs/default.json . Anda dapat menentukan untuk melatih model baseline sebagai python train.py -c configs/baseline.json --baseline

Untuk memastikan bahwa semuanya berfungsi dengan baik di lingkungan lokal Anda, Anda dapat menjalankan tes unit di folder tests dengan python <test_you_want_to_run.py> .

4 model pretrained

Implementasi ini dilatih menggunakan dataset LJSPEECH yang selaras dengan durasi fonemized dengan minimalisasi kehilangan durasi BCE. Anda mungkin menemukannya melalui tautan ini.

5 Masalah Penyelarasan Dataset

Kelemahan utama dari model ini membutuhkan dataset yang selaras dengan durasi. Anda dapat menemukan daftar file ljspeech yang diuraikan yang digunakan dalam pelatihan implementasi saat ini di folder filelists . Untuk menggunakan data Anda, pastikan Anda telah mengatur daftar file Anda dengan cara yang sama seperti yang disediakan LJSpeech. Namun, untuk menghemat waktu dan neuron otak Anda, Anda dapat mencoba melatih model pada dataset Anda tanpa durasi-selaras menggunakan pretrained pada model durasi LJSpeech dari pos pemeriksaan model saya (tidak dicoba). Tetapi jika Anda tertarik untuk menyelaraskan dataset pribadi, ikuti dengan cermat bagian berikutnya.

6 Cara Menyelaraskan Data Anda Sendiri

Dalam percobaan saya, saya menyelaraskan LJSPEECH dengan Montreal Forced Alignment Tool. Jika di sini ada sesuatu yang tidak jelas, silakan, ikuti instruksi dalam dokumen Toolkit. Untuk memulainya, menyelaraskan algoritma memiliki beberapa langkah:

Atur dataset Anda dengan benar. MFA mengharuskannya berada dalam satu folder struktur {utterance_id.lab, utterance_id.wav}. Pastikan semua teks Anda dari format .lab .
Unduh rilis MFA dan ikuti instruksi instalasi melalui tautan ini.
Setelah selesai dengan MFA, Anda memerlukan Kamus Kata Dataset Anda dengan transkripsi fonem. Di sini Anda memiliki beberapa opsi:
1. (Coba ini pertama) Unduh yang Sudah Dilakukan Kamus dari daftar model pretrained MFA (di bagian bawah halaman). Dalam implementasi saat ini saya telah menggunakan kamus arpabet bahasa Inggris. Berikut ini bisa menjadi masalah: Jika dataset Anda berisi beberapa kata yang hilang di kamus, MFA mungkin gagal untuk menguraikannya di masa depan dan melewatkan file dataset tersebut. Anda dapat melewatinya atau mencoba untuk preprocess dataset Anda dengan sesuai dengan kamus atau menambahkan kata -kata yang hilang dengan tangan (jika tidak terlalu banyak dari mereka).
2. Anda dapat menghasilkan kamus dengan model G2P pretrained dari daftar model pretrained MFA menggunakan perintah bin/mfa_generate_dictionary /path/to/model_g2p.zip /path/to/data dict.txt . Perhatikan, instalasi MFA default itu akan secara otomatis memberi Anda model pretrained bahasa Inggris, yang dapat Anda gunakan.
3. Dalam kasus lain, Anda harus melatih model G2P Anda sendiri pada data Anda. Untuk melatih model Anda, ikuti instruksi melalui tautan ini.
Setelah data Anda menyiapkan data, Kamus dan Model G2P, sekarang Anda siap untuk diselaraskan. Jalankan perintah bin/mfa_align /path/to/data dict.txt path/to/model_g2p.zip outdir . Tunggu sampai selesai. Folder outdir akan berisi daftar kata -kata kosa kata dan folder dengan file khusus format .TextGrid , di mana penyelarasan WAV disimpan.
Sekarang kami ingin memproses file grid teks ini untuk mendapatkan daftar file akhir. Di sini Anda mungkin menemukan Python Package TextGrid . Instal menggunakan pip install TextGrid . Di sini contoh cara menggunakannya:
```
 import textgrid
tg = textgrid.TextGrid.fromFile('./outdir/data/text0.TextGrid')
```
Sekarang tg adalah set dua objek: yang pertama berisi kata -kata yang selaras, yang kedua berisi fonem yang selaras. Anda membutuhkan yang kedua. Ekstrak durasi (dalam bingkai! tg memiliki interval dalam hitungan detik, sehingga dikonversi) untuk seluruh dataset dengan mengulangi file .TextGrid yang diperoleh dan menyiapkan daftar file dalam format yang sama seperti yang saya berikan di folder filelists .

Saya menemukan gambaran beberapa pelurus. Mungkin itu akan membantu. Namun, saya sarankan Anda untuk menggunakan MFA karena ini adalah salah satu pelurus paling akurat, sepengetahuan terbaik saya.

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode Sumber AI
Waktu Pembaruan 2025-09-14
ukuran 3.65MB
Berasal dari Github

Aplikasi Terkait

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
pytorch image models

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
ML stack

Kode Sumber AI

1.0.0
awesome free chatgpt

Kode Sumber AI

1.0.0
pywin_contextmenu

Kode Sumber AI

Version update
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua