Unduh ttts - Unduh Kode Sumber ttts

ttts

Kode Sumber AI

1.0.0

Unduh

Detailtts: Belajar informasi detail residu untuk teks-ke-tuan

gambar

Inspirasi

Sepengetahuan saya, metode dalam proyek ini adalah yang pertama dari jenisnya yang telah saya usulkan. Gagasan utama berasal dari pemodelan 'detail', karena saya telah bermasalah dengan fakta bahwa metode berbasis VQ (kuantisasi vektor) tidak dapat merekonstruksi audio dengan sangat baik, dan juga tidak ada cara untuk memodelkan residu ini. Namun, untuk VIT tradisional, ada cara untuk membuat beberapa sinyal pengawasan, seperti spektrum linier, atau dengan menggunakan embeddings yang dapat dipelajari untuk mempelajari durasi. Pengamatan ini pada akhirnya menyebabkan metode ini mencapai hasil yang sangat baik.

Demo

Kunjungi Halaman Demo

Memasang

Kunjungi model pra-terlatih

 pip install -e .

Pelatihan

1. Pelatihan tokenizer

Gunakan ttts/prepare/bpe_all_text_to_one_file.py untuk menggabungkan semua teks yang telah Anda kumpulkan. Untuk melatih tokenizer, periksa ttts/gpt/voice_tokenizer untuk info lebih lanjut.

2. Pelatihan VQVAE

Gunakan 1_vad_asr_save_to_jsonl.py dan 2_romanize_text.py ke dataset preprocess. Gunakan instruksi berikut untuk melatih model.

 accelerate launch ttts/vqvae/train_v3.py

Bahasa multi

Sekarang mendukung Cina, Inggris, Jepang, Korea.

Anda dapat menggunakan bahasa apa pun dengan model ini dengan dua langkah.

Pertama, kumpulkan banyak teks bahasa ini.
Kedua, latih ttts/gpt/voice_tokenizer untuk mendapatkan kamus.

Untuk bahasa Inggris, Anda dapat langsung menggunakan teks. Namun, untuk orang Cina, Anda perlu menggunakan pinyin, dan untuk bahasa Jepang, Anda perlu menggunakan romaji, memastikan untuk memasukkan informasi pengucapan dalam teks.

Kesimpulan

Silakan periksa detail inferensi api.py

Finetuning

Ubah jalur beban di train_v3.py dengan model pretrained, lalu latih. Tentang dataset, Anda harus preprocess teks dan jalur audio dan Latin. Anda dapat merujuk ke ttts/prepare/2_romanize_text.py untuk beberapa info.