Unduh dc_tts - Unduh Kode Sumber dc

dc_tts

Kode Sumber AI

1.0.0

Unduh

Implementasi TensorFlow dari DC-TTS: Model Teks-ke-Tempat Lain

Saya mengimplementasikan model teks-ke-ucapan lain, DC-TTS, diperkenalkan dalam sistem teks-ke-speech yang dapat dilatih secara efisien berdasarkan jaringan konvolusional yang dalam dengan perhatian yang dipandu. Namun, tujuan saya bukan hanya meniru kertas. Sebaliknya, saya ingin mendapatkan wawasan tentang berbagai proyek suara.

Persyaratan

Numpy> = 1.11.1
TensorFlow> = 1.3 (Perhatikan bahwa API tf.contrib.layers.layer_norm telah berubah sejak 1.3)
librosa
TQDM
matplotlib
SCIPY

Data

Saya melatih model bahasa Inggris dan model Korea pada empat dataset pidato yang berbeda.

1. Dataset Pidato LJ
2. Buku audio Nick Offerman
3. Audiobook Kate Winslet
4. Dataset KSS

Dataset LJ Speech baru -baru ini banyak digunakan sebagai dataset tolok ukur dalam tugas TTS karena tersedia untuk umum, dan memiliki 24 jam sampel kualitas yang wajar. Buku audio Nick's dan Kate juga digunakan untuk melihat apakah model dapat belajar bahkan dengan lebih sedikit data, sampel ucapan variabel. Mereka masing -masing 18 jam dan panjangnya 5 jam. Akhirnya, KSS Dataset adalah dataset pidato pembicara tunggal Korea yang berlangsung lebih dari 12 jam.

Pelatihan

Langkah 0. Unduh Dataset Pidato LJ atau persiapkan data Anda sendiri.
Langkah 1. Sesuaikan parameter hiper di hyperparams.py . (Jika Anda ingin melakukan preprocessing, atur Prepro True`.
Langkah 2. Jalankan python train.py 1 untuk pelatihan Text2mel. (Jika Anda mengatur prepro true, jalankan python prepro.py pertama)
Langkah 3. Jalankan python train.py 2 untuk pelatihan ssrn.

Anda dapat melakukan langkah 2 dan 3 secara bersamaan, jika Anda memiliki lebih dari satu kartu GPU.

Kurva pelatihan

Plot perhatian

Sintesis sampel

Saya menghasilkan sampel ucapan berdasarkan kalimat Harvard seperti yang dilakukan kertas asli. Ini sudah termasuk dalam repo.

Jalankan synthesize.py dan periksa file dalam samples .

Sampel yang dihasilkan

Dataset	Sampel
LJ	50K 200K 310K 800K
Nick	40K 170K 300K 800K
Kate	40K 160K 300K 800K
KSS	400K

Model Pretrain untuk LJ

Unduh ini.

Catatan

Kertas itu tidak menyebutkan normalisasi, tetapi tanpa normalisasi saya tidak bisa membuatnya bekerja. Jadi saya menambahkan normalisasi lapisan.
Makalah ini memperbaiki tingkat pembelajaran menjadi 0,001, tetapi itu tidak berhasil untuk saya. Jadi saya membusuknya.
Saya mencoba melatih Text2Mel dan SSRN secara bersamaan, tetapi tidak berhasil. Saya kira memisahkan kedua jaringan itu mengurangi beban pelatihan.
Para penulis mengklaim bahwa model tersebut dapat dilatih dalam sehari, tetapi sayangnya keberuntungan itu bukan milik saya. Namun jelas ini jauh lebih baik daripada Tacotron karena hanya menggunakan lapisan konvolusi.
Berkat perhatian yang dipandu, plot perhatian terlihat monotonik hampir sejak awal. Saya kira ini sepertinya menahan aligmen sehingga tidak akan kehilangan jejak.
Kertas itu tidak menyebutkan putus sekolah. Saya menerapkannya karena saya percaya itu membantu regularisasi.
Periksa juga model TTS lainnya seperti Tacotron dan Deep Voice 3.

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode Sumber AI
Waktu Pembaruan 2025-08-23
ukuran 3.08MB
Berasal dari Github

Aplikasi Terkait

F5 TTS ComfyUI

2024-11-02
Permainan Legiun Kegelapan DC

2024-04-29
Game seluler DC Legion of Darkness

2024-04-27
Tentara Kegelapan DC

2023-07-17
Tentara Kegelapan DC

2023-07-17
Versi King of Fighters 98dc

2023-04-21

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
ML stack

Kode Sumber AI

1.0.0
awesome free chatgpt

Kode Sumber AI

1.0.0
pywin_contextmenu

Kode Sumber AI

Version update
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua