TTS-Dataset-Prompts
[Sebagian besar ditinggalkan, maaf!]
Repositori ini bertujuan untuk menjadi satu set kalimat yang layak untuk orang -orang yang ingin mengkloning suara mereka sendiri (misalnya menggunakan Tacotron 2).
Setiap set 50 baris bertujuan untuk memenuhi kriteria berikut:
- Setiap fonem diwakili setidaknya sekali, menurut CMUDICT (versi vokal yang ditekankan secara berbeda dihitung sebagai fonem terpisah; konsonan perlu hadir dua kali)
- Setiap fonem kira -kira sesering mungkin dalam pidato reguler (antara 50% dan 150% frekuensi yang ada di Moby Dick, kecuali fonem hanya hadir 4 atau lebih sedikit dalam batch)
- Setiap baris memiliki panjang kira-kira sama ketika diucapkan (14-18 suku kata + tanda baca non-final)
- Kata-kata dengan pengucapan yang bergantung pada konteks (kecuali yang sangat umum, seperti
the dihindari untuk kemudahan pemrosesan - Setidaknya 10 baris berisi koma
- Setidaknya 10 baris terdiri dari beberapa kalimat yang lebih pendek (sehingga AI belajar berhenti secara alami)
File teks tambahan akan disediakan untuk pertanyaan pertanyaan dan seru, mengikuti aturan yang sama. Mereka telah dipisahkan karena beberapa arsitektur teks-ke-unggun berurusan buruk dengan tanda baca akhir yang mempengaruhi intonasi seluruh kalimat. Mungkin bermanfaat untuk menggunakan ini untuk melatih model yang terpisah, seperti yang direkomendasikan oleh Talqu dan seperti yang dilakukan untuk beberapa suara dalam Layanan Mekatron (mati).
Repo ini menggunakan pustaka G2P-EN untuk menentukan jumlah fonem, untuk mencocokkan fonetisasi Uberduck.
Set prompt bagus lainnya
- (Multilingual!) Microsoft CustomVoice Contoh skrip (tidak semua daftar prompt dirancang dengan baik, misalnya prompt obrolan en-AS hanya menyertakan / ʒ / sebagai bagian dari kata "indonesia")
- Rainbow Passage and Grandfather Passage (lengkap secara fonetis)
- Daftar Prompt Arktik CMU (Seimbang secara Fonetis, tetapi hanya satu kalimat per baris)
- Mocha-timit ("Dirancang untuk memasukkan proses bicara yang terhubung utama dalam bahasa Inggris (mis. Asimilations, bentuk lemah ..)")
- Timit (tumpukan sebagian besar kalimat acak)
- (multibahasa!) Kalimat suara umum (sama sekali tidak seimbang secara fonetis, juga cukup pendek)
- Transkrip ljspeech (fragmen kalimat berlimpah, yang secara pribadi saya anggap berguna)
- Kalimat Harvard (seimbang secara fonetis, tetapi hanya satu kalimat per baris dan semuanya sama panjangnya)
- Daftar tuning yang cepat-cepat (baik bahasa Inggris maupun Cina, tetapi kalimat yang sangat singkat dan tata bahasa tidak sempurna)