Dalam makalah kami baru -baru ini kami mengusulkan model YourTTS. YourTTS membawa kekuatan pendekatan multibahasa untuk tugas TT multi-speaker nol-shot. Metode kami dibangun di atas model VITS dan menambahkan beberapa modifikasi baru untuk pelatihan multi-speaker dan multibahasa nol-shot. Kami mencapai hasil canggih (SOTA) dalam TT multi-speaker nol-shot dan hasil yang sebanding dengan SOTA dalam konversi suara nol-shot pada dataset VCTK. Selain itu, pendekatan kami mencapai hasil yang menjanjikan dalam bahasa target dengan dataset speaker tunggal, kemungkinan membuka untuk TT multi-speaker nol-shot dan sistem konversi suara nol-shot dalam bahasa sumber daya rendah. Akhirnya, dimungkinkan untuk menyempurnakan model YourTTS dengan kurang dari 1 menit berbicara dan mencapai hasil canggih dalam kesamaan suara dan dengan kualitas yang masuk akal. Ini penting untuk memungkinkan sintesis bagi pembicara dengan suara atau karakteristik rekaman yang sangat berbeda dari yang terlihat selama pelatihan.
Di bagian 2 dari makalah Anda, kami telah menentukan fungsi Kehilangan Konsistensi Pembicara (SCL). Selain itu, kami telah menggunakan fungsi kerugian ini pada 4 percobaan penyempurnaan di bagian 3 dan 4 (Exp. 1 + SCL, Exp. 2 + SCL, Exp. 3 + SCL, dan Exp. 4 + SCL). Namun, karena kesalahan implementasi, gradien fungsi kerugian ini tidak disebarkan untuk model selama pelatihan. Ini berarti bahwa eksperimen penyempurnaan yang menggunakan kerugian ini setara dengan melatih model untuk lebih banyak langkah tanpa kehilangan konsistensi pembicara. Bug ini ditemukan oleh Tomáš Nekvinda dan melaporkan nomor masalah 2348 dari repositori coqui tts. Bug ini ditetapkan pada nomor permintaan tarik 2364 pada repositori coqui tts. Saat ini, ditetapkan untuk versi coqui tts v0.12.0 atau lebih tinggi. Kami ingin mengucapkan terima kasih kepada Tomáš Nekvinda karena telah menemukan bug dan melaporkannya.
Ayo coba model Fullband Bahasa Inggris Bahasa Inggris terbaru kami https://coqui.ai/
Kunjungi situs web kami untuk sampel audio.
Semua percobaan kami diimplementasikan pada repo coqui tts.
| Demo | Url |
|---|---|
| TT Zero-shot | link |
| Zero-shot VC | link |
| Zero -Shot VC - Eksperimen 1 (dilatih hanya dengan VCTK) | link |
Semua pos pemeriksaan yang dirilis dilisensikan di bawah CC BY-NC-ND 4.0
| Model | Url |
|---|---|
| Encoder pembicara | link |
| Exp 1. Yourtts-en (VCTK) | Tidak tersedia |
| Exp 1. Yourtts-en (VCTK) + SCL | link |
| Exp 2. Yourtts-en (VCTK) -pt | Tidak tersedia |
| EXP 2. YourTTS-EN (VCTK) -PT + SCL | Tidak tersedia |
| Exp 3. Yourtts-en (VCTK) -Pt-Fr | Tidak tersedia |
| Exp 3. YourTTS-EN (VCTK) -PT-FR SCL | Tidak tersedia |
| Exp 4. YourTTS-EN (VCTK+LIBLITTS) -PT-FR SCL | Tidak tersedia |
Untuk menggunakan? TTS Versi V0.7.0 Dirilis Model YourTTS untuk Teks-ke-Speech Gunakan perintah berikut:
tts --text "This is an example!" --model_name tts_models/multilingual/multi-dataset/your_tts --speaker_wav target_speaker_wav.wav --language_idx "en"
Mempertimbangkan "target_speaker_wav.wav" sampel audio dari speaker target.
Untuk menggunakan? TTS Dirilis Model YourTTS untuk Konversi Suara Gunakan perintah berikut:
tts --model_name tts_models/multilingual/multi-dataset/your_tts --speaker_wav target_speaker_wav.wav --reference_wav target_content_wav.wav --language_idx "en"
Mempertimbangkan "target_content_wav.wav" sebagai file gelombang referensi untuk dikonversi menjadi suara "target_speaker_wav.wav" speaker.
Untuk memastikan replikasi, kami membuat audio yang digunakan untuk menghasilkan MOS yang tersedia di sini. Selain itu, kami menyediakan MOS untuk setiap audio di sini.
Untuk menghasilkan kembali hasil MOS kami, ikuti instruksi di sini. Untuk memprediksi kalimat pengujian dan menghasilkan SEC, silakan gunakan buku catatan Jupyter yang tersedia di sini.
Libritts (Test Clean): 1188, 1995, 260, 1284, 2300, 237, 908, 1580, 121 dan 1089
VCTK: P261, P225, P294, P347, P238, P234, P248, P335, P245, P326 dan P302
MLS Portugis: 12710, 5677, 12249, 12287, 9351, 11995, 7925, 3050, 4367 dan 1306
Untuk mereplikasi Eksperimen 1 sepenuhnya, kami memberikan resep tentang coqui tts. Resep ini mengunduh, membuat ulang, mengekstrak embeddings speaker dan melatih model tanpa perlu perubahan dalam kode.
Artikel itu dibuat menggunakan coqui tts fork saya di cabang multibahasa-torchaudio-se.
Jika Anda ingin menggunakan versi terbaru dari coqui tts, Anda bisa mendapatkan config.json dari model coqui yang dirilis.
Dengan config.json di tangan, Anda pertama -tama harus mengubah konfigurasi "dataset" ke dataset Anda. Menggunakan config.json dengan konfigurasi "Dataset" disesuaikan Anda perlu mengekstrak embedding speaker menggunakan encoder speaker kami yang dirilis menggunakan perintah berikut: python3 TTS/bin/compute_embeddings.py --model_path model_se.pth.tar --config_path config_se.json --config_dataset_path config.json --output_path d_vector_file.json
"model_se.pth.tar" dan "config_se.json" dapat ditemukan dalam model yang dirilis Coqui sementara config.json adalah konfigurasi yang Anda atur untuk jalurnya.
Parameter lain yang harus Anda ubah ada di "config.json":
Sekarang Anda memiliki config.json yang dikonfigurasi untuk mereplikasi pelatihan yang dapat Anda gunakan untuk menggunakan perintah berikut (jika Anda suka Anda dapat menggunakan ---Restore_Path {checkpoint_path} untuk melakukan transfer pembelajaran dari pos pemeriksaan dan mempercepat pelatihan: python3 TTS/bin/train_tts.py --config_path config.json
@ARTICLE{2021arXiv211202418C,
author = {{Casanova}, Edresson and {Weber}, Julian and {Shulby}, Christopher and {Junior}, Arnaldo Candido and {G{"o}lge}, Eren and {Antonelli Ponti}, Moacir},
title = "{YourTTS: Towards Zero-Shot Multi-Speaker TTS and Zero-Shot Voice Conversion for everyone}",
journal = {arXiv e-prints},
keywords = {Computer Science - Sound, Computer Science - Computation and Language, Electrical Engineering and Systems Science - Audio and Speech Processing},
year = 2021,
month = dec,
eid = {arXiv:2112.02418},
pages = {arXiv:2112.02418},
archivePrefix = {arXiv},
eprint = {2112.02418},
primaryClass = {cs.SD},
adsurl = {https://ui.adsabs.harvard.edu/abs/2021arXiv211202418C},
adsnote = {Provided by the SAO/NASA Astrophysics Data System}
}
@inproceedings{casanova2022yourtts,
title={Yourtts: Towards zero-shot multi-speaker tts and zero-shot voice conversion for everyone},
author={Casanova, Edresson and Weber, Julian and Shulby, Christopher D and Junior, Arnaldo Candido and G{"o}lge, Eren and Ponti, Moacir A},
booktitle={International Conference on Machine Learning},
pages={2709--2720},
year={2022},
organization={PMLR}
}