Unduh YourTTS - Unduh Kode Sumber YourTTS

YourTTS

Kode Sumber AI

MOS Samples

Unduh

Anda: Menuju TT multi-speaker nol-shot dan konversi suara nol-shot untuk semua orang

Dalam makalah kami baru -baru ini kami mengusulkan model YourTTS. YourTTS membawa kekuatan pendekatan multibahasa untuk tugas TT multi-speaker nol-shot. Metode kami dibangun di atas model VITS dan menambahkan beberapa modifikasi baru untuk pelatihan multi-speaker dan multibahasa nol-shot. Kami mencapai hasil canggih (SOTA) dalam TT multi-speaker nol-shot dan hasil yang sebanding dengan SOTA dalam konversi suara nol-shot pada dataset VCTK. Selain itu, pendekatan kami mencapai hasil yang menjanjikan dalam bahasa target dengan dataset speaker tunggal, kemungkinan membuka untuk TT multi-speaker nol-shot dan sistem konversi suara nol-shot dalam bahasa sumber daya rendah. Akhirnya, dimungkinkan untuk menyempurnakan model YourTTS dengan kurang dari 1 menit berbicara dan mencapai hasil canggih dalam kesamaan suara dan dengan kualitas yang masuk akal. Ini penting untuk memungkinkan sintesis bagi pembicara dengan suara atau karakteristik rekaman yang sangat berbeda dari yang terlihat selama pelatihan.

Ralat

Di bagian 2 dari makalah Anda, kami telah menentukan fungsi Kehilangan Konsistensi Pembicara (SCL). Selain itu, kami telah menggunakan fungsi kerugian ini pada 4 percobaan penyempurnaan di bagian 3 dan 4 (Exp. 1 + SCL, Exp. 2 + SCL, Exp. 3 + SCL, dan Exp. 4 + SCL). Namun, karena kesalahan implementasi, gradien fungsi kerugian ini tidak disebarkan untuk model selama pelatihan. Ini berarti bahwa eksperimen penyempurnaan yang menggunakan kerugian ini setara dengan melatih model untuk lebih banyak langkah tanpa kehilangan konsistensi pembicara. Bug ini ditemukan oleh Tomáš Nekvinda dan melaporkan nomor masalah 2348 dari repositori coqui tts. Bug ini ditetapkan pada nomor permintaan tarik 2364 pada repositori coqui tts. Saat ini, ditetapkan untuk versi coqui tts v0.12.0 atau lebih tinggi. Kami ingin mengucapkan terima kasih kepada Tomáš Nekvinda karena telah menemukan bug dan melaporkannya.

Versi produksi

Ayo coba model Fullband Bahasa Inggris Bahasa Inggris terbaru kami https://coqui.ai/

Sampel audios

Kunjungi situs web kami untuk sampel audio.

Pelaksanaan

Semua percobaan kami diimplementasikan pada repo coqui tts.

Demo colab

Demo	Url
TT Zero-shot	link
Zero-shot VC	link
Zero -Shot VC - Eksperimen 1 (dilatih hanya dengan VCTK)	link

Pos pemeriksaan

Semua pos pemeriksaan yang dirilis dilisensikan di bawah CC BY-NC-ND 4.0

Model	Url
Encoder pembicara	link
Exp 1. Yourtts-en (VCTK)	Tidak tersedia
Exp 1. Yourtts-en (VCTK) + SCL	link
Exp 2. Yourtts-en (VCTK) -pt	Tidak tersedia
EXP 2. YourTTS-EN (VCTK) -PT + SCL	Tidak tersedia
Exp 3. Yourtts-en (VCTK) -Pt-Fr	Tidak tersedia
Exp 3. YourTTS-EN (VCTK) -PT-FR SCL	Tidak tersedia
Exp 4. YourTTS-EN (VCTK+LIBLITTS) -PT-FR SCL	Tidak tersedia

Model yang dirilis coqui tts

Tts

Untuk menggunakan? TTS Versi V0.7.0 Dirilis Model YourTTS untuk Teks-ke-Speech Gunakan perintah berikut:

 tts  --text "This is an example!" --model_name tts_models/multilingual/multi-dataset/your_tts  --speaker_wav target_speaker_wav.wav --language_idx "en"

Mempertimbangkan "target_speaker_wav.wav" sampel audio dari speaker target.

Konversi suara

Untuk menggunakan? TTS Dirilis Model YourTTS untuk Konversi Suara Gunakan perintah berikut:

 tts --model_name tts_models/multilingual/multi-dataset/your_tts  --speaker_wav target_speaker_wav.wav --reference_wav  target_content_wav.wav --language_idx "en"

Mempertimbangkan "target_content_wav.wav" sebagai file gelombang referensi untuk dikonversi menjadi suara "target_speaker_wav.wav" speaker.

Hasil replikasi

Untuk memastikan replikasi, kami membuat audio yang digunakan untuk menghasilkan MOS yang tersedia di sini. Selain itu, kami menyediakan MOS untuk setiap audio di sini.

Untuk menghasilkan kembali hasil MOS kami, ikuti instruksi di sini. Untuk memprediksi kalimat pengujian dan menghasilkan SEC, silakan gunakan buku catatan Jupyter yang tersedia di sini.

Tes Speaker:

Libritts (Test Clean): 1188, 1995, 260, 1284, 2300, 237, 908, 1580, 121 dan 1089

VCTK: P261, P225, P294, P347, P238, P234, P248, P335, P245, P326 dan P302

MLS Portugis: 12710, 5677, 12249, 12287, 9351, 11995, 7925, 3050, 4367 dan 1306

Reproduktifitas

Untuk mereplikasi Eksperimen 1 sepenuhnya, kami memberikan resep tentang coqui tts. Resep ini mengunduh, membuat ulang, mengekstrak embeddings speaker dan melatih model tanpa perlu perubahan dalam kode.

Artikel itu dibuat menggunakan coqui tts fork saya di cabang multibahasa-torchaudio-se.

Jika Anda ingin menggunakan versi terbaru dari coqui tts, Anda bisa mendapatkan config.json dari model coqui yang dirilis.

Dengan config.json di tangan, Anda pertama -tama harus mengubah konfigurasi "dataset" ke dataset Anda. Menggunakan config.json dengan konfigurasi "Dataset" disesuaikan Anda perlu mengekstrak embedding speaker menggunakan encoder speaker kami yang dirilis menggunakan perintah berikut: python3 TTS/bin/compute_embeddings.py --model_path model_se.pth.tar --config_path config_se.json --config_dataset_path config.json --output_path d_vector_file.json

"model_se.pth.tar" dan "config_se.json" dapat ditemukan dalam model yang dirilis Coqui sementara config.json adalah konfigurasi yang Anda atur untuk jalurnya.

Parameter lain yang harus Anda ubah ada di "config.json":

"d_vector_file": Sekarang Anda memiliki file embedding speaker (d_vector_file.json) Sesuaikan parameter "d_vector_file" pada pengaturan konfigurasi ke jalur file embedding speaker.
"output_path": jalur untuk menyimpan pos pemeriksaan dan log pelatihan
"speaker_encoder_config_path": Konfigurasi encoder speaker yang akan digunakan untuk menghitung kerugian kesamaan cosinus speaker/kehilangan konsistensi speaker (atur ke jalur config_se.json)
"speaker_encoder_model_path": Pos Pemeriksaan Encoder Speaker Digunakan untuk Menghitung Kehilangan Kesamaan Cosinus Pembicara/Kehilangan Konsistensi Speaker (Setel ke jalur "config_se.json")

Sekarang Anda memiliki config.json yang dikonfigurasi untuk mereplikasi pelatihan yang dapat Anda gunakan untuk menggunakan perintah berikut (jika Anda suka Anda dapat menggunakan ---Restore_Path {checkpoint_path} untuk melakukan transfer pembelajaran dari pos pemeriksaan dan mempercepat pelatihan: python3 TTS/bin/train_tts.py --config_path config.json

Kutipan

Pracetak


@ARTICLE{2021arXiv211202418C,
  author = {{Casanova}, Edresson and {Weber}, Julian and {Shulby}, Christopher and {Junior}, Arnaldo Candido and {G{"o}lge}, Eren and {Antonelli Ponti}, Moacir},
  title = "{YourTTS: Towards Zero-Shot Multi-Speaker TTS and Zero-Shot Voice Conversion for everyone}",
  journal = {arXiv e-prints},
  keywords = {Computer Science - Sound, Computer Science - Computation and Language, Electrical Engineering and Systems Science - Audio and Speech Processing},
  year = 2021,
  month = dec,
  eid = {arXiv:2112.02418},
  pages = {arXiv:2112.02418},
  archivePrefix = {arXiv},
  eprint = {2112.02418},
  primaryClass = {cs.SD},
  adsurl = {https://ui.adsabs.harvard.edu/abs/2021arXiv211202418C},
  adsnote = {Provided by the SAO/NASA Astrophysics Data System}
}

Makalah yang diterbitkan di ICML

 @inproceedings{casanova2022yourtts,
  title={Yourtts: Towards zero-shot multi-speaker tts and zero-shot voice conversion for everyone},
  author={Casanova, Edresson and Weber, Julian and Shulby, Christopher D and Junior, Arnaldo Candido and G{"o}lge, Eren and Ponti, Moacir A},
  booktitle={International Conference on Machine Learning},
  pages={2709--2720},
  year={2022},
  organization={PMLR}
}

Memperluas

Informasi Tambahan

Versi MOS Samples
Tipe Kode Sumber AI
Waktu Pembaruan 2025-09-14
ukuran 94.83MB
Berasal dari Github

Aplikasi Terkait

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
ML stack

Kode Sumber AI

1.0.0
awesome free chatgpt

Kode Sumber AI

1.0.0
pywin_contextmenu

Kode Sumber AI

Version update
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua