
Kertas | Situs web
Seperti yang kami rinci dalam makalah dan situs web kami, keuntungan dari OpenVoice adalah tiga kali lipat:
1. Kloning warna nada akurat. OpenVoice dapat secara akurat mengkloning warna nada referensi dan menghasilkan ucapan dalam berbagai bahasa dan aksen.
2. Kontrol gaya suara yang fleksibel. OpenVoice memungkinkan kontrol granular atas gaya suara, seperti emosi dan aksen, serta parameter gaya lainnya termasuk ritme, jeda, dan intonasi.
3. Kloning suara lintas-bahasa Zero-shot. Tak satu pun dari bahasa pidato yang dihasilkan maupun bahasa pidato referensi perlu disajikan dalam dataset pelatihan multi-bahasa-speaker besar-besaran.
Pada bulan April 2024, kami merilis OpenVoice V2, yang mencakup semua fitur di V1 dan memiliki:
1. Kualitas audio yang lebih baik. OpenVoice V2 mengadopsi strategi pelatihan yang berbeda yang memberikan kualitas audio yang lebih baik.
2. Dukungan multi-bahasa asli. Bahasa Inggris, Spanyol, Prancis, Cina, Jepang, dan Korea secara asli didukung di OpenVoice v2.
3. Penggunaan komersial gratis. Mulai dari April 2024, baik V2 dan V1 dirilis di bawah lisensi MIT. Gratis untuk penggunaan komersial.
OpenVoice telah mendukung kemampuan kloning suara instan myshell.ai sejak Mei 2023. Sampai November 2023, model kloning suara telah digunakan puluhan juta kali oleh pengguna di seluruh dunia, dan menyaksikan pertumbuhan pengguna yang meledak pada platform.
Silakan lihat penggunaan untuk instruksi terperinci.
Silakan lihat QA untuk pertanyaan dan jawaban umum. Kami akan secara teratur memperbarui daftar pertanyaan dan jawaban.
@article{qin2023openvoice,
title={OpenVoice: Versatile Instant Voice Cloning},
author={Qin, Zengyi and Zhao, Wenliang and Yu, Xumin and Sun, Xin},
journal={arXiv preprint arXiv:2312.01479},
year={2023}
}
OpenVoice V1 dan V2 berlisensi MIT. Gratis untuk penggunaan komersial dan penelitian.
Implementasi ini didasarkan pada beberapa proyek yang sangat baik, TTS, VIT, dan VITS2. Terima kasih atas pekerjaan mereka yang luar biasa!