Bilibili baru-baru ini merilis model teks-ke-pidato yang disebut IndextTS. Model ini didasarkan pada XTT dan teknologi kura-kura dan mengadopsi arsitektur gaya GPT. Saat memproses teks Cina, sistem inovatif ini memiliki fungsi pengucapan karakter Cina koreksi pinyin yang unik, dan dapat secara akurat mengontrol jeda pada posisi apa pun melalui tanda baca. Pengenalan teknologi ini membuat efek teks-ke-speech lebih alami dan halus, sangat meningkatkan pengalaman pengguna dan menarik perhatian luas.
Setelah puluhan ribu jam pelatihan data, sistem IndextTS telah mencapai kepemimpinan industri dalam kinerja, melampaui sistem TTS populer saat ini, seperti XTTS, CosyVoice2, Fish-Speech dan F5-TTS. Beberapa modul sistem telah dioptimalkan secara mendalam, terutama dengan peningkatan signifikan dalam representasi fitur bersyarat speaker dan kualitas audio. Dengan memperkenalkan pemodelan hybrid, IndextTS dapat dengan cepat memperbaiki karakter Cina yang salah, lebih lanjut meningkatkan pengalaman pengguna.
Model ini mengadopsi encoder bersyarat terbaru dan decoder suara berbasis bigvgan2, yang tidak hanya meningkatkan stabilitas pelatihan, tetapi juga meningkatkan kesamaan dan kualitas suara suara. Tim R&D mengatakan mereka telah mengirimkan makalah yang relevan tentang ARXIV dan berencana untuk merilis parameter model dan kode dalam beberapa minggu ke depan. Selain itu, IndextTs juga menyediakan berbagai set tes, termasuk kosakata multi-label dan set tinjauan subyektif dan obyektif untuk analisis mendalam oleh para peneliti.
IndextTS berkinerja baik dalam beberapa ulasan, terutama dalam hal tingkat kesalahan kata (WER) dan Speaker kesamaan (SS), yang mengungguli banyak model sebaya. Misalnya, dalam tes Mandarin, tingkat kesalahan kata IndextTS hanya 1,3%, yang jauh lebih rendah dari kinerja model lain, menunjukkan akurasi dan stabilitasnya yang kuat. Pada saat yang sama, dalam evaluasi kualitas suara, skor MOS IndextTS juga mencapai 4,01, menunjukkan kualitas dan nada suara yang sangat baik.
Dengan kemajuan teknologi yang berkelanjutan dan perluasan skenario aplikasi, rilis IndextTS menandai kemajuan teknologi teks-ke-kebesaran ke tingkat yang lebih tinggi. Untuk informasi lebih lanjut tentang sistem, pengguna dapat menghubungi tim yang relevan untuk pengalaman pengguna terperinci dan dukungan teknis.
Alamat Proyek: https://github.com/index-tts/index-tts