Outetts-0.1-350m: Metode sintesis teks-ke-speech baru dengan fungsi kloning suara nol-artikel AI

Penulis：Eve Cole Waktu Pembaruan：2025-02-13 03:32:01

Oute AI telah meluncurkan metode sintesis teks-ke-speech baru yang disebut Outetts-0.1-350m, model TTS yang disederhanakan berdasarkan arsitektur LLAMA. Itu tidak memerlukan adaptor eksternal, secara langsung menggunakan WavTokenizer untuk menghasilkan tag audio, dan memiliki fungsi kloning suara nol sampel, yang dapat menyalin suara baru hanya dalam beberapa detik audio referensi. Parameter model relatif kecil dalam skala, tetapi dapat mencapai kinerja yang sebanding dengan sistem yang lebih besar dan lebih kompleks, dan kompatibel dengan llama.cpp, membuatnya ideal untuk aplikasi real-time. Efisiensi dan kemudahan penggunaannya membuatnya memiliki berbagai prospek aplikasi di bidang -bidang seperti asisten yang dipersonalisasi, buku audio, dan lokalisasi konten.

Baru-baru ini, Oute AI merilis metode sintesis teks-ke-speech baru yang disebut Outetts-0.1-350m. Pendekatan ini menggunakan pemodelan bahasa murni tanpa adaptor eksternal atau arsitektur yang kompleks, memberikan pendekatan TTS yang disederhanakan. Outetts-0.1-350m didasarkan pada arsitektur LLAMA, menggunakan WavTokenizer untuk secara langsung menghasilkan tag audio, membuat proses lebih efisien.

Model ini memiliki kloning suara nol sampel, dan dapat menyalin suara baru hanya dalam beberapa detik audio referensi. Outetts-0.1-350m dirancang untuk kinerja perangkat dan kompatibel dengan llama.cpp, menjadikannya ideal untuk aplikasi real-time. Meskipun model ini memiliki ukuran parameter yang relatif kecil (350 juta), kinerjanya sebanding dengan sistem TTS yang lebih besar dan lebih kompleks.

Aksesibilitas dan efisiensi Outetts-0.1-350m membuatnya cocok untuk berbagai aplikasi, termasuk asisten yang dipersonalisasi, buku audio, dan lokalisasi konten. Oute AI, dirilis di bawah lisensi CC-BY, mendorong eksperimen dan integrasi lebih lanjut ke dalam berbagai proyek untuk mendemokratisasi teknologi TTS canggih.

Rilis Outetts-0.1-350m menandai langkah utama ke depan dalam teknologi teks-ke-pidato, yang memanfaatkan arsitektur yang disederhanakan untuk memberikan sintesis ucapan berkualitas tinggi dengan persyaratan komputasi minimal. Ini mengintegrasikan arsitektur LLAMA, menggunakan WavTokenizer, dan mampu melakukan kloning suara nol-sampel tanpa adaptor yang kompleks, yang membedakannya dari model TTS tradisional.

Alamat: https://www.outeai.com/blog/outetts-0.1-350m

Outetts-0.1-350m dari arsitektur yang efisien dan disederhanakan dan fungsi kloning suara nol sampel membawa kemungkinan baru untuk teknologi teks-ke-kebesaran dan memberi pengembang alat yang lebih nyaman dan mudah digunakan. Karakteristik open sourcenya telah mempromosikan pengembangan teknologi dan mempopulerkan aplikasi di bidang ini.