Unduh WhisperSpeech - Unduh Kode Sumber WhisperSpeech

WhisperSpeech

Kode Sumber AI

1.0.0

Unduh

Whisperspeech

Jika Anda memiliki pertanyaan atau Anda ingin membantu Anda dapat menemukan kami di saluran #audio-generasi di server Laion Discord.

Sistem teks-ke-ucapan sumber terbuka yang dibangun dengan membalikkan bisikan. Sebelumnya dikenal sebagai Spear-Tts-Pytorch .

Kami ingin model ini menjadi seperti difusi yang stabil tetapi untuk ucapan - baik yang kuat dan mudah disesuaikan.

Kami hanya bekerja dengan rekaman pidato berlisensi dengan benar dan semua kode adalah open source sehingga model akan selalu aman digunakan untuk aplikasi komersial.

Saat ini model dilatih pada dataset perpustakaan bahasa Inggris. Dalam rilis berikutnya kami ingin menargetkan beberapa bahasa (Whisper dan EncodeC keduanya multilanguage).

Sampel suara yang disintesis:

whisperspeech-sample.mp4

Pembaruan Kemajuan [2024-01-29]

Kami berhasil melatih model S2A tiny pada dataset EN+PL+FR dan dapat melakukan kloning suara dalam bahasa Prancis:

FR-VOICE-CLONE-2.mp4

FR-VOICE-CLONE-1.mp4

Kami dapat melakukan ini dengan token semantik beku yang hanya dilatih dalam bahasa Inggris dan Polandia. Ini mendukung gagasan bahwa kami akan dapat melatih model token semantik tunggal untuk mendukung semua bahasa di dunia. Kemungkinan besar bahkan yang saat ini tidak didukung dengan baik oleh model Whisper. Nantikan lebih banyak pembaruan di bagian depan ini. :)

Pembaruan Kemajuan [2024-01-18]

Kami menghabiskan minggu terakhir mengoptimalkan kinerja inferensi. Kami mengintegrasikan torch.compile .

Kami dapat mencampur bahasa dalam satu kalimat (di sini nama proyek bahasa Inggris yang disorot dengan mulus dicampur menjadi pidato Polandia):

Untuk bercanda tes pierwszy wielojęzycznego Whisper Speech modelu zamieniającego na mowę, który Collabora i Laion nauczyli na superkomputerze Jewels .

pl-en-mix.mp4

Kami juga menambahkan cara mudah untuk menguji kloning suara. Berikut adalah sampel suara yang dikloning dari pidato terkenal oleh Winston Churchill (Radio Static adalah fitur, bukan bug;) - itu adalah bagian dari rekaman referensi):

en-cloning.mp4

Anda dapat menguji semua ini di Colab (kami mengoptimalkan dependensi sehingga sekarang dibutuhkan kurang dari 30 detik untuk menginstal). Ruang permukaan pelukan akan segera hadir.

Pembaruan Kemajuan [2024-01-10]

Kami telah mendorong model SD S2A baru yang jauh lebih cepat saat masih menghasilkan pidato berkualitas tinggi. Kami juga telah menambahkan contoh kloning suara berdasarkan file audio referensi.

Seperti biasa, Anda dapat memeriksa Colab kami untuk mencobanya sendiri!

Pembaruan Kemajuan [2023-12-10]

Trio model lain, kali ini mereka mendukung berbagai bahasa (Inggris dan Polandia). Berikut adalah dua sampel baru untuk mengintip. Anda dapat memeriksa Colab kami untuk mencobanya sendiri!

Pidato Bahasa Inggris, Suara Wanita (ditransfer dari dataset bahasa Polandia):

whisperspeech-sample.mp4

Sampel Polandia, Suara Pria:

whisperspeech-sampel-pl.mp4

Pembaruan kemajuan yang lebih tua diarsipkan di sini

Unduhan

Kami mendorong Anda untuk memulai dengan tautan Google Colab di atas atau menjalankan notebook yang disediakan secara lokal. Jika Anda ingin mengunduh secara manual atau melatih model dari awal maka baik model pra-terlatih Whisperspeech serta dataset yang dikonversi tersedia di Huggingface.

Peta jalan

Kumpulkan dataset ucapan emosi yang lebih besar
Mencari cara untuk mengkondisikan generasi pada emosi dan prosodi
Buat upaya komunitas untuk mengumpulkan pidato berlisensi bebas dalam berbagai bahasa
Latih model multi-bahasa akhir

Arsitektur

Arsitektur umumnya mirip dengan Audiolm, tts tts dari Google dan Musicgen dari meta. Kami menghindari sindrom NIH dan membangunnya di atas model open source yang kuat: Whisper dari openai untuk menghasilkan token semantik dan melakukan transkripsi, encodec dari meta untuk pemodelan akustik dan voko dari ChARACTR Inc sebagai vokoder berkualitas tinggi.

Kami memberikan dua presentasi menyelam lebih dalam ke Whisperspeech. Yang pertama berbicara tentang tantangan pelatihan skala besar:

Trik yang dipelajari dari menskalakan model wisperspeech ke 80k+ jam pidato - perekaman video oleh Jakub Cłapa, Collabora

Yang lain sedikit lebih ke pilihan arsitektur yang kami buat:

Proyek teks-ke-ucapan open source: Whisperspeech-dalam diskusi mendalam

Berbisik untuk memodelkan token semantik

Kami menggunakan blok encoder Whisper Openai untuk menghasilkan embeddings yang kemudian kami kuantisasi untuk mendapatkan token semantik.

Jika bahasa sudah didukung oleh Whisper maka proses ini hanya membutuhkan file audio (tanpa transkripsi kebenaran ground).

Menggunakan Whisper untuk Diagram Ekstraksi Token Semantik

Encodec untuk pemodelan token akustik

Kami menggunakan EncodeC untuk memodelkan bentuk gelombang audio. Di luar kotak itu memberikan kualitas yang wajar pada 1.5kbps dan kami dapat membawa ini ke kualitas tinggi dengan menggunakan voco-vokoder yang diproduksi pada token encodec.

Diagram Blok EncodeC

Apresiasi

Logo Collabora Logo Laion

Pekerjaan ini tidak akan mungkin terjadi tanpa sponsor yang murah hati dari:

Collabora - Pengembangan Kode dan Pelatihan Model
Laion - Bangunan Komunitas dan Dataset (Terima kasih khusus
Jülich Supercomputing Center - Superkomputer Juwels Booster

Kami berterima kasih atas Gauss Center for Supercomputing EV (www.gauss-centre.eu) untuk mendanai bagian dari pekerjaan ini dengan menyediakan waktu komputasi melalui John von Neumann Institute for Computing (NIC) pada model superkomputer GCS yang disediakan melalui Compute Booster di Jülich Supercomputing Center (JSC), dengan akses ke Compute Booster di Jülich Supercomputing Center (JSC), dengan akses ke Compute Booster di Jülich Courecomputing Center (JSC), dengan akses ke Compute Booster di Jülich Supercomputing Center.

Kami juga ingin mengucapkan terima kasih kepada kontributor individu atas bantuannya dalam membangun model ini:

tak terhindarkan-2031 ( qwerty_qwer on discord) untuk kurasi dataset

Konsultan

Kami tersedia untuk membantu Anda dengan proyek AI open source dan eksklusif. Anda dapat menghubungi kami melalui situs web collabora atau di perselisihan (dan)

Kutipan

Kami mengandalkan banyak proyek open source yang luar biasa dan makalah penelitian:

 @article { SpearTTS ,
  title = { Speak, Read and Prompt: High-Fidelity Text-to-Speech with Minimal Supervision } ,
  url = { https://arxiv.org/abs/2302.03540 } ,
  author = { Kharitonov, Eugene and Vincent, Damien and Borsos, Zalán and Marinier, Raphaël and Girgin, Sertan and Pietquin, Olivier and Sharifi, Matt and Tagliasacchi, Marco and Zeghidour, Neil } ,
  publisher = { arXiv } ,
  year = { 2023 } ,
}

 @article { MusicGen ,
  title = { Simple and Controllable Music Generation } , 
  url = { https://arxiv.org/abs/2306.05284 } ,
  author = { Jade Copet and Felix Kreuk and Itai Gat and Tal Remez and David Kant and Gabriel Synnaeve and Yossi Adi and Alexandre Défossez } ,
  publisher = { arXiv } ,
  year = { 2023 } ,
}

 @article { Whisper
  title = { Robust Speech Recognition via Large-Scale Weak Supervision } ,
  url = { https://arxiv.org/abs/2212.04356 } ,
  author = { Radford, Alec and Kim, Jong Wook and Xu, Tao and Brockman, Greg and McLeavey, Christine and Sutskever, Ilya } ,
  publisher = { arXiv } ,
  year = { 2022 } ,
}

 @article { EnCodec
  title = { High Fidelity Neural Audio Compression } ,
  url = { https://arxiv.org/abs/2210.13438 } ,
  author = { Défossez, Alexandre and Copet, Jade and Synnaeve, Gabriel and Adi, Yossi } ,
  publisher = { arXiv } ,
  year = { 2022 } ,
}

 @article { Vocos
  title = { Vocos: Closing the gap between time-domain and Fourier-based neural vocoders for high-quality audio synthesis } , 
  url = { https://arxiv.org/abs/2306.00814 } ,
  author = { Hubert Siuzdak } ,
  publisher = { arXiv } ,
  year = { 2023 } ,
}

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode Sumber AI
Waktu Pembaruan 2025-08-21
ukuran 7.88MB
Berasal dari Github

Aplikasi Terkait

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
ML stack

Kode Sumber AI

1.0.0
awesome free chatgpt

Kode Sumber AI

1.0.0
pywin_contextmenu

Kode Sumber AI

Version update
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua