Unduh HebTTS - Unduh Kode Sumber HebTTS

HebTTS

Kode Sumber AI

1.0.0

Unduh

Pendekatan Pemodelan Bahasa untuk TT Ibrani Bebas Diakritik (Interspeech 2024)

Kode inferensi dan bobot model untuk makalah "Pendekatan Pemodelan Bahasa untuk TT Ibrani Bebas Diakritik" (Interspeech 2024).

Abstrak: Kami menangani tugas teks-ke-pidato (TTS) dalam bahasa Ibrani. Ibrani tradisional mengandung diakritik (`niqquud '), yang menentukan cara individu harus mengucapkan kata -kata yang diberikan, namun, bahasa Ibrani modern jarang menggunakannya. Kurangnya diakritik dalam hasil Ibrani modern pada pembaca diharapkan untuk menyimpulkan pengucapan yang benar dan memahami fonem mana yang akan digunakan berdasarkan konteks. Ini memaksakan tantangan mendasar pada sistem TTS untuk memetakan secara akurat antara teks-ke-pidato. Dalam penelitian ini, kami mengusulkan untuk mengadopsi pendekatan TTS bebas diakritik pemodelan bahasa, untuk tugas TTS Ibrani. Model Bahasa (LM) beroperasi pada representasi ucapan diskrit dan dikondisikan pada tokenizer kata-piece. Kami mengoptimalkan metode yang diusulkan menggunakan rekaman yang diawasi dengan lemah di bawah dan membandingkannya dengan beberapa sistem TTS Ibrani berbasis diakritik. Hasilnya menunjukkan metode yang diusulkan lebih unggul daripada baseline yang dievaluasi dengan mempertimbangkan pelestarian konten dan kealamian dari pidato yang dihasilkan.

Cobalah!

Anda dapat mencoba model kami di demo Google Colab.

Instalasi

git clone https://github.com/slp-rl/HebTTS.git

Kami menerbitkan pos pemeriksaan kami di Google Drive. Model AR dilatih untuk 1,2m langkah dan model NAR untuk langkah 200 ribu pada HEBDB.

gdown 11NoOJzMLRX9q1C_Q4sX0w2b9miiDjGrv

Instal dependensi

pip install torch torchaudio
pip install torchmetrics
pip install omegaconf
pip install git+https://github.com/lhotse-speech/lhotse
pip install librosa
pip install encodec
pip install phonemizer
pip install audiocraft  # optional

Kesimpulan

Anda dapat bermain dengan model dengan speaker dan permintaan teks yang berbeda.

Jalankan infer.py :

 python infer.py  --checkpoint checkpoint.pt --output-dir ./out --text "היי מה קורה"

Anda dapat menentukan argumen tambahan --speaker dan --top-k .

Difusi multi band

Tip

Kami mengizinkan menggunakan vocoder multi band difusi (MBD) baru untuk menghasilkan audio kuarter yang lebih baik. Instal Audiocraft dan atur --mbd True Flag.

Teks

Anda dapat menggabungkan permintaan teks menggunakan | atau tentukan jalur file teks yang disperekukan oleh n jika menulis bahasa Ibrani di Terminal tidak nyaman.

 תגידו גנבו לכם פעם את האוטו ופשוט ידעתם שאין טעם להגיש תלונה במשטרה
היי מה קורה
בראשית היתה חללית מסוג נחתת

dan lari

 python infer.py  --checkpoint checkpoint.pt --output-dir ./out --text example.txt

Pembicara

Anda dapat menggunakan speaker yang ditentukan dalam speakers.yaml , atau menambahkan speaker tambahan. Tentukan file WAV dan transkripsi dalam format yang sama.

 --speaker shaul

Kutipan

 @article { roth2024language ,
  title = { A Language Modeling Approach to Diacritic-Free Hebrew TTS } ,
  author = { Roth, Amit and Turetzky, Arnon and Adi, Yossi } ,
  journal = { arXiv preprint arXiv:2407.12206 } ,
  year = { 2024 }
}