Kode inferensi dan bobot model untuk makalah "Pendekatan Pemodelan Bahasa untuk TT Ibrani Bebas Diakritik" (Interspeech 2024).

Abstrak: Kami menangani tugas teks-ke-pidato (TTS) dalam bahasa Ibrani. Ibrani tradisional mengandung diakritik (`niqquud '), yang menentukan cara individu harus mengucapkan kata -kata yang diberikan, namun, bahasa Ibrani modern jarang menggunakannya. Kurangnya diakritik dalam hasil Ibrani modern pada pembaca diharapkan untuk menyimpulkan pengucapan yang benar dan memahami fonem mana yang akan digunakan berdasarkan konteks. Ini memaksakan tantangan mendasar pada sistem TTS untuk memetakan secara akurat antara teks-ke-pidato. Dalam penelitian ini, kami mengusulkan untuk mengadopsi pendekatan TTS bebas diakritik pemodelan bahasa, untuk tugas TTS Ibrani. Model Bahasa (LM) beroperasi pada representasi ucapan diskrit dan dikondisikan pada tokenizer kata-piece. Kami mengoptimalkan metode yang diusulkan menggunakan rekaman yang diawasi dengan lemah di bawah dan membandingkannya dengan beberapa sistem TTS Ibrani berbasis diakritik. Hasilnya menunjukkan metode yang diusulkan lebih unggul daripada baseline yang dievaluasi dengan mempertimbangkan pelestarian konten dan kealamian dari pidato yang dihasilkan.
Anda dapat mencoba model kami di demo Google Colab.
git clone https://github.com/slp-rl/HebTTS.gitKami menerbitkan pos pemeriksaan kami di Google Drive. Model AR dilatih untuk 1,2m langkah dan model NAR untuk langkah 200 ribu pada HEBDB.
gdown 11NoOJzMLRX9q1C_Q4sX0w2b9miiDjGrvpip install torch torchaudio
pip install torchmetrics
pip install omegaconf
pip install git+https://github.com/lhotse-speech/lhotse
pip install librosa
pip install encodec
pip install phonemizer
pip install audiocraft # optional Anda dapat bermain dengan model dengan speaker dan permintaan teks yang berbeda.
Jalankan infer.py :
python infer.py --checkpoint checkpoint.pt --output-dir ./out --text "היי מה קורה"
Anda dapat menentukan argumen tambahan --speaker dan --top-k .
Tip
Kami mengizinkan menggunakan vocoder multi band difusi (MBD) baru untuk menghasilkan audio kuarter yang lebih baik. Instal Audiocraft dan atur --mbd True Flag.
Anda dapat menggabungkan permintaan teks menggunakan | atau tentukan jalur file teks yang disperekukan oleh n jika menulis bahasa Ibrani di Terminal tidak nyaman.
תגידו גנבו לכם פעם את האוטו ופשוט ידעתם שאין טעם להגיש תלונה במשטרה
היי מה קורה
בראשית היתה חללית מסוג נחתת
dan lari
python infer.py --checkpoint checkpoint.pt --output-dir ./out --text example.txt
Anda dapat menggunakan speaker yang ditentukan dalam speakers.yaml , atau menambahkan speaker tambahan. Tentukan file WAV dan transkripsi dalam format yang sama.
--speaker shaul
@article { roth2024language ,
title = { A Language Modeling Approach to Diacritic-Free Hebrew TTS } ,
author = { Roth, Amit and Turetzky, Arnon and Adi, Yossi } ,
journal = { arXiv preprint arXiv:2407.12206 } ,
year = { 2024 }
}valle didasarkan pada implementasi Feiteng Li.