Code d'inférence et poids des modèles pour l'article "Une approche de modélisation du langage des TT hébreux sans diacritique" (Interspeech 2024).

Résumé: Nous abordons la tâche du texte vocal (TTS) en hébreu. L'hébreu traditionnel contient des diacritiques («niqqud»), qui dictent la façon dont les individus devraient prononcer des mots donnés, cependant, l'hébreu moderne les utilise rarement. L'absence de diacritiques dans l'hébreu moderne entraîne des lecteurs à conclure la prononciation correcte et à comprendre quels phonèmes utiliser en fonction du contexte. Cela impose un défi fondamental aux systèmes TTS pour cartographier avec précision entre le texte à la dissection. Dans cette étude, nous proposons d'adopter une approche TTS sans modélisation du langage sans diacritique, pour la tâche des TT hébreux. Le modèle linguistique (LM) fonctionne sur des représentations de la parole discrètes et est conditionné sur un tokenzer de mots. Nous optimisons la méthode proposée en utilisant des enregistrements faiblement supervisés dans les fenêtres et le comparez à plusieurs systèmes Hébreux TTS à base de diacritique. Les résultats suggèrent que la méthode proposée est supérieure aux lignes de base évaluées compte tenu de la préservation du contenu et du naturel de la parole générée.
Vous pouvez essayer notre modèle dans la démo Google Colab.
git clone https://github.com/slp-rl/HebTTS.gitNous publions notre point de contrôle dans Google Drive. Modèle AR formé pour les étapes de 1,2 m et le modèle NAR pour 200 000 étapes sur HeBDB.
gdown 11NoOJzMLRX9q1C_Q4sX0w2b9miiDjGrvpip install torch torchaudio
pip install torchmetrics
pip install omegaconf
pip install git+https://github.com/lhotse-speech/lhotse
pip install librosa
pip install encodec
pip install phonemizer
pip install audiocraft # optional Vous pouvez jouer avec le modèle avec différents haut-parleurs et invites de texte.
Run infer.py :
python infer.py --checkpoint checkpoint.pt --output-dir ./out --text "היי מה קורה"
Vous pouvez spécifier des arguments supplémentaires --speaker et --top-k .
Conseil
Nous permettons d'utiliser le nouveau vocodeur de diffusion multi-bandes (MBD) pour générer un meilleur audio de Quallity. Installez Audiocraft et définissez --mbd True Flag.
Vous pouvez concaténer les invites de texte en utilisant | ou spécifiez un chemin d'accès d'un fichier texte diffusé par n si l'écriture de l'hébreu dans le terminal est gênante.
תגידו גנבו לכם פעם את האוטו ופשוט ידעתם שאין טעם להגיש תלונה במשטרה
היי מה קורה
בראשית היתה חללית מסוג נחתת
et courir
python infer.py --checkpoint checkpoint.pt --output-dir ./out --text example.txt
Vous pouvez utiliser le haut-parleur défini dans speakers.yaml , ou ajouter des haut-parleurs supplémentaires. Spécifiez les fichiers WAV et la transcription dans le même format.
--speaker shaul
@article { roth2024language ,
title = { A Language Modeling Approach to Diacritic-Free Hebrew TTS } ,
author = { Roth, Amit and Turetzky, Arnon and Adi, Yossi } ,
journal = { arXiv preprint arXiv:2407.12206 } ,
year = { 2024 }
}valle est basé sur la mise en œuvre de Feiteng Li.