Téléchargement HebTTS - Téléchargement du code source HebTTS

HebTTS

Code Source AI

1.0.0

Télécharger

Une approche de modélisation des langues des TT hébreux sans diacritique (IntelleSpeech 2024)

Code d'inférence et poids des modèles pour l'article "Une approche de modélisation du langage des TT hébreux sans diacritique" (Interspeech 2024).

Résumé: Nous abordons la tâche du texte vocal (TTS) en hébreu. L'hébreu traditionnel contient des diacritiques («niqqud»), qui dictent la façon dont les individus devraient prononcer des mots donnés, cependant, l'hébreu moderne les utilise rarement. L'absence de diacritiques dans l'hébreu moderne entraîne des lecteurs à conclure la prononciation correcte et à comprendre quels phonèmes utiliser en fonction du contexte. Cela impose un défi fondamental aux systèmes TTS pour cartographier avec précision entre le texte à la dissection. Dans cette étude, nous proposons d'adopter une approche TTS sans modélisation du langage sans diacritique, pour la tâche des TT hébreux. Le modèle linguistique (LM) fonctionne sur des représentations de la parole discrètes et est conditionné sur un tokenzer de mots. Nous optimisons la méthode proposée en utilisant des enregistrements faiblement supervisés dans les fenêtres et le comparez à plusieurs systèmes Hébreux TTS à base de diacritique. Les résultats suggèrent que la méthode proposée est supérieure aux lignes de base évaluées compte tenu de la préservation du contenu et du naturel de la parole générée.

Essayez-le!

Vous pouvez essayer notre modèle dans la démo Google Colab.

Installation

git clone https://github.com/slp-rl/HebTTS.git

Nous publions notre point de contrôle dans Google Drive. Modèle AR formé pour les étapes de 1,2 m et le modèle NAR pour 200 000 étapes sur HeBDB.

gdown 11NoOJzMLRX9q1C_Q4sX0w2b9miiDjGrv

Installer des dépendances

pip install torch torchaudio
pip install torchmetrics
pip install omegaconf
pip install git+https://github.com/lhotse-speech/lhotse
pip install librosa
pip install encodec
pip install phonemizer
pip install audiocraft  # optional

Inférence

Vous pouvez jouer avec le modèle avec différents haut-parleurs et invites de texte.

Run infer.py :

 python infer.py  --checkpoint checkpoint.pt --output-dir ./out --text "היי מה קורה"

Vous pouvez spécifier des arguments supplémentaires --speaker et --top-k .

Diffusion multi-bandes

Conseil

Nous permettons d'utiliser le nouveau vocodeur de diffusion multi-bandes (MBD) pour générer un meilleur audio de Quallity. Installez Audiocraft et définissez --mbd True Flag.

Texte

Vous pouvez concaténer les invites de texte en utilisant | ou spécifiez un chemin d'accès d'un fichier texte diffusé par n si l'écriture de l'hébreu dans le terminal est gênante.

 תגידו גנבו לכם פעם את האוטו ופשוט ידעתם שאין טעם להגיש תלונה במשטרה
היי מה קורה
בראשית היתה חללית מסוג נחתת

et courir

 python infer.py  --checkpoint checkpoint.pt --output-dir ./out --text example.txt

Conférenciers

Vous pouvez utiliser le haut-parleur défini dans speakers.yaml , ou ajouter des haut-parleurs supplémentaires. Spécifiez les fichiers WAV et la transcription dans le même format.

 --speaker shaul

Citation

 @article { roth2024language ,
  title = { A Language Modeling Approach to Diacritic-Free Hebrew TTS } ,
  author = { Roth, Amit and Turetzky, Arnon and Adi, Yossi } ,
  journal = { arXiv preprint arXiv:2407.12206 } ,
  year = { 2024 }
}