Código de inferencia y pesos del modelo para el documento "Un enfoque de modelado de lenguaje para TTS hebreos sin diacríticos" (Interspeech 2024).

Resumen: abordamos la tarea de texto a voz (TTS) en hebreo. El hebreo tradicional contiene diacríticos (`niqqud '), que dictan la forma en que los individuos deberían pronunciar palabras dadas, sin embargo, el hebreo moderno rara vez las usa. La falta de diacríticos en el hebreo moderno da como resultado que los lectores esperen concluir la pronunciación correcta y comprender qué fonemas usar en función del contexto. Esto impone un desafío fundamental en los sistemas TTS para mapear con precisión entre texto a voz. En este estudio, proponemos adoptar un enfoque de TTS sin diacrítico de modelado de idiomas, para la tarea de TTS hebreo. El modelo de idioma (LM) opera en representaciones discretas del habla y está condicionado a un tokenizador de palabras. Optimizamos el método propuesto utilizando grabaciones débilmente supervisadas y comparamos con varios sistemas TTS hebreos basados en diacríticos. Los resultados sugieren que el método propuesto es superior a las líneas de base evaluadas considerando tanto la preservación del contenido como la naturalidad del discurso generado.
Puede probar nuestro modelo en la demostración de Google Colab.
git clone https://github.com/slp-rl/HebTTS.gitPublicamos nuestro punto de control en Google Drive. Modelo AR entrenado para pasos de 1,2 m y modelo NAR para 200K pasos en HEBDB.
gdown 11NoOJzMLRX9q1C_Q4sX0w2b9miiDjGrvpip install torch torchaudio
pip install torchmetrics
pip install omegaconf
pip install git+https://github.com/lhotse-speech/lhotse
pip install librosa
pip install encodec
pip install phonemizer
pip install audiocraft # optional Puedes jugar con el modelo con diferentes altavoces y indicaciones de texto.
ejecutar infer.py :
python infer.py --checkpoint checkpoint.pt --output-dir ./out --text "היי מה קורה"
Puede especificar argumentos adicionales --speaker y --top-k .
Consejo
Permitimos usar el nuevo vocoder de difusión de múltiples bandas (MBD) para generar un mejor audio de QALALITY. Instale AudioCraft y establezca --mbd True Flag.
Puede concatenar las indicaciones de texto usando | o especifique una ruta de un archivo de texto endurecido por n si escribir hebreo en la terminal es inconveniente.
תגידו גנבו לכם פעם את האוטו ופשוט ידעתם שאין טעם להגיש תלונה במשטרה
היי מה קורה
בראשית היתה חללית מסוג נחתת
y correr
python infer.py --checkpoint checkpoint.pt --output-dir ./out --text example.txt
Puede usar el altavoz definido en speakers.yaml , o agregar altavoces adicionales. Especifique los archivos WAV y la transcripción en el mismo formato.
--speaker shaul
@article { roth2024language ,
title = { A Language Modeling Approach to Diacritic-Free Hebrew TTS } ,
author = { Roth, Amit and Turetzky, Arnon and Adi, Yossi } ,
journal = { arXiv preprint arXiv:2407.12206 } ,
year = { 2024 }
}valle se basa en la implementación de Feiteng Li.