Код вывода и веса модели для статьи «Подход к языковому моделированию для еврейских TTS без диакрита» (Interspeech 2024).

Аннотация: Мы решаем задачу текста в речь (TTS) на иврите. Традиционный иврит содержит диакритику (`niqqud '), который определяет, как люди должны произносить слова, однако, современный иврит редко использует их. Отсутствие диаклитики в современном иврите приводит к тому, что читатели должны сделать завершение правильного произношения и понять, какие фонемы использовать на основе контекста. Это накладывает фундаментальную проблему в системах TTS для точной карты между текстом в речь. В этом исследовании мы предлагаем принять подход TTS без диаклитики, не содержащий языкового моделирования, для задачи ивритского TTS. Языковая модель (LM) работает на дискретных речевых представлениях и обусловлена токенизатором из слов. Мы оптимизируем предложенный метод с использованием слабо контролируемых записей в WILD и сравниваем его с несколькими диакритическими системами ивритовых TTS. Результаты показывают, что предлагаемый метод превосходит оцененные базовые показатели, учитывая как сохранение контента, так и естественность сгенерированной речи.
Вы можете попробовать нашу модель в демонстрации Google Colab.
git clone https://github.com/slp-rl/HebTTS.gitМы публикуем наш контрольно -пропускной пункт в Google Drive. Модель AR обучена для 1,2 млн шагов и модели NAR для 200K шагов на HEBDB.
gdown 11NoOJzMLRX9q1C_Q4sX0w2b9miiDjGrvpip install torch torchaudio
pip install torchmetrics
pip install omegaconf
pip install git+https://github.com/lhotse-speech/lhotse
pip install librosa
pip install encodec
pip install phonemizer
pip install audiocraft # optional Вы можете играть с моделью с различными динамиками и текстовыми подсказками.
запустить infer.py :
python infer.py --checkpoint checkpoint.pt --output-dir ./out --text "היי מה קורה"
Вы можете указать дополнительные аргументы --speaker и --top-k .
Кончик
Мы позволяем использовать новый многополосный диффузионный (MBD) Vocoder для создания лучшего звука Quallity. Установите AudioCraft и Set --mbd True Flag.
Вы можете объединить текстовые подсказки с помощью | или укажите путь текстового файла, выпущенного n если написание иврита в терминале неудобно.
תגידו גנבו לכם פעם את האוטו ופשוט ידעתם שאין טעם להגיש תלונה במשטרה
היי מה קורה
בראשית היתה חללית מסוג נחתת
и бежать
python infer.py --checkpoint checkpoint.pt --output-dir ./out --text example.txt
Вы можете использовать динамик, определенный в speakers.yaml или добавить дополнительные динамики. Укажите файлы WAV и транскрипцию в том же формате.
--speaker shaul
@article { roth2024language ,
title = { A Language Modeling Approach to Diacritic-Free Hebrew TTS } ,
author = { Roth, Amit and Turetzky, Arnon and Adi, Yossi } ,
journal = { arXiv preprint arXiv:2407.12206 } ,
year = { 2024 }
}valle основан на реализации Feiteng Li.