Скачать HebTTS - загрузка исходного кода HebTTS

HebTTS

AI Исходный код

1.0.0

Скачать

Подход к языковому моделированию к еврейским TTS без диакрита (Interspeech 2024)

Код вывода и веса модели для статьи «Подход к языковому моделированию для еврейских TTS без диакрита» (Interspeech 2024).

Аннотация: Мы решаем задачу текста в речь (TTS) на иврите. Традиционный иврит содержит диакритику (`niqqud '), который определяет, как люди должны произносить слова, однако, современный иврит редко использует их. Отсутствие диаклитики в современном иврите приводит к тому, что читатели должны сделать завершение правильного произношения и понять, какие фонемы использовать на основе контекста. Это накладывает фундаментальную проблему в системах TTS для точной карты между текстом в речь. В этом исследовании мы предлагаем принять подход TTS без диаклитики, не содержащий языкового моделирования, для задачи ивритского TTS. Языковая модель (LM) работает на дискретных речевых представлениях и обусловлена токенизатором из слов. Мы оптимизируем предложенный метод с использованием слабо контролируемых записей в WILD и сравниваем его с несколькими диакритическими системами ивритовых TTS. Результаты показывают, что предлагаемый метод превосходит оцененные базовые показатели, учитывая как сохранение контента, так и естественность сгенерированной речи.

Попробуйте!

Вы можете попробовать нашу модель в демонстрации Google Colab.

Установка

git clone https://github.com/slp-rl/HebTTS.git

Мы публикуем наш контрольно -пропускной пункт в Google Drive. Модель AR обучена для 1,2 млн шагов и модели NAR для 200K шагов на HEBDB.

gdown 11NoOJzMLRX9q1C_Q4sX0w2b9miiDjGrv

Установить зависимости

pip install torch torchaudio
pip install torchmetrics
pip install omegaconf
pip install git+https://github.com/lhotse-speech/lhotse
pip install librosa
pip install encodec
pip install phonemizer
pip install audiocraft  # optional

Вывод

Вы можете играть с моделью с различными динамиками и текстовыми подсказками.

запустить infer.py :

 python infer.py  --checkpoint checkpoint.pt --output-dir ./out --text "היי מה קורה"

Вы можете указать дополнительные аргументы --speaker и --top-k .

Многопользовательская диффузия

Кончик

Мы позволяем использовать новый многополосный диффузионный (MBD) Vocoder для создания лучшего звука Quallity. Установите AudioCraft и Set --mbd True Flag.

Текст

Вы можете объединить текстовые подсказки с помощью | или укажите путь текстового файла, выпущенного n если написание иврита в терминале неудобно.

 תגידו גנבו לכם פעם את האוטו ופשוט ידעתם שאין טעם להגיש תלונה במשטרה
היי מה קורה
בראשית היתה חללית מסוג נחתת

и бежать

 python infer.py  --checkpoint checkpoint.pt --output-dir ./out --text example.txt

Докладчики

Вы можете использовать динамик, определенный в speakers.yaml или добавить дополнительные динамики. Укажите файлы WAV и транскрипцию в том же формате.

 --speaker shaul

Цитирование

 @article { roth2024language ,
  title = { A Language Modeling Approach to Diacritic-Free Hebrew TTS } ,
  author = { Roth, Amit and Turetzky, Arnon and Adi, Yossi } ,
  journal = { arXiv preprint arXiv:2407.12206 } ,
  year = { 2024 }
}