Código de inferência e pesos do modelo para o artigo "Uma abordagem de modelagem de idiomas para o Hebraico TTS sem diacrítico" (Interspeech 2024).

Resumo: Abordamos a tarefa de texto em fala (TTS) em hebraico. O hebraico tradicional contém diacríticos (`niqqud '), que ditam a maneira como os indivíduos devem pronunciar dadas as palavras, no entanto, o hebraico moderno raramente os usa. A falta de diacríticas no hebraico moderno resulta nos leitores que devem concluir a pronúncia correta e entender quais fonemas usar com base no contexto. Isso impõe um desafio fundamental aos sistemas TTS para mapear com precisão entre o texto e a fala. Neste estudo, propomos adotar uma abordagem TTS sem modelagem de idiomas, para a tarefa de Hebraico TTS. O modelo de idioma (LM) opera em representações discretas de fala e está condicionado em um tokenizador de peças de palavras. Otimizamos o método proposto usando gravações fracamente supervisionadas no wild e o comparamos a vários sistemas Hebraicos TTS baseados em diacrítica. Os resultados sugerem que o método proposto é superior às linhas de base avaliadas, considerando a preservação do conteúdo e a naturalidade da fala gerada.
Você pode tentar nosso modelo na demonstração do Google Colab.
git clone https://github.com/slp-rl/HebTTS.gitPublicamos nosso ponto de verificação no Google Drive. Modelo de AR treinado para 1,2 milhão de etapas e modelo NAR para 200 mil etapas no Hebdb.
gdown 11NoOJzMLRX9q1C_Q4sX0w2b9miiDjGrvpip install torch torchaudio
pip install torchmetrics
pip install omegaconf
pip install git+https://github.com/lhotse-speech/lhotse
pip install librosa
pip install encodec
pip install phonemizer
pip install audiocraft # optional Você pode brincar com o modelo com diferentes alto -falantes e avisos de texto.
Run infer.py :
python infer.py --checkpoint checkpoint.pt --output-dir ./out --text "היי מה קורה"
Você pode especificar argumentos adicionais --speaker e --top-k .
Dica
Permitimos o uso do novo vocoder de difusão de várias bandas (MBD) para gerar um áudio de quallity melhor. Instale o Audiocraft e o Set --mbd True Flag.
Você pode concatenar os avisos de texto usando | ou especifique um caminho de um arquivo de texto espalhado por n se escrever o hebraico no terminal for inconveniente.
תגידו גנבו לכם פעם את האוטו ופשוט ידעתם שאין טעם להגיש תלונה במשטרה
היי מה קורה
בראשית היתה חללית מסוג נחתת
e correr
python infer.py --checkpoint checkpoint.pt --output-dir ./out --text example.txt
Você pode usar o alto -falante definido em speakers.yaml ou adicionar alto -falantes adicionais. Especifique arquivos WAV e transcrição no mesmo formato.
--speaker shaul
@article { roth2024language ,
title = { A Language Modeling Approach to Diacritic-Free Hebrew TTS } ,
author = { Roth, Amit and Turetzky, Arnon and Adi, Yossi } ,
journal = { arXiv preprint arXiv:2407.12206 } ,
year = { 2024 }
}valle é baseado na implementação de Feiteng Li.