Download do HebTTS - Download do código -fonte HebTTS

HebTTS

Código-Fonte de IA

1.0.0

Baixar

Uma abordagem de modelagem de idiomas para o Hebraico TTS sem diacrítico (Intespeech 2024)

Código de inferência e pesos do modelo para o artigo "Uma abordagem de modelagem de idiomas para o Hebraico TTS sem diacrítico" (Interspeech 2024).

Resumo: Abordamos a tarefa de texto em fala (TTS) em hebraico. O hebraico tradicional contém diacríticos (`niqqud '), que ditam a maneira como os indivíduos devem pronunciar dadas as palavras, no entanto, o hebraico moderno raramente os usa. A falta de diacríticas no hebraico moderno resulta nos leitores que devem concluir a pronúncia correta e entender quais fonemas usar com base no contexto. Isso impõe um desafio fundamental aos sistemas TTS para mapear com precisão entre o texto e a fala. Neste estudo, propomos adotar uma abordagem TTS sem modelagem de idiomas, para a tarefa de Hebraico TTS. O modelo de idioma (LM) opera em representações discretas de fala e está condicionado em um tokenizador de peças de palavras. Otimizamos o método proposto usando gravações fracamente supervisionadas no wild e o comparamos a vários sistemas Hebraicos TTS baseados em diacrítica. Os resultados sugerem que o método proposto é superior às linhas de base avaliadas, considerando a preservação do conteúdo e a naturalidade da fala gerada.

Experimente!

Você pode tentar nosso modelo na demonstração do Google Colab.

Instalação

git clone https://github.com/slp-rl/HebTTS.git

Publicamos nosso ponto de verificação no Google Drive. Modelo de AR treinado para 1,2 milhão de etapas e modelo NAR para 200 mil etapas no Hebdb.

gdown 11NoOJzMLRX9q1C_Q4sX0w2b9miiDjGrv

Instalar dependências

pip install torch torchaudio
pip install torchmetrics
pip install omegaconf
pip install git+https://github.com/lhotse-speech/lhotse
pip install librosa
pip install encodec
pip install phonemizer
pip install audiocraft  # optional

Inferência

Você pode brincar com o modelo com diferentes alto -falantes e avisos de texto.

Run infer.py :

 python infer.py  --checkpoint checkpoint.pt --output-dir ./out --text "היי מה קורה"

Você pode especificar argumentos adicionais --speaker e --top-k .

Difusão de várias bandas

Dica

Permitimos o uso do novo vocoder de difusão de várias bandas (MBD) para gerar um áudio de quallity melhor. Instale o Audiocraft e o Set --mbd True Flag.

Texto

Você pode concatenar os avisos de texto usando | ou especifique um caminho de um arquivo de texto espalhado por n se escrever o hebraico no terminal for inconveniente.

 תגידו גנבו לכם פעם את האוטו ופשוט ידעתם שאין טעם להגיש תלונה במשטרה
היי מה קורה
בראשית היתה חללית מסוג נחתת

e correr

 python infer.py  --checkpoint checkpoint.pt --output-dir ./out --text example.txt

Alto -falantes

Você pode usar o alto -falante definido em speakers.yaml ou adicionar alto -falantes adicionais. Especifique arquivos WAV e transcrição no mesmo formato.

 --speaker shaul

Citação

 @article { roth2024language ,
  title = { A Language Modeling Approach to Diacritic-Free Hebrew TTS } ,
  author = { Roth, Amit and Turetzky, Arnon and Adi, Yossi } ,
  journal = { arXiv preprint arXiv:2407.12206 } ,
  year = { 2024 }
}