HebTTS下载HebTTS源代码下载

HebTTS

Ai源码

1.0.0

下载

一种无声的希伯来语TTS的语言建模方法（Interspeech 2024）

推理代码和模型权重的论文“一种无声的希伯来语TTS的语言建模方法”（Interspeech 2024）。

摘要：我们在希伯来语中处理文本到语音（TTS）的任务。传统的希伯来语包含变音符号（“ niqqud”），这决定了个人应给定单词发音的方式，但是，现代希伯来语很少使用它们。现代希伯来语中缺乏变音术导致读者期望结论正确的发音，并了解基于上下文使用的音素。这对TTS系统构成了基本挑战，以准确地绘制文本到语音之间的映射。在这项研究中，我们建议采用一种无声的TTS方法，以实现希伯来语TT的任务。语言模型（LM）以离散的语音表示形式运行，并以单词式令牌为条件。我们使用野外弱监督的记录优化了提出的方法，并将其与几个基于变节的希伯来语TTS系统进行比较。结果表明，考虑到所产生的语音的内容保存和自然性，所提出的方法优于评估的基线。

尝试一下！

您可以在Google COLAB演示中尝试我们的模型。

安装

git clone https://github.com/slp-rl/HebTTS.git

我们在Google Drive中发布我们的检查站。 AR模型在HEBDB上培训了1200万步，用于200K步骤的NAR模型。

gdown 11NoOJzMLRX9q1C_Q4sX0w2b9miiDjGrv

安装依赖项

pip install torch torchaudio
pip install torchmetrics
pip install omegaconf
pip install git+https://github.com/lhotse-speech/lhotse
pip install librosa
pip install encodec
pip install phonemizer
pip install audiocraft  # optional

推理

您可以使用不同的扬声器和文本提示来使用模型。

运行infer.py ：py：

 python infer.py  --checkpoint checkpoint.pt --output-dir ./out --text "היי מה קורה"

您可以指定其他参数--speaker和--top-k 。

多条带扩散

提示

我们允许使用新的多频段扩散（MBD）Vocoder生成更好的Quallity音频。安装听力和设置--mbd True标志。

文本

您可以使用|串联文本提示或指定如果在终端中写希伯来语，则由n散布的文本文件的路径是不便的。

 תגידו גנבו לכם פעם את האוטו ופשוט ידעתם שאין טעם להגיש תלונה במשטרה
היי מה קורה
בראשית היתה חללית מסוג נחתת

并运行

 python infer.py  --checkpoint checkpoint.pt --output-dir ./out --text example.txt

演讲者

您可以使用speakers.yaml中定义的扬声器，或添加其他扬声器。以相同格式指定WAV文件和转录。

 --speaker shaul

引用

 @article { roth2024language ,
  title = { A Language Modeling Approach to Diacritic-Free Hebrew TTS } ,
  author = { Roth, Amit and Turetzky, Arnon and Adi, Yossi } ,
  journal = { arXiv preprint arXiv:2407.12206 } ,
  year = { 2024 }
}