HebTTS
1.0.0
推理代码和模型权重的论文“一种无声的希伯来语TTS的语言建模方法”(Interspeech 2024)。

摘要:我们在希伯来语中处理文本到语音(TTS)的任务。传统的希伯来语包含变音符号(“ niqqud”),这决定了个人应给定单词发音的方式,但是,现代希伯来语很少使用它们。现代希伯来语中缺乏变音术导致读者期望结论正确的发音,并了解基于上下文使用的音素。这对TTS系统构成了基本挑战,以准确地绘制文本到语音之间的映射。在这项研究中,我们建议采用一种无声的TTS方法,以实现希伯来语TT的任务。语言模型(LM)以离散的语音表示形式运行,并以单词式令牌为条件。我们使用野外弱监督的记录优化了提出的方法,并将其与几个基于变节的希伯来语TTS系统进行比较。结果表明,考虑到所产生的语音的内容保存和自然性,所提出的方法优于评估的基线。
您可以在Google COLAB演示中尝试我们的模型。
git clone https://github.com/slp-rl/HebTTS.git我们在Google Drive中发布我们的检查站。 AR模型在HEBDB上培训了1200万步,用于200K步骤的NAR模型。
gdown 11NoOJzMLRX9q1C_Q4sX0w2b9miiDjGrvpip install torch torchaudio
pip install torchmetrics
pip install omegaconf
pip install git+https://github.com/lhotse-speech/lhotse
pip install librosa
pip install encodec
pip install phonemizer
pip install audiocraft # optional 您可以使用不同的扬声器和文本提示来使用模型。
运行infer.py :py:
python infer.py --checkpoint checkpoint.pt --output-dir ./out --text "היי מה קורה"
您可以指定其他参数--speaker和--top-k 。
提示
我们允许使用新的多频段扩散(MBD)Vocoder生成更好的Quallity音频。安装听力和设置--mbd True标志。
您可以使用|串联文本提示或指定如果在终端中写希伯来语,则由n散布的文本文件的路径是不便的。
תגידו גנבו לכם פעם את האוטו ופשוט ידעתם שאין טעם להגיש תלונה במשטרה
היי מה קורה
בראשית היתה חללית מסוג נחתת
并运行
python infer.py --checkpoint checkpoint.pt --output-dir ./out --text example.txt
您可以使用speakers.yaml中定义的扬声器,或添加其他扬声器。以相同格式指定WAV文件和转录。
--speaker shaul
@article { roth2024language ,
title = { A Language Modeling Approach to Diacritic-Free Hebrew TTS } ,
author = { Roth, Amit and Turetzky, Arnon and Adi, Yossi } ,
journal = { arXiv preprint arXiv:2407.12206 } ,
year = { 2024 }
}valle内部的模型代码基于Feiteng Li的实施。