HebTTS下載HebTTS源代碼下載

HebTTS

Ai源碼

1.0.0

下載

一種無聲的希伯來語TTS的語言建模方法（Interspeech 2024）

推理代碼和模型權重的論文“一種無聲的希伯來語TTS的語言建模方法”（Interspeech 2024）。

摘要：我們在希伯來語中處理文本到語音（TTS）的任務。傳統的希伯來語包含變音符號（“ niqqud”），這決定了個人應給定單詞發音的方式，但是，現代希伯來語很少使用它們。現代希伯來語中缺乏變音術導致讀者期望結論正確的發音，並了解基於上下文使用的音素。這對TTS系統構成了基本挑戰，以準確地繪製文本到語音之間的映射。在這項研究中，我們建議採用一種無聲的TTS方法，以實現希伯來語TT的任務。語言模型（LM）以離散的語音表示形式運行，並以單詞式令牌為條件。我們使用野外弱監督的記錄優化了提出的方法，並將其與幾個基於變節的希伯來語TTS系統進行比較。結果表明，考慮到所產生的語音的內容保存和自然性，所提出的方法優於評估的基線。

嘗試一下！

您可以在Google COLAB演示中嘗試我們的模型。

安裝

git clone https://github.com/slp-rl/HebTTS.git

我們在Google Drive中發布我們的檢查站。 AR模型在HEBDB上培訓了1200萬步，用於200K步驟的NAR模型。

gdown 11NoOJzMLRX9q1C_Q4sX0w2b9miiDjGrv

安裝依賴項

pip install torch torchaudio
pip install torchmetrics
pip install omegaconf
pip install git+https://github.com/lhotse-speech/lhotse
pip install librosa
pip install encodec
pip install phonemizer
pip install audiocraft  # optional

推理

您可以使用不同的揚聲器和文本提示來使用模型。

運行infer.py ：py：

 python infer.py  --checkpoint checkpoint.pt --output-dir ./out --text "היי מה קורה"

您可以指定其他參數--speaker和--top-k 。

多條帶擴散

提示

我們允許使用新的多頻段擴散（MBD）Vocoder生成更好的Quallity音頻。安裝聽力和設置--mbd True標誌。

文字

您可以使用|串聯文本提示或指定如果在終端中寫希伯來語，則由n散佈的文本文件的路徑是不便的。

 תגידו גנבו לכם פעם את האוטו ופשוט ידעתם שאין טעם להגיש תלונה במשטרה
היי מה קורה
בראשית היתה חללית מסוג נחתת

並運行

 python infer.py  --checkpoint checkpoint.pt --output-dir ./out --text example.txt

演講者

您可以使用speakers.yaml中定義的揚聲器，或添加其他揚聲器。以相同格式指定WAV文件和轉錄。

 --speaker shaul

引用

 @article { roth2024language ,
  title = { A Language Modeling Approach to Diacritic-Free Hebrew TTS } ,
  author = { Roth, Amit and Turetzky, Arnon and Adi, Yossi } ,
  journal = { arXiv preprint arXiv:2407.12206 } ,
  year = { 2024 }
}