HebTTS
1.0.0
推理代碼和模型權重的論文“一種無聲的希伯來語TTS的語言建模方法”(Interspeech 2024)。

摘要:我們在希伯來語中處理文本到語音(TTS)的任務。傳統的希伯來語包含變音符號(“ niqqud”),這決定了個人應給定單詞發音的方式,但是,現代希伯來語很少使用它們。現代希伯來語中缺乏變音術導致讀者期望結論正確的發音,並了解基於上下文使用的音素。這對TTS系統構成了基本挑戰,以準確地繪製文本到語音之間的映射。在這項研究中,我們建議採用一種無聲的TTS方法,以實現希伯來語TT的任務。語言模型(LM)以離散的語音表示形式運行,並以單詞式令牌為條件。我們使用野外弱監督的記錄優化了提出的方法,並將其與幾個基於變節的希伯來語TTS系統進行比較。結果表明,考慮到所產生的語音的內容保存和自然性,所提出的方法優於評估的基線。
您可以在Google COLAB演示中嘗試我們的模型。
git clone https://github.com/slp-rl/HebTTS.git我們在Google Drive中發布我們的檢查站。 AR模型在HEBDB上培訓了1200萬步,用於200K步驟的NAR模型。
gdown 11NoOJzMLRX9q1C_Q4sX0w2b9miiDjGrvpip install torch torchaudio
pip install torchmetrics
pip install omegaconf
pip install git+https://github.com/lhotse-speech/lhotse
pip install librosa
pip install encodec
pip install phonemizer
pip install audiocraft # optional 您可以使用不同的揚聲器和文本提示來使用模型。
運行infer.py :py:
python infer.py --checkpoint checkpoint.pt --output-dir ./out --text "היי מה קורה"
您可以指定其他參數--speaker和--top-k 。
提示
我們允許使用新的多頻段擴散(MBD)Vocoder生成更好的Quallity音頻。安裝聽力和設置--mbd True標誌。
您可以使用|串聯文本提示或指定如果在終端中寫希伯來語,則由n散佈的文本文件的路徑是不便的。
תגידו גנבו לכם פעם את האוטו ופשוט ידעתם שאין טעם להגיש תלונה במשטרה
היי מה קורה
בראשית היתה חללית מסוג נחתת
並運行
python infer.py --checkpoint checkpoint.pt --output-dir ./out --text example.txt
您可以使用speakers.yaml中定義的揚聲器,或添加其他揚聲器。以相同格式指定WAV文件和轉錄。
--speaker shaul
@article { roth2024language ,
title = { A Language Modeling Approach to Diacritic-Free Hebrew TTS } ,
author = { Roth, Amit and Turetzky, Arnon and Adi, Yossi } ,
journal = { arXiv preprint arXiv:2407.12206 } ,
year = { 2024 }
}valle內部的模型代碼基於Feiteng Li的實施。