Inferenzcode und Modellgewichte für das Papier "Ein Sprachmodellierungsansatz für diakritisch-freie hebräische TTs" (Interspeech 2024).

Zusammenfassung: Wir befassen uns mit der Aufgabe von Text-to-Speech (TTS) auf Hebräisch. Das traditionelle Hebräisch enthält Diakritik ("Niqqud"), die die Art und Weise bestimmen, wie Einzelpersonen gegebene Wörter aussprechen sollten, aber das moderne Hebräer verwendet sie selten. Das Fehlen von Diakritikern im modernen hebräischen Leser führt dazu, dass die Leser die korrekte Aussprache abschließen und verstehen, welche Phoneme auf der Grundlage des Kontextes verwendet werden sollen. Dies führt zu einer grundlegenden Herausforderung für TTS-Systeme, um zwischen Text und Sprache genau zu kartieren. In dieser Studie schlagen wir vor, einen diakritisch-freien TTS-Ansatz der Sprachmodellierung für die Aufgabe des hebräischen TTS zu verfolgen. Das Sprachmodell (LM) arbeitet mit diskreten Sprachdarstellungen und ist auf einem WORT-Stück-Tokenizer konditioniert. Wir optimieren die vorgeschlagene Methode mit schwach beaufsichtigten Aufzeichnungen in der Welt und vergleichen es mit mehreren diakritischen hebräischen TTS-Systemen. Die Ergebnisse legen nahe, dass die vorgeschlagene Methode den bewerteten Baselines unter Berücksichtigung der Erhaltung der Inhalte und der Natürlichkeit der erzeugten Sprache überlegen ist.
Sie können unser Modell in der Google Colab -Demo ausprobieren.
git clone https://github.com/slp-rl/HebTTS.gitWir veröffentlichen unseren Checkpoint in Google Drive. AR -Modell, das für 1,2M -Schritte und NAR -Modell für 200K -Schritte auf Hebdb trainiert wurde.
gdown 11NoOJzMLRX9q1C_Q4sX0w2b9miiDjGrvpip install torch torchaudio
pip install torchmetrics
pip install omegaconf
pip install git+https://github.com/lhotse-speech/lhotse
pip install librosa
pip install encodec
pip install phonemizer
pip install audiocraft # optional Sie können mit dem Modell mit verschiedenen Lautsprechern und Textaufforderungen spielen.
Run infer.py :
python infer.py --checkpoint checkpoint.pt --output-dir ./out --text "היי מה קורה"
Sie können zusätzliche Argumente angeben --speaker und --top-k .
Tipp
Wir ermöglichen die Verwendung des neuen Vocoders mit Multi -Band -Diffusion (MBD) zur Erzeugung eines besseren Quallity -Audio. Installieren Sie Audiocraft und setzen Sie --mbd True Flag.
Sie können Texteingabeaufforderungen mit | verkettet oder geben Sie einen Pfad einer von n gesperederten Textdatei an, wenn das Schreiben von Hebräisch im Terminal unpraktisch ist.
תגידו גנבו לכם פעם את האוטו ופשוט ידעתם שאין טעם להגיש תלונה במשטרה
היי מה קורה
בראשית היתה חללית מסוג נחתת
und rennen
python infer.py --checkpoint checkpoint.pt --output-dir ./out --text example.txt
Sie können den in speakers.yaml definierten Lautsprecher verwenden oder zusätzliche Lautsprecher hinzufügen. Geben Sie WAV -Dateien und Transkription im selben Format an.
--speaker shaul
@article { roth2024language ,
title = { A Language Modeling Approach to Diacritic-Free Hebrew TTS } ,
author = { Roth, Amit and Turetzky, Arnon and Adi, Yossi } ,
journal = { arXiv preprint arXiv:2407.12206 } ,
year = { 2024 }
}valle basiert auf der Implementierung von Funktiong Li.