TurkicTTS Download - TurkicTTS Quellcode Download

TurkicTTS

AI-Quellcode

1.0.0

Herunterladen

Türkikte
⌨️?

Dieses Repository bietet eine Demo und ein vorgebildetes Modell für das Papier
Mehrsprachige Text-zu-Sprache-Synthese für turkische Sprachen mithilfe der Transliteration

Sprachen

Das Modell unterstützt zehn türkische Sprachen, darunter Aserbaidschani, Bashkir, Kasach, Kirgisische, Sakha, Tatar, Türkisch, Turkmen, Uyghur und Usbek. Diese Sprachen über ein breites geografisches Gebiet, das sich vom Balkan über Zentralasien bis nach Nordosten von Sibirien erstreckt, haben eine breite Palette gemeinsamer sprachlicher Merkmale wie Vokalharmonie, umfangreicher Agglutination, Subjekt-Objekt-Verb-Ordnung und Abwesenheit von grammatikalischem Geschlecht und Artikeln.

Datensatz? Euen

Unsere Studie wurde dank eines großflächigen und offenen Sprachkorpus namens Kasachts2 machbar. Das Korpus enthält fünf Stimmen (drei Frauen und zwei Männer) und mehr als 270 Stunden hochwertiger transkribierter Daten. Kasachts2 ist öffentlich verfügbar, was sowohl den akademischen als auch den kommerziellen Gebrauch ermöglicht.

Ansatz ?

Um die Sprachsynthese für die türkischen Sprachen zu aktivieren, haben wir ein IPA-basierter Konvertierungsmodul erstellt. Der IPA-basierte Konverter nimmt Buchstaben aus den Alphabeten anderer türkischer Sprachen und wandelt sie in die Buchstaben des kasachischen Alphabets um. Zu diesem Zweck werden die eingegebenen Buchstaben zuerst in die entsprechenden IPA -Darstellungen umgewandelt. Als nächstes werden die IPA -Symbole in die Buchstaben des kasachischen Alphabets umgewandelt, die als Eingabe für die konstruierten TTS -Modelle verwendet werden können.

Die Zuordnungen der türkischen Alphabete an IPA-Symbole wurden manuell auf der Grundlage unseres Fachwissens erstellt, da wir keine vollständige Kartierung finden konnten, die eine fehlerfreie Konvertierung von turkisch in Kasachen ermöglicht und alle angesprochenen Sprachen abdeckt. Da Kasach als Quellsprache verwendet wird, haben wir nur 42 IPA -Symbole ausgewählt, die den 42 Buchstaben des kasachischen Alphabets entsprechen. Es ist erwähnenswert, dass Kasacher - zusammen mit Bashkir - der meisten Buchstaben die meisten Buchstaben und enthält eine große Mehrheit der Phoneme der Zielsprachen. Die entwickelten Zuordnungen können auch als Leitfaden für andere Arbeiten verwendet werden, um mehrsprachige Systeme für türkische Sprachen wie Spracherkennung, Sprachübersetzung usw. aufzubauen. Die Zuordnung der türkischen Alphabete auf IPA -Symbole finden Sie hier.

Umfragen →? ☹️ ??? → ✅ → ⌨️

Im Folgenden finden Sie die Links zu den zehn in der Studie verwendeten Fragebögen, um subjektive Bewertungen zu sammeln. Diese Fragebögen wurden auf beliebten Social -Media -Plattformen verteilt, die in den türkischen Sprachen tätig waren. Wenn Sie interessiert sind, können Sie sich gerne ansehen. Ihre Teilnahme und Ihre Input sind sehr geschätzt, um uns zu helfen, wertvolle Daten für unsere Forschung zu sammeln. Ihre Erkenntnisse werden zu einem tieferen Verständnis des untersuchten Gegenstands beitragen.

Jeder Fragebogen besteht aus 20 kurzen Fragen und sollte etwa 5 Minuten dauern. Es ist kein Hintergrundwissen erforderlich.

Sie werden gebeten zu

Hören Sie sich 10 Audioaufnahmen an und bewerten Sie ihre Qualität.
Hören Sie sich 5 kurze Fragen an und wählen Sie Antworten.
Hören Sie sich 5 kurze Sätze an und geben Sie sie ein.

Vielen Dank für Ihre Zeit und Überlegung.

Aserbaidschani ▫️ Bashkir ▫️ Kasach ▫️ Kirgisie ▫️ Sakha ▫️ Tatar ▫️ türkisch ▫️ Turkmen ▫️ Uyghur ▫️ Usbek

Bewertungsergebnisse

Die Umfragestatistik für die Raternummer (R), das Geschlecht (F & M) und das Alter (<45 und 45+) und die Bewertungsergebnisse der Gesamtqualität (Q), die Verständlichkeit (c) und die Verständlichkeit (I) der synthetisierten Sprache.

Sprache	R	F	M	<45	45+	Q	C	ICH
Aserbaidschani	47	22	25	22	25	2.93	90%	52%
Bashkir	11	8	3	4	7	2.67	92%	47%
Kasachisch	151	89	62	120	31	4.18	97%	80%
Kirgisische	14	12	2	6	8	3.54	86%	43%
Sakha	254	155	99	147	107	2.85	93%	15%
Tatar	15	12	3	3	12	2.82	79%	17%
Türkisch	18	6	12	15	3	3.25	91%	61%
Turkmen	6	0	6	6	0	2.37	67%	57%
Uyghur	10	6	4	6	4	3.01	45%	26%
Usbekisch	22	2	20	19	3	2.85	80%	45%
Gesamt	548	312	236	348	200	3.25	92%	41%

Vorbereitete Modelle

Entpacken Sie sowohl den vorgeborenen Vokoder als auch das akustische Modell im selben Verzeichnis.

Vocoder: ParallelwaveGan_Male2_Checkpoint

https://issai.nu.edu.kz/wp-content/uploads/2022/03/parallelwavegan_Male2_checkpoint.zip

Akustisches Modell: KAZTTS_MALE2_TACOTRON2_TRAIN.LOSS.AVE

https://issai.nu.edu.kz/wp-content/uploads/2022/03/KAZTTS_MALE2_TACOTRON2_TRAIN.LOSS.AVE.zip

Inferenz?

 from parallel_wavegan . utils import load_model
from espnet2 . bin . tts_inference import Text2Speech
from scipy . io . wavfile import write
from utils import normalization
import torch

fs = 22050
vocoder_checkpoint = "parallelwavegan_male2_checkpoint/checkpoint-400000steps.pkl" ### specify vocoder path
vocoder = load_model ( vocoder_checkpoint ). to ( "cuda" ). eval ()
vocoder . remove_weight_norm ()

### specify path to the main model(transformer/tacotron2/fastspeech) and its config file
config_file = "exp/tts_train_raw_char/config.yaml"
model_path = "exp/tts_train_raw_char/train.loss.ave_5best.pth"

text2speech = Text2Speech (
    config_file ,
    model_path ,
    device = "cuda" , ## if cuda not available use cpu
    ### only for Tacotron 2
    threshold = 0.5 ,
    minlenratio = 0.0 ,
    maxlenratio = 10.0 ,
    use_att_constraint = True ,
    backward_window = 1 ,
    forward_window = 3 ,
    ### only for FastSpeech & FastSpeech2
    speed_control_alpha = 1.0 ,
)
text2speech . spc2wav = None  ### disable griffin-lim

text = "merhaba"
### available options are azerbaijani, bashkir, kazakh, kyrgyz, sakha, tatar, turkish, turkmen, uyghur, uzbek
lang = "turkish"

text = normalization ( text , lang )
with torch . no_grad ():
    c_mel = text2speech ( text )[ 'feat_gen' ]
    wav = vocoder . inference ( c_mel )
write ( "result.wav" , fs , wav . view ( - 1 ). cpu (). numpy ())

Synthetisierte Proben?

Aserbaidschani

 Azərbaycan Xəzər dənizi hövzəsinin qərbində yerləşir.

az_01.mov

Bashkir

 Башҡортостан Республикаһы шарттарында ауыл хужалығы етерлек хеҙмәт ресурстарына нигеҙләнә.

ba_01.mov

Kasachisch

 Қазақстан — Шығыс Еуропа мен Орталық Азияда орналасқан мемлекет.

KK_01.Mov

Kirgisische

 Кыргыз Республикасы — Борбордук Азияда жайгашкан мамлекет.

ky_01.mov

Sakha

 Саха Өрөспүүбүлүкэтэ Сибиир хотугулуу-илин өттүгэр сытар.

sa_01.mov

Tatar

 Татарстан территориясе — урманлы җирдә яткан тигезлек.

tt_01.mov

Türkisch

 Türk dünyası, tüm Türk halkları kapsayan bir kavramdır.

tr_01.mov

Turkmen

 Türkmenistan merkezi Aziýada bir döwletdir.

tm_01.mov

Uyghur

 Arabic: ئۇيغۇر خەلقى تۈركىي مىللەتلىرىنىڭ ئايرىلماس بىر قىسمى ھەم مۇھىم بىر تەركىبىي قىسمى.
Cyrillic: Уйғур хәлқи түркий милләтлириниң айрилмас бир қисми һәм муһим бир тәркибий қисми.
Latin: Uyghur xelqi türkiy milletlirining ayrilmas bir qismi hem muhim bir terkibiy qismi.

ug_01.mov

Usbekisch

 Oʻzbekiston — Markaziy Osiyoning markaziy qismida joylashgan mamlakat.

uz_01.mov

Anerkennung

Wir möchten uns bei allen Personen, die zur Rekrutierung der Teilnehmer für diese Studie beigetragen haben, unseren Herzen verlängern. Ihre Bemühungen waren für den Erfolg unserer Umfrage von entscheidender Bedeutung. Insbesondere möchten wir Viktor Krivogornitsyn unsere tiefste Wertschätzung für seine außergewöhnliche Engagement für die Anziehung einer beträchtlichen Anzahl von Sakha -Lautsprechern zum Ausdruck bringen. Sein Beitrag war von unschätzbarem Wert und wir sind dankbar für seine Unterstützung.

Zitat?

Wir fordern bitte an, dass Sie unser Papier zitieren, wenn Sie unser Modell in Ihrer Arbeit nutzen, um seinen Beitrag anzuerkennen. Wenn Sie die entsprechenden Quellen zitieren, fördern Sie die akademische Integrität und stellt sicher, dass die ursprünglichen Autoren Guthaben erteilt werden. Indem Sie unser Papier in Ihrer Forschung anerkennen, tragen Sie zur kontinuierlichen Entwicklung und Weiterentwicklung der wissenschaftlichen Gemeinschaft bei. Wir schätzen Ihre Unterstützung und Anerkennung unserer Bemühungen.

 @inproceedings { yeshpanov23_interspeech ,
  author = { Rustem Yeshpanov and Saida Mussakhojayeva and Yerbolat Khassanov } ,
  title = { {Multilingual Text-to-Speech Synthesis for Turkic Languages Using Transliteration} } ,
  year = 2023 ,
  booktitle = { Proc. INTERSPEECH 2023 } ,
  pages = { 5521--5525 } ,
  doi = { 10.21437/Interspeech.2023-249 }
}