Dieses Repository bietet eine Demo und ein vorgebildetes Modell für das Papier
Mehrsprachige Text-zu-Sprache-Synthese für turkische Sprachen mithilfe der Transliteration
Das Modell unterstützt zehn türkische Sprachen, darunter Aserbaidschani, Bashkir, Kasach, Kirgisische, Sakha, Tatar, Türkisch, Turkmen, Uyghur und Usbek. Diese Sprachen über ein breites geografisches Gebiet, das sich vom Balkan über Zentralasien bis nach Nordosten von Sibirien erstreckt, haben eine breite Palette gemeinsamer sprachlicher Merkmale wie Vokalharmonie, umfangreicher Agglutination, Subjekt-Objekt-Verb-Ordnung und Abwesenheit von grammatikalischem Geschlecht und Artikeln.
Unsere Studie wurde dank eines großflächigen und offenen Sprachkorpus namens Kasachts2 machbar. Das Korpus enthält fünf Stimmen (drei Frauen und zwei Männer) und mehr als 270 Stunden hochwertiger transkribierter Daten. Kasachts2 ist öffentlich verfügbar, was sowohl den akademischen als auch den kommerziellen Gebrauch ermöglicht.
Um die Sprachsynthese für die türkischen Sprachen zu aktivieren, haben wir ein IPA-basierter Konvertierungsmodul erstellt. Der IPA-basierte Konverter nimmt Buchstaben aus den Alphabeten anderer türkischer Sprachen und wandelt sie in die Buchstaben des kasachischen Alphabets um. Zu diesem Zweck werden die eingegebenen Buchstaben zuerst in die entsprechenden IPA -Darstellungen umgewandelt. Als nächstes werden die IPA -Symbole in die Buchstaben des kasachischen Alphabets umgewandelt, die als Eingabe für die konstruierten TTS -Modelle verwendet werden können.
Die Zuordnungen der türkischen Alphabete an IPA-Symbole wurden manuell auf der Grundlage unseres Fachwissens erstellt, da wir keine vollständige Kartierung finden konnten, die eine fehlerfreie Konvertierung von turkisch in Kasachen ermöglicht und alle angesprochenen Sprachen abdeckt. Da Kasach als Quellsprache verwendet wird, haben wir nur 42 IPA -Symbole ausgewählt, die den 42 Buchstaben des kasachischen Alphabets entsprechen. Es ist erwähnenswert, dass Kasacher - zusammen mit Bashkir - der meisten Buchstaben die meisten Buchstaben und enthält eine große Mehrheit der Phoneme der Zielsprachen. Die entwickelten Zuordnungen können auch als Leitfaden für andere Arbeiten verwendet werden, um mehrsprachige Systeme für türkische Sprachen wie Spracherkennung, Sprachübersetzung usw. aufzubauen. Die Zuordnung der türkischen Alphabete auf IPA -Symbole finden Sie hier.
Im Folgenden finden Sie die Links zu den zehn in der Studie verwendeten Fragebögen, um subjektive Bewertungen zu sammeln. Diese Fragebögen wurden auf beliebten Social -Media -Plattformen verteilt, die in den türkischen Sprachen tätig waren. Wenn Sie interessiert sind, können Sie sich gerne ansehen. Ihre Teilnahme und Ihre Input sind sehr geschätzt, um uns zu helfen, wertvolle Daten für unsere Forschung zu sammeln. Ihre Erkenntnisse werden zu einem tieferen Verständnis des untersuchten Gegenstands beitragen.
Jeder Fragebogen besteht aus 20 kurzen Fragen und sollte etwa 5 Minuten dauern. Es ist kein Hintergrundwissen erforderlich.
Sie werden gebeten zu
Vielen Dank für Ihre Zeit und Überlegung.
Aserbaidschani ▫️ Bashkir ▫️ Kasach ▫️ Kirgisie ▫️ Sakha ▫️ Tatar ▫️ türkisch ▫️ Turkmen ▫️ Uyghur ▫️ Usbek
Die Umfragestatistik für die Raternummer (R), das Geschlecht (F & M) und das Alter (<45 und 45+) und die Bewertungsergebnisse der Gesamtqualität (Q), die Verständlichkeit (c) und die Verständlichkeit (I) der synthetisierten Sprache.
| Sprache | R | F | M | <45 | 45+ | Q | C | ICH |
|---|---|---|---|---|---|---|---|---|
| Aserbaidschani | 47 | 22 | 25 | 22 | 25 | 2.93 | 90% | 52% |
| Bashkir | 11 | 8 | 3 | 4 | 7 | 2.67 | 92% | 47% |
| Kasachisch | 151 | 89 | 62 | 120 | 31 | 4.18 | 97% | 80% |
| Kirgisische | 14 | 12 | 2 | 6 | 8 | 3.54 | 86% | 43% |
| Sakha | 254 | 155 | 99 | 147 | 107 | 2.85 | 93% | 15% |
| Tatar | 15 | 12 | 3 | 3 | 12 | 2.82 | 79% | 17% |
| Türkisch | 18 | 6 | 12 | 15 | 3 | 3.25 | 91% | 61% |
| Turkmen | 6 | 0 | 6 | 6 | 0 | 2.37 | 67% | 57% |
| Uyghur | 10 | 6 | 4 | 6 | 4 | 3.01 | 45% | 26% |
| Usbekisch | 22 | 2 | 20 | 19 | 3 | 2.85 | 80% | 45% |
| Gesamt | 548 | 312 | 236 | 348 | 200 | 3.25 | 92% | 41% |
Entpacken Sie sowohl den vorgeborenen Vokoder als auch das akustische Modell im selben Verzeichnis.
from parallel_wavegan . utils import load_model
from espnet2 . bin . tts_inference import Text2Speech
from scipy . io . wavfile import write
from utils import normalization
import torch
fs = 22050
vocoder_checkpoint = "parallelwavegan_male2_checkpoint/checkpoint-400000steps.pkl" ### specify vocoder path
vocoder = load_model ( vocoder_checkpoint ). to ( "cuda" ). eval ()
vocoder . remove_weight_norm ()
### specify path to the main model(transformer/tacotron2/fastspeech) and its config file
config_file = "exp/tts_train_raw_char/config.yaml"
model_path = "exp/tts_train_raw_char/train.loss.ave_5best.pth"
text2speech = Text2Speech (
config_file ,
model_path ,
device = "cuda" , ## if cuda not available use cpu
### only for Tacotron 2
threshold = 0.5 ,
minlenratio = 0.0 ,
maxlenratio = 10.0 ,
use_att_constraint = True ,
backward_window = 1 ,
forward_window = 3 ,
### only for FastSpeech & FastSpeech2
speed_control_alpha = 1.0 ,
)
text2speech . spc2wav = None ### disable griffin-lim
text = "merhaba"
### available options are azerbaijani, bashkir, kazakh, kyrgyz, sakha, tatar, turkish, turkmen, uyghur, uzbek
lang = "turkish"
text = normalization ( text , lang )
with torch . no_grad ():
c_mel = text2speech ( text )[ 'feat_gen' ]
wav = vocoder . inference ( c_mel )
write ( "result.wav" , fs , wav . view ( - 1 ). cpu (). numpy ())Aserbaidschani
Azərbaycan Xəzər dənizi hövzəsinin qərbində yerləşir.
Bashkir
Башҡортостан Республикаһы шарттарында ауыл хужалығы етерлек хеҙмәт ресурстарына нигеҙләнә.
Kasachisch
Қазақстан — Шығыс Еуропа мен Орталық Азияда орналасқан мемлекет.
Kirgisische
Кыргыз Республикасы — Борбордук Азияда жайгашкан мамлекет.
Sakha
Саха Өрөспүүбүлүкэтэ Сибиир хотугулуу-илин өттүгэр сытар.
Tatar
Татарстан территориясе — урманлы җирдә яткан тигезлек.
Türkisch
Türk dünyası, tüm Türk halkları kapsayan bir kavramdır.
Turkmen
Türkmenistan merkezi Aziýada bir döwletdir.
Uyghur
Arabic: ئۇيغۇر خەلقى تۈركىي مىللەتلىرىنىڭ ئايرىلماس بىر قىسمى ھەم مۇھىم بىر تەركىبىي قىسمى.
Cyrillic: Уйғур хәлқи түркий милләтлириниң айрилмас бир қисми һәм муһим бир тәркибий қисми.
Latin: Uyghur xelqi türkiy milletlirining ayrilmas bir qismi hem muhim bir terkibiy qismi.
Usbekisch
Oʻzbekiston — Markaziy Osiyoning markaziy qismida joylashgan mamlakat.
Wir möchten uns bei allen Personen, die zur Rekrutierung der Teilnehmer für diese Studie beigetragen haben, unseren Herzen verlängern. Ihre Bemühungen waren für den Erfolg unserer Umfrage von entscheidender Bedeutung. Insbesondere möchten wir Viktor Krivogornitsyn unsere tiefste Wertschätzung für seine außergewöhnliche Engagement für die Anziehung einer beträchtlichen Anzahl von Sakha -Lautsprechern zum Ausdruck bringen. Sein Beitrag war von unschätzbarem Wert und wir sind dankbar für seine Unterstützung.
Wir fordern bitte an, dass Sie unser Papier zitieren, wenn Sie unser Modell in Ihrer Arbeit nutzen, um seinen Beitrag anzuerkennen. Wenn Sie die entsprechenden Quellen zitieren, fördern Sie die akademische Integrität und stellt sicher, dass die ursprünglichen Autoren Guthaben erteilt werden. Indem Sie unser Papier in Ihrer Forschung anerkennen, tragen Sie zur kontinuierlichen Entwicklung und Weiterentwicklung der wissenschaftlichen Gemeinschaft bei. Wir schätzen Ihre Unterstützung und Anerkennung unserer Bemühungen.
@inproceedings { yeshpanov23_interspeech ,
author = { Rustem Yeshpanov and Saida Mussakhojayeva and Yerbolat Khassanov } ,
title = { {Multilingual Text-to-Speech Synthesis for Turkic Languages Using Transliteration} } ,
year = 2023 ,
booktitle = { Proc. INTERSPEECH 2023 } ,
pages = { 5521--5525 } ,
doi = { 10.21437/Interspeech.2023-249 }
}