يوفر هذا المستودع عرضًا تجريبيًا ونموذجًا تم تدريبه مسبقًا للورقة
توليف النص إلى الكلام متعدد اللغات للغات التركية باستخدام الترجمة
يدعم النموذج عشر لغات تركية ، بما في ذلك أذربيجاني ، باشكر ، كازاخاخية ، قيرغيز ، سخا ، تاتار ، تركي ، تركمان ، أويغور ، أوزبك. تحدثت هذه اللغات عبر منطقة جغرافية واسعة تمتد من البلقان عبر آسيا الوسطى إلى شمال شرق سيبيريا ، وتشترك هذه اللغات في مجموعة واسعة من الميزات اللغوية الشائعة ، مثل وئام حرف العلة ، والتمويات الواسعة ، وترتيب موضوع الموضوع ، وغياب الجنس والمقالات النحوية.
أصبحت دراستنا ممكنة بفضل مجموعة خطاب واسعة النطاق ومفتوحة المصدر تسمى Kazakhtts2. تحتوي المجموعة على خمسة أصوات (ثلاثة أنثى واثنان من الذكور) وأكثر من 270 ساعة من البيانات المكتوبة عالية الجودة. Kazakhtts2 متاح للجمهور ، والذي يسمح للاستخدام الأكاديمي والتجاري.
لتمكين تخليق الكلام للغات التركية ، قمنا ببناء وحدة تحويل قائمة على IPA. يأخذ المحول المستند إلى IPA رسائل من الحروف الهجائية من اللغات التركية الأخرى ويحولها إلى حروف الأبجدية الكازاخستانية. لهذا الغرض ، يتم تحويل الرسائل التي تم إدخالها أولاً إلى تمثيلات IPA المقابلة. بعد ذلك ، يتم تحويل رموز IPA إلى أحرف الأبجدية Kazakh ، والتي يمكن استخدامها كمدخلات لنماذج TTS التي تم إنشاؤها.
تم إنشاء تعيينات الحروف الهجائية التركية على رموز IPA يدويًا بناءً على خبرتنا ، حيث لم نتمكن من العثور على رسم خرائط كامل يسمح بتحويل خالي من الأخطاء من التركية إلى الكازاخستا وتغطية جميع اللغات المعالجة. نظرًا لأن كازاخستا تستخدم كلغة مصدر ، فقد اخترنا فقط 42 رموز IPA المقابلة ل 42 حرفًا من أبجدية كازاخاخية. تجدر الإشارة إلى أن اللغات التركية المعنية ، من بين اللغات التركية المعنية ، على وشك باشكر - أكثر الرسائل وتحتوي على غالبية كبيرة من صوتيات اللغات المستهدفة. يمكن أيضًا استخدام التعيينات المتقدمة كدليل للعمل الآخر الذي يهدف إلى بناء أنظمة متعددة اللغات للغات التركية ، مثل التعرف على الكلام ، وترجمة الكلام ، وما إلى ذلك. يمكن العثور على رسم خرائط الحروف الهجائية التركية على رموز IPA هنا.
فيما يلي الروابط إلى الاستبيانات العشرة المستخدمة في الدراسة لجمع التقييمات الذاتية. تم توزيع هذه الاستبيانات على منصات التواصل الاجتماعي الشهيرة التي تعمل باللغات التركية. إذا كنت مهتمًا ، فلا تتردد في التحقق منها. يتم تقدير مشاركتك ومدخلاتك بشكل كبير في مساعدتنا على جمع بيانات قيمة لبحثنا. سوف تسهم رؤىكم في فهم أعمق للموضوع قيد التحقيق.
يتكون كل استبيان من 20 سؤالًا قصيرًا ويجب أن يأخذك حوالي 5 دقائق. لا مطلوب معرفة خلفية.
سيُطلب منك ذلك
شكرا لك على وقتك ونظرتك.
Azerbaijani ▫ bashkir ▫ kazakh ▫ قيرغيز ▫ sakha ▫ tatar ▫ التركية
إحصائيات المسح لرقم Rater (R) ، الجنس (F&M) ، والعمر (<45 و 45+) ونتائج تقييم الجودة الشاملة (Q) ، الشمولية (C) ، والوضوح (1) من الكلام المتوليف.
| لغة | ص | و | م | <45 | 45+ | س | ج | أنا |
|---|---|---|---|---|---|---|---|---|
| أذربيجاني | 47 | 22 | 25 | 22 | 25 | 2.93 | 90 ٪ | 52 ٪ |
| باشكر | 11 | 8 | 3 | 4 | 7 | 2.67 | 92 ٪ | 47 ٪ |
| كازاخاخية | 151 | 89 | 62 | 120 | 31 | 4.18 | 97 ٪ | 80 ٪ |
| قيرغيز | 14 | 12 | 2 | 6 | 8 | 3.54 | 86 ٪ | 43 ٪ |
| صخا | 254 | 155 | 99 | 147 | 107 | 2.85 | 93 ٪ | 15 ٪ |
| التتار | 15 | 12 | 3 | 3 | 12 | 2.82 | 79 ٪ | 17 ٪ |
| التركية | 18 | 6 | 12 | 15 | 3 | 3.25 | 91 ٪ | 61 ٪ |
| تركمان | 6 | 0 | 6 | 6 | 0 | 2.37 | 67 ٪ | 57 ٪ |
| أويغور | 10 | 6 | 4 | 6 | 4 | 3.01 | 45 ٪ | 26 ٪ |
| أوزبك | 22 | 2 | 20 | 19 | 3 | 2.85 | 80 ٪ | 45 ٪ |
| المجموع | 548 | 312 | 236 | 348 | 200 | 3.25 | 92 ٪ | 41 ٪ |
قم بفك الضغط على كل من الصوت المُدرّب مسبقًا والنموذج الصوتي في نفس الدليل.
from parallel_wavegan . utils import load_model
from espnet2 . bin . tts_inference import Text2Speech
from scipy . io . wavfile import write
from utils import normalization
import torch
fs = 22050
vocoder_checkpoint = "parallelwavegan_male2_checkpoint/checkpoint-400000steps.pkl" ### specify vocoder path
vocoder = load_model ( vocoder_checkpoint ). to ( "cuda" ). eval ()
vocoder . remove_weight_norm ()
### specify path to the main model(transformer/tacotron2/fastspeech) and its config file
config_file = "exp/tts_train_raw_char/config.yaml"
model_path = "exp/tts_train_raw_char/train.loss.ave_5best.pth"
text2speech = Text2Speech (
config_file ,
model_path ,
device = "cuda" , ## if cuda not available use cpu
### only for Tacotron 2
threshold = 0.5 ,
minlenratio = 0.0 ,
maxlenratio = 10.0 ,
use_att_constraint = True ,
backward_window = 1 ,
forward_window = 3 ,
### only for FastSpeech & FastSpeech2
speed_control_alpha = 1.0 ,
)
text2speech . spc2wav = None ### disable griffin-lim
text = "merhaba"
### available options are azerbaijani, bashkir, kazakh, kyrgyz, sakha, tatar, turkish, turkmen, uyghur, uzbek
lang = "turkish"
text = normalization ( text , lang )
with torch . no_grad ():
c_mel = text2speech ( text )[ 'feat_gen' ]
wav = vocoder . inference ( c_mel )
write ( "result.wav" , fs , wav . view ( - 1 ). cpu (). numpy ())أذربيجاني
Azərbaycan Xəzər dənizi hövzəsinin qərbində yerləşir.
باشكر
Башҡортостан Республикаһы шарттарында ауыл хужалығы етерлек хеҙмәт ресурстарына нигеҙләнә.
كازاخاخية
Қазақстан — Шығыс Еуропа мен Орталық Азияда орналасқан мемлекет.
قيرغيز
Кыргыз Республикасы — Борбордук Азияда жайгашкан мамлекет.
صخا
Саха Өрөспүүбүлүкэтэ Сибиир хотугулуу-илин өттүгэр сытар.
التتار
Татарстан территориясе — урманлы җирдә яткан тигезлек.
التركية
Türk dünyası, tüm Türk halkları kapsayan bir kavramdır.
تركمان
Türkmenistan merkezi Aziýada bir döwletdir.
أويغور
Arabic: ئۇيغۇر خەلقى تۈركىي مىللەتلىرىنىڭ ئايرىلماس بىر قىسمى ھەم مۇھىم بىر تەركىبىي قىسمى.
Cyrillic: Уйғур хәлқи түркий милләтлириниң айрилмас бир қисми һәм муһим бир тәркибий қисми.
Latin: Uyghur xelqi türkiy milletlirining ayrilmas bir qismi hem muhim bir terkibiy qismi.
أوزبك
Oʻzbekiston — Markaziy Osiyoning markaziy qismida joylashgan mamlakat.
نود أن نقدم شكرنا القلبي لجميع الأفراد الذين ساهموا في توظيف المشاركين في هذه الدراسة. كانت جهودهم حاسمة لنجاح مسحنا. على وجه الخصوص ، نود أن نعرب عن تقديرنا العميق لفيكتور Krivogornitsyn لتفانيه الاستثنائي في جذب عدد كبير من مكبرات الصوت Sakha. كانت مساهمته لا تقدر بثمن ، ونحن ممتنون لدعمه.
نطلب بلطف أنه إذا كنت تستخدم نموذجنا في عملك ، فأنت تفكر في ذكر ورقتنا للاعتراف بمساهمتها. يساعد الإشارة إلى المصادر المناسبة على تعزيز النزاهة الأكاديمية ويضمن منح الائتمان للمؤلفين الأصليين. من خلال الاعتراف بالورقة في بحثك ، فإنك تساهم في التنمية المستمرة للمجتمع العلمي والتقدم. نحن نقدر دعمكم وتقدير جهودنا.
@inproceedings { yeshpanov23_interspeech ,
author = { Rustem Yeshpanov and Saida Mussakhojayeva and Yerbolat Khassanov } ,
title = { {Multilingual Text-to-Speech Synthesis for Turkic Languages Using Transliteration} } ,
year = 2023 ,
booktitle = { Proc. INTERSPEECH 2023 } ,
pages = { 5521--5525 } ,
doi = { 10.21437/Interspeech.2023-249 }
}