Repositori ini menyediakan demo dan model pra-terlatih untuk kertas ini
Sintesis teks-ke-speech multibahasa untuk bahasa Turki menggunakan transliterasi
Model ini mendukung sepuluh bahasa Turki, termasuk Azerbaijan, Bashkir, Kazakh, Kyrgyz, Sakha, Tatar, Turki, Turkmenistan, Uyghur, dan Uzbek. Diucapkan di seluruh wilayah geografis yang luas yang membentang dari Balkan melalui Asia Tengah ke Siberia timur laut, bahasa-bahasa ini berbagi berbagai fitur linguistik umum, seperti harmoni vokal, aglutinasi yang luas, tatanan subjek-objek-objek, dan tidak adanya gender dan artikel-artikel tata bahasa.
Studi kami menjadi layak berkat corpus pidato berskala besar dan open-source yang disebut Kazakhtts2. Corpus berisi lima suara (tiga betina dan dua pria) dan lebih dari 270 jam data transkrip berkualitas tinggi. Kazakhtts2 tersedia untuk umum, yang memungkinkan penggunaan akademik dan komersial.
Untuk mengaktifkan sintesis ucapan untuk bahasa Turki, kami membangun modul konversi berbasis IPA. Konverter berbasis IPA mengambil surat dari huruf-huruf bahasa Turki lainnya dan mengubahnya menjadi huruf alfabet Kazakh. Untuk tujuan ini, huruf yang dimasukkan pertama kali dikonversi menjadi representasi IPA yang sesuai. Selanjutnya, simbol IPA dikonversi menjadi huruf alfabet Kazakh, yang dapat digunakan sebagai input untuk model TTS yang dibangun.
Pemetaan huruf Turki ke simbol IPA dibuat secara manual berdasarkan keahlian kami, karena kami tidak dapat menemukan pemetaan lengkap yang akan memungkinkan konversi bebas kesalahan dari Turki ke Kazakh dan mencakup semua bahasa yang dibahas. Karena Kazakh digunakan sebagai bahasa sumber, kami hanya memilih 42 simbol IPA yang sesuai dengan 42 huruf alfabet Kazakh. Perlu disebutkan bahwa, dari bahasa -bahasa Turki yang dipertanyakan, Kazakh - bersama dengan Bashkir - memiliki huruf besar dan berisi sebagian besar fonem dari bahasa target. Pemetaan yang dikembangkan juga dapat digunakan sebagai panduan untuk pekerjaan lain yang ditujukan untuk membangun sistem multibahasa untuk bahasa Turki, seperti pengenalan suara, terjemahan ucapan, dan sebagainya. Pemetaan huruf Turki ke simbol IPA dapat ditemukan di sini.
Di bawah ini adalah tautan ke sepuluh kuesioner yang digunakan dalam penelitian ini untuk mengumpulkan evaluasi subyektif. Kuesioner ini didistribusikan pada platform media sosial populer yang beroperasi dalam bahasa Turki. Jika Anda tertarik, jangan ragu untuk memeriksanya. Partisipasi dan masukan Anda sangat dihargai dalam membantu kami mengumpulkan data yang berharga untuk penelitian kami. Wawasan Anda akan berkontribusi pada pemahaman yang lebih dalam tentang materi pelajaran yang sedang diselidiki.
Setiap kuesioner terdiri dari 20 pertanyaan singkat dan harus membawa Anda sekitar 5 menit. Tidak ada pengetahuan latar belakang yang diperlukan.
Anda akan diminta
Terima kasih atas waktu dan pertimbangan Anda.
Azerbaijani ▫️ Bashkir ▫️ Kazakh ▫️ Kyrgyz ▫️ Sakha ▫️ Tatar ▫️ Turki ▫️ Turkmen
Statistik survei untuk jumlah penilai (r), jenis kelamin (F&M), dan usia (<45 & 45+) dan hasil evaluasi dari kualitas keseluruhan (Q), kelengkapan (c), dan kejelasan (i) dari pidato yang disintesis.
| Bahasa | R | F | M | <45 | 45+ | Q | C | SAYA |
|---|---|---|---|---|---|---|---|---|
| Azerbaijani | 47 | 22 | 25 | 22 | 25 | 2.93 | 90% | 52% |
| Bashkir | 11 | 8 | 3 | 4 | 7 | 2.67 | 92% | 47% |
| Kazakh | 151 | 89 | 62 | 120 | 31 | 4.18 | 97% | 80% |
| Kyrgyz | 14 | 12 | 2 | 6 | 8 | 3.54 | 86% | 43% |
| Sakha | 254 | 155 | 99 | 147 | 107 | 2.85 | 93% | 15% |
| Tatar | 15 | 12 | 3 | 3 | 12 | 2.82 | 79% | 17% |
| Turki | 18 | 6 | 12 | 15 | 3 | 3.25 | 91% | 61% |
| Turkmen | 6 | 0 | 6 | 6 | 0 | 2.37 | 67% | 57% |
| Uyghur | 10 | 6 | 4 | 6 | 4 | 3.01 | 45% | 26% |
| Uzbek | 22 | 2 | 20 | 19 | 3 | 2.85 | 80% | 45% |
| Total | 548 | 312 | 236 | 348 | 200 | 3.25 | 92% | 41% |
Buka ritsleting baik vocoder pra-terlatih dan model akustik dalam direktori yang sama.
from parallel_wavegan . utils import load_model
from espnet2 . bin . tts_inference import Text2Speech
from scipy . io . wavfile import write
from utils import normalization
import torch
fs = 22050
vocoder_checkpoint = "parallelwavegan_male2_checkpoint/checkpoint-400000steps.pkl" ### specify vocoder path
vocoder = load_model ( vocoder_checkpoint ). to ( "cuda" ). eval ()
vocoder . remove_weight_norm ()
### specify path to the main model(transformer/tacotron2/fastspeech) and its config file
config_file = "exp/tts_train_raw_char/config.yaml"
model_path = "exp/tts_train_raw_char/train.loss.ave_5best.pth"
text2speech = Text2Speech (
config_file ,
model_path ,
device = "cuda" , ## if cuda not available use cpu
### only for Tacotron 2
threshold = 0.5 ,
minlenratio = 0.0 ,
maxlenratio = 10.0 ,
use_att_constraint = True ,
backward_window = 1 ,
forward_window = 3 ,
### only for FastSpeech & FastSpeech2
speed_control_alpha = 1.0 ,
)
text2speech . spc2wav = None ### disable griffin-lim
text = "merhaba"
### available options are azerbaijani, bashkir, kazakh, kyrgyz, sakha, tatar, turkish, turkmen, uyghur, uzbek
lang = "turkish"
text = normalization ( text , lang )
with torch . no_grad ():
c_mel = text2speech ( text )[ 'feat_gen' ]
wav = vocoder . inference ( c_mel )
write ( "result.wav" , fs , wav . view ( - 1 ). cpu (). numpy ())Azerbaijani
Azərbaycan Xəzər dənizi hövzəsinin qərbində yerləşir.
Bashkir
Башҡортостан Республикаһы шарттарында ауыл хужалығы етерлек хеҙмәт ресурстарына нигеҙләнә.
Kazakh
Қазақстан — Шығыс Еуропа мен Орталық Азияда орналасқан мемлекет.
Kyrgyz
Кыргыз Республикасы — Борбордук Азияда жайгашкан мамлекет.
Sakha
Саха Өрөспүүбүлүкэтэ Сибиир хотугулуу-илин өттүгэр сытар.
Tatar
Татарстан территориясе — урманлы җирдә яткан тигезлек.
Turki
Türk dünyası, tüm Türk halkları kapsayan bir kavramdır.
Turkmen
Türkmenistan merkezi Aziýada bir döwletdir.
Uyghur
Arabic: ئۇيغۇر خەلقى تۈركىي مىللەتلىرىنىڭ ئايرىلماس بىر قىسمى ھەم مۇھىم بىر تەركىبىي قىسمى.
Cyrillic: Уйғур хәлқи түркий милләтлириниң айрилмас бир қисми һәм муһим бир тәркибий қисми.
Latin: Uyghur xelqi türkiy milletlirining ayrilmas bir qismi hem muhim bir terkibiy qismi.
Uzbek
Oʻzbekiston — Markaziy Osiyoning markaziy qismida joylashgan mamlakat.
Kami ingin menyampaikan terima kasih yang tulus kepada semua orang yang berkontribusi pada perekrutan peserta untuk penelitian ini. Upaya mereka sangat penting untuk keberhasilan survei kami. Secara khusus, kami ingin menyampaikan apresiasi terdalam kami kepada Viktor Krivogornitsyn atas dedikasinya yang luar biasa dalam menarik sejumlah besar penutur Sakha. Kontribusinya sangat berharga, dan kami berterima kasih atas dukungannya.
Kami dengan baik meminta agar Anda menggunakan model kami dalam pekerjaan Anda, Anda mempertimbangkan untuk mengutip makalah kami untuk mengakui kontribusinya. Mengutip sumber yang tepat membantu mempromosikan integritas akademik dan memastikan bahwa kredit diberikan kepada penulis asli. Dengan mengakui makalah kami dalam penelitian Anda, Anda berkontribusi pada pengembangan dan kemajuan komunitas ilmiah yang berkelanjutan. Kami menghargai dukungan dan pengakuan Anda atas upaya kami.
@inproceedings { yeshpanov23_interspeech ,
author = { Rustem Yeshpanov and Saida Mussakhojayeva and Yerbolat Khassanov } ,
title = { {Multilingual Text-to-Speech Synthesis for Turkic Languages Using Transliteration} } ,
year = 2023 ,
booktitle = { Proc. INTERSPEECH 2023 } ,
pages = { 5521--5525 } ,
doi = { 10.21437/Interspeech.2023-249 }
}