ที่เก็บนี้ให้การสาธิตและแบบจำลองที่ผ่านการฝึกอบรมมาก่อนสำหรับกระดาษ
การสังเคราะห์ข้อความหลายภาษากับการพูดสำหรับภาษา Turkic โดยใช้การแปล
แบบจำลองสนับสนุนภาษาเติร์กสิบภาษารวมถึงอาเซอร์ไบจัน, Bashkir, คาซัค, คีร์กีซ, ซาคาฮา, ทาตาร์, ตุรกี, เติร์กเมน, อุยกูร์และอุซเบก พูดในพื้นที่ทางภูมิศาสตร์ที่กว้างซึ่งทอดยาวจากบอลข่านผ่านเอเชียกลางไปยังไซบีเรียตะวันออกเฉียงเหนือภาษาเหล่านี้มีคุณสมบัติทางภาษาศาสตร์ทั่วไปที่หลากหลายเช่นเสียงสระสามัญความสามัคคีการรวมตัวกันอย่างกว้างขวาง
การศึกษาของเรากลายเป็นไปได้ด้วยคลังเสียงพูดขนาดใหญ่และโอเพ่นซอร์สที่เรียกว่าคาซัคท์ท์ 2 คลังข้อมูลมีห้าเสียง (หญิงสามคนและชายสองคน) และมากกว่า 270 ชั่วโมงของข้อมูลการถอดเสียงคุณภาพสูง Kazakhtts2 เปิดเผยต่อสาธารณะซึ่งอนุญาตให้ใช้ทั้งทางวิชาการและเชิงพาณิชย์
เพื่อเปิดใช้งานการสังเคราะห์คำพูดสำหรับภาษา Turkic เราได้สร้างโมดูลการแปลงที่ใช้ IPA ตัวแปลงที่ใช้ IPA ใช้ตัวอักษรจากตัวอักษรของภาษาตุรกีอื่น ๆ และแปลงเป็นตัวอักษรของตัวอักษรคาซัค เพื่อจุดประสงค์นี้ตัวอักษรที่ป้อนจะถูกแปลงเป็นครั้งแรกเป็นตัวแทน IPA ที่เกี่ยวข้อง ถัดไปสัญลักษณ์ IPA จะถูกแปลงเป็นตัวอักษรของตัวอักษรคาซัคห์ซึ่งสามารถใช้เป็นอินพุตสำหรับรุ่น TTS ที่สร้างขึ้น
การแมปของตัวอักษร Turkic ลงบนสัญลักษณ์ IPA นั้นถูกสร้างขึ้นด้วยตนเองตามความเชี่ยวชาญของเราเนื่องจากเราไม่สามารถหาการทำแผนที่ที่สมบูรณ์ซึ่งจะช่วยให้การแปลงปราศจากข้อผิดพลาดจาก Turkic เป็นคาซัคและครอบคลุมทุกภาษาที่กล่าวถึง เนื่องจากคาซัคใช้เป็นภาษาต้นฉบับเราจึงเลือกสัญลักษณ์ IPA เพียง 42 ตัวที่สอดคล้องกับตัวอักษร 42 ตัวของตัวอักษรคาซัค เป็นเรื่องที่ควรค่าแก่การกล่าวถึงว่าภาษาเติร์กที่เป็นปัญหาคาซัคห์ - พร้อมกับ bashkir - เป็นตัวอักษรมากที่สุดและมีหน่วยเสียงส่วนใหญ่ของภาษาเป้าหมาย การแมปที่พัฒนาแล้วยังสามารถใช้เป็นแนวทางสำหรับงานอื่น ๆ ที่มุ่งสร้างระบบหลายภาษาสำหรับภาษา Turkic เช่นการรู้จำเสียงพูดการแปลคำพูดและอื่น ๆ การทำแผนที่ของตัวอักษร Turkic ลงบนสัญลักษณ์ IPA สามารถพบได้ที่นี่
ด้านล่างนี้คือลิงก์ไปยังแบบสอบถามสิบข้อที่ใช้ในการศึกษาเพื่อรวบรวมการประเมินอัตนัย แบบสอบถามเหล่านี้มีการแจกจ่ายบนแพลตฟอร์มโซเชียลมีเดียยอดนิยมที่ทำงานในภาษา Turkic หากคุณสนใจอย่าลังเลที่จะตรวจสอบพวกเขา การมีส่วนร่วมและการป้อนข้อมูลของคุณได้รับการชื่นชมอย่างมากในการช่วยให้เรารวบรวมข้อมูลที่มีค่าสำหรับการวิจัยของเรา ข้อมูลเชิงลึกของคุณจะนำไปสู่ความเข้าใจที่ลึกซึ้งยิ่งขึ้นในเรื่องที่อยู่ภายใต้การสอบสวน
แบบสอบถามแต่ละข้อประกอบด้วยคำถามสั้น ๆ 20 ข้อและควรใช้เวลาประมาณ 5 นาที ไม่จำเป็นต้องมีความรู้พื้นฐาน
คุณจะถูกขอให้
ขอบคุณสำหรับเวลาและการพิจารณา
Azerbaijani ▫ Bashkir ▫ คาซัค ▫ Kyrgyz ▫ Sakha ▫ Tatar ▫ ตุรกี ▫ เติร์กเมน ▫ uyghur ▫ Uzbek
สถิติการสำรวจสำหรับหมายเลข Rater (R), เพศ (F&M) และอายุ (<45 & 45+) และผลการประเมินคุณภาพโดยรวม (Q), ความเข้าใจ (C) และความเข้าใจ (i) ของคำพูดสังเคราะห์
| ภาษา | R | f | ม. | <45 | 45+ | ถาม | C | ฉัน |
|---|---|---|---|---|---|---|---|---|
| อาเซอร์ไบจัน | 47 | 22 | 25 | 22 | 25 | 2.93 | 90% | 52% |
| Bashkir | 11 | 8 | 3 | 4 | 7 | 2.67 | 92% | 47% |
| คาซัค | 151 | 89 | 62 | 120 | 31 | 4.18 | 97% | 80% |
| คีร์กีซ | 14 | 12 | 2 | 6 | 8 | 3.54 | 86% | 43% |
| ซากา | 254 | 155 | 99 | 147 | 107 | 2.85 | 93% | 15% |
| ตาตาร์ | 15 | 12 | 3 | 3 | 12 | 2.82 | 79% | 17% |
| ตุรกี | 18 | 6 | 12 | 15 | 3 | 3.25 | 91% | 61% |
| ชาวเติร์กเมน | 6 | 0 | 6 | 6 | 0 | 2.37 | 67% | 57% |
| uyghur | 10 | 6 | 4 | 6 | 4 | 3.01 | 45% | 26% |
| อุซเบก | 22 | 2 | 20 | 19 | 3 | 2.85 | 80% | 45% |
| ทั้งหมด | 548 | 312 | 236 | 348 | 200 | 3.25 | 92% | 41% |
เปิดเครื่องซิปทั้งคู่ที่ได้รับการฝึกฝนมาก่อนและโมเดลอะคูสติกในไดเรกทอรีเดียวกัน
from parallel_wavegan . utils import load_model
from espnet2 . bin . tts_inference import Text2Speech
from scipy . io . wavfile import write
from utils import normalization
import torch
fs = 22050
vocoder_checkpoint = "parallelwavegan_male2_checkpoint/checkpoint-400000steps.pkl" ### specify vocoder path
vocoder = load_model ( vocoder_checkpoint ). to ( "cuda" ). eval ()
vocoder . remove_weight_norm ()
### specify path to the main model(transformer/tacotron2/fastspeech) and its config file
config_file = "exp/tts_train_raw_char/config.yaml"
model_path = "exp/tts_train_raw_char/train.loss.ave_5best.pth"
text2speech = Text2Speech (
config_file ,
model_path ,
device = "cuda" , ## if cuda not available use cpu
### only for Tacotron 2
threshold = 0.5 ,
minlenratio = 0.0 ,
maxlenratio = 10.0 ,
use_att_constraint = True ,
backward_window = 1 ,
forward_window = 3 ,
### only for FastSpeech & FastSpeech2
speed_control_alpha = 1.0 ,
)
text2speech . spc2wav = None ### disable griffin-lim
text = "merhaba"
### available options are azerbaijani, bashkir, kazakh, kyrgyz, sakha, tatar, turkish, turkmen, uyghur, uzbek
lang = "turkish"
text = normalization ( text , lang )
with torch . no_grad ():
c_mel = text2speech ( text )[ 'feat_gen' ]
wav = vocoder . inference ( c_mel )
write ( "result.wav" , fs , wav . view ( - 1 ). cpu (). numpy ())อาเซอร์ไบจัน
Azərbaycan Xəzər dənizi hövzəsinin qərbində yerləşir.
Bashkir
Башҡортостан Республикаһы шарттарында ауыл хужалығы етерлек хеҙмәт ресурстарына нигеҙләнә.
คาซัค
Қазақстан — Шығыс Еуропа мен Орталық Азияда орналасқан мемлекет.
คีร์กีซ
Кыргыз Республикасы — Борбордук Азияда жайгашкан мамлекет.
ซากา
Саха Өрөспүүбүлүкэтэ Сибиир хотугулуу-илин өттүгэр сытар.
ตาตาร์
Татарстан территориясе — урманлы җирдә яткан тигезлек.
ตุรกี
Türk dünyası, tüm Türk halkları kapsayan bir kavramdır.
ชาวเติร์กเมน
Türkmenistan merkezi Aziýada bir döwletdir.
uyghur
Arabic: ئۇيغۇر خەلقى تۈركىي مىللەتلىرىنىڭ ئايرىلماس بىر قىسمى ھەم مۇھىم بىر تەركىبىي قىسمى.
Cyrillic: Уйғур хәлқи түркий милләтлириниң айрилмас бир қисми һәм муһим бир тәркибий қисми.
Latin: Uyghur xelqi türkiy milletlirining ayrilmas bir qismi hem muhim bir terkibiy qismi.
อุซเบก
Oʻzbekiston — Markaziy Osiyoning markaziy qismida joylashgan mamlakat.
เราขอขอบคุณผู้ที่มีส่วนร่วมในการสรรหาผู้เข้าร่วมการศึกษานี้ ความพยายามของพวกเขามีความสำคัญต่อความสำเร็จของการสำรวจของเรา โดยเฉพาะอย่างยิ่งเราต้องการแสดงความขอบคุณอย่างสุดซึ้งต่อ Viktor Krivogornitsyn สำหรับการอุทิศตนพิเศษของเขาในการดึงดูดผู้พูด Sakha จำนวนมาก การบริจาคของเขานั้นมีค่ามากและเรารู้สึกขอบคุณสำหรับการสนับสนุนของเขา
เราขอขอให้หากคุณใช้แบบจำลองของเราในงานของคุณคุณจะพิจารณาอ้างถึงบทความของเราเพื่อรับทราบการมีส่วนร่วม การอ้างถึงแหล่งข้อมูลที่เหมาะสมช่วยส่งเสริมความซื่อสัตย์ทางวิชาการและทำให้มั่นใจได้ว่าเครดิตจะมอบให้กับผู้เขียนดั้งเดิม โดยการยอมรับบทความของเราในการวิจัยของคุณคุณมีส่วนร่วมในการพัฒนาอย่างต่อเนื่องและความก้าวหน้าของชุมชนวิทยาศาสตร์ เราขอขอบคุณการสนับสนุนและการรับรู้ถึงความพยายามของเรา
@inproceedings { yeshpanov23_interspeech ,
author = { Rustem Yeshpanov and Saida Mussakhojayeva and Yerbolat Khassanov } ,
title = { {Multilingual Text-to-Speech Synthesis for Turkic Languages Using Transliteration} } ,
year = 2023 ,
booktitle = { Proc. INTERSPEECH 2023 } ,
pages = { 5521--5525 } ,
doi = { 10.21437/Interspeech.2023-249 }
}