该存储库为论文提供了演示和预训练的模型
使用音译的多语言文本到语言综合语言综合
该模型支持十种土耳其语,包括阿塞拜疆,巴什基尔,哈萨克,吉尔吉斯,萨卡,塔塔尔,土耳其语,土库曼,乌格尔和乌兹别克。这些语言遍及从巴尔干到东北亚洲的广阔地理区域,这些语言具有广泛的常见语言特征,例如元音和谐,广泛的凝聚力,主题 - 对象 - 动词序列以及缺乏语法性别和文章。
由于称为Kazakhtts2的大规模和开源演讲语料库,我们的研究变得可行。该语料库包含五个声音(三个女性和两个男性)和超过270个小时的高质量转录数据。 Haazakhtts2公开可用,允许学术和商业用途。
为了启用针对突出语言的语音综合,我们构建了一个基于IPA的转换模块。基于IPA的转换器从其他土耳其语语言的字母中取字母,并将其转换为哈萨克字母的字母。为此,首先将输入的字母转换为相应的IPA表示。接下来,将IPA符号转换为哈萨克字母的字母,该字母可用作构建的TTS模型的输入。
突出字母对IPA符号的映射是根据我们的专业知识手动创建的,因为我们找不到完整的映射,该映射可以允许从Turkic到哈萨克州进行无错误的转换并介绍所涉及的所有语言。由于哈萨克人被用作原始语言,因此我们仅选择了与哈萨克字母42个字母相对应的42个IPA符号。值得一提的是,在有问题的土耳其语中,哈萨克(与巴什基(Bashkir)一起)是最多的字母和包含大部分目标语言的音素。开发的映射也可以用作旨在建立针对土耳其语语言的多语言系统的其他工作的指南,例如语音识别,语音翻译等。在此处可以找到突出的字母映射到IPA符号上的映射。
以下是研究中用于收集主观评估的十个问卷的链接。这些问卷分布在流行的社交媒体平台上,以土耳其语的语言运作。如果您有兴趣,请随时检查它们。非常感谢您的参与和投入,以帮助我们为研究收集有价值的数据。您的见解将有助于更深入地了解正在调查的主题。
每个问卷都包含20个简短的问题,应带您大约5分钟。不需要背景知识。
您将被要求
感谢您的时间和考虑。
阿塞拜疆▫️Bashkir▫️Kazakh▫️吉尔吉斯吉尔吉斯▫️sakha▫️塔塔尔tatar tatar tatar▫️土耳其人▫️土库曼▫️Uyghur
评估者数量(R),性别(F&M)和年龄(<45&45+)的调查统计数据以及整体质量(Q),可理解性(C)和合成语音的可理解性(I)的评估结果。
| 语言 | r | f | m | <45 | 45+ | 问 | c | 我 |
|---|---|---|---|---|---|---|---|---|
| 阿塞拜疆 | 47 | 22 | 25 | 22 | 25 | 2.93 | 90% | 52% |
| 巴什基 | 11 | 8 | 3 | 4 | 7 | 2.67 | 92% | 47% |
| 哈萨克 | 151 | 89 | 62 | 120 | 31 | 4.18 | 97% | 80% |
| 吉尔吉斯 | 14 | 12 | 2 | 6 | 8 | 3.54 | 86% | 43% |
| 萨卡 | 254 | 155 | 99 | 147 | 107 | 2.85 | 93% | 15% |
| 塔塔尔 | 15 | 12 | 3 | 3 | 12 | 2.82 | 79% | 17% |
| 土耳其 | 18 | 6 | 12 | 15 | 3 | 3.25 | 91% | 61% |
| 土库曼 | 6 | 0 | 6 | 6 | 0 | 2.37 | 67% | 57% |
| Uyghur | 10 | 6 | 4 | 6 | 4 | 3.01 | 45% | 26% |
| 乌兹别克 | 22 | 2 | 20 | 19 | 3 | 2.85 | 80% | 45% |
| 全部的 | 548 | 312 | 236 | 348 | 200 | 3.25 | 92% | 41% |
在同一目录中解开预训练的声码器和声学模型。
from parallel_wavegan . utils import load_model
from espnet2 . bin . tts_inference import Text2Speech
from scipy . io . wavfile import write
from utils import normalization
import torch
fs = 22050
vocoder_checkpoint = "parallelwavegan_male2_checkpoint/checkpoint-400000steps.pkl" ### specify vocoder path
vocoder = load_model ( vocoder_checkpoint ). to ( "cuda" ). eval ()
vocoder . remove_weight_norm ()
### specify path to the main model(transformer/tacotron2/fastspeech) and its config file
config_file = "exp/tts_train_raw_char/config.yaml"
model_path = "exp/tts_train_raw_char/train.loss.ave_5best.pth"
text2speech = Text2Speech (
config_file ,
model_path ,
device = "cuda" , ## if cuda not available use cpu
### only for Tacotron 2
threshold = 0.5 ,
minlenratio = 0.0 ,
maxlenratio = 10.0 ,
use_att_constraint = True ,
backward_window = 1 ,
forward_window = 3 ,
### only for FastSpeech & FastSpeech2
speed_control_alpha = 1.0 ,
)
text2speech . spc2wav = None ### disable griffin-lim
text = "merhaba"
### available options are azerbaijani, bashkir, kazakh, kyrgyz, sakha, tatar, turkish, turkmen, uyghur, uzbek
lang = "turkish"
text = normalization ( text , lang )
with torch . no_grad ():
c_mel = text2speech ( text )[ 'feat_gen' ]
wav = vocoder . inference ( c_mel )
write ( "result.wav" , fs , wav . view ( - 1 ). cpu (). numpy ())阿塞拜疆
Azərbaycan Xəzər dənizi hövzəsinin qərbində yerləşir.
巴什基
Башҡортостан Республикаһы шарттарында ауыл хужалығы етерлек хеҙмәт ресурстарына нигеҙләнә.
哈萨克
Қазақстан — Шығыс Еуропа мен Орталық Азияда орналасқан мемлекет.
吉尔吉斯
Кыргыз Республикасы — Борбордук Азияда жайгашкан мамлекет.
萨卡
Саха Өрөспүүбүлүкэтэ Сибиир хотугулуу-илин өттүгэр сытар.
塔塔尔
Татарстан территориясе — урманлы җирдә яткан тигезлек.
土耳其
Türk dünyası, tüm Türk halkları kapsayan bir kavramdır.
土库曼
Türkmenistan merkezi Aziýada bir döwletdir.
Uyghur
Arabic: ئۇيغۇر خەلقى تۈركىي مىللەتلىرىنىڭ ئايرىلماس بىر قىسمى ھەم مۇھىم بىر تەركىبىي قىسمى.
Cyrillic: Уйғур хәлқи түркий милләтлириниң айрилмас бир қисми һәм муһим бир тәркибий қисми.
Latin: Uyghur xelqi türkiy milletlirining ayrilmas bir qismi hem muhim bir terkibiy qismi.
乌兹别克
Oʻzbekiston — Markaziy Osiyoning markaziy qismida joylashgan mamlakat.
我们要感谢所有为参与者招募这项研究做出贡献的个人。他们的努力对于我们调查的成功至关重要。特别是,我们想对维克多·克里沃诺尼森(Viktor Krivogornitsyn)表示最深切的赞赏,因为他在吸引大量的萨卡(Sakha)演讲者方面的非凡奉献精神。他的贡献非常宝贵,我们感谢他的支持。
我们恳请要求,如果您在工作中使用我们的模型,则考虑援引我们的论文来承认其贡献。引用适当的资源有助于促进学术完整性,并确保给予原始作者的信誉。通过在您的研究中承认我们的论文,您为科学界的持续发展和发展做出了贡献。感谢您对我们的努力的支持和认可。
@inproceedings { yeshpanov23_interspeech ,
author = { Rustem Yeshpanov and Saida Mussakhojayeva and Yerbolat Khassanov } ,
title = { {Multilingual Text-to-Speech Synthesis for Turkic Languages Using Transliteration} } ,
year = 2023 ,
booktitle = { Proc. INTERSPEECH 2023 } ,
pages = { 5521--5525 } ,
doi = { 10.21437/Interspeech.2023-249 }
}