該存儲庫為論文提供了演示和預訓練的模型
使用音譯的多語言文本到語言綜合語言綜合
該模型支持十種土耳其語,包括阿塞拜疆,巴什基爾,哈薩克,吉爾吉斯,薩卡,塔塔爾,土耳其語,土庫曼,烏格爾和烏茲別克。這些語言遍及從巴爾幹到東北亞洲的廣闊地理區域,這些語言具有廣泛的常見語言特徵,例如元音和諧,廣泛的凝聚力,主題 - 對象 - 動詞序列以及缺乏語法性別和文章。
由於稱為Kazakhtts2的大規模和開源演講語料庫,我們的研究變得可行。該語料庫包含五個聲音(三個女性和兩個男性)和超過270個小時的高質量轉錄數據。 Haazakhtts2公開可用,允許學術和商業用途。
為了啟用針對突出語言的語音綜合,我們構建了一個基於IPA的轉換模塊。基於IPA的轉換器從其他土耳其語語言的字母中取字母,並將其轉換為哈薩克字母的字母。為此,首先將輸入的字母轉換為相應的IPA表示。接下來,將IPA符號轉換為哈薩克字母的字母,該字母可用作構建的TTS模型的輸入。
突出字母對IPA符號的映射是根據我們的專業知識手動創建的,因為我們找不到完整的映射,該映射可以允許從Turkic到哈薩克州進行無錯誤的轉換並介紹所涉及的所有語言。由於哈薩克人被用作原始語言,因此我們僅選擇了與哈薩克字母42個字母相對應的42個IPA符號。值得一提的是,在有問題的土耳其語中,哈薩克(與巴什基(Bashkir)一起)是最多的字母和包含大部分目標語言的音素。開發的映射也可以用作旨在建立針對土耳其語語言的多語言系統的其他工作的指南,例如語音識別,語音翻譯等。在此處可以找到突出的字母映射到IPA符號上的映射。
以下是研究中用於收集主觀評估的十個問卷的鏈接。這些問卷分佈在流行的社交媒體平台上,以土耳其語的語言運作。如果您有興趣,請隨時檢查它們。非常感謝您的參與和投入,以幫助我們為研究收集有價值的數據。您的見解將有助於更深入地了解正在調查的主題。
每個問卷都包含20個簡短的問題,應帶您大約5分鐘。不需要背景知識。
您將被要求
感謝您的時間和考慮。
阿塞拜疆▫️Bashkir▫️Kazakh▫️吉爾吉斯吉爾吉斯▫️sakha▫️塔塔爾tatar tatar tatar▫️土耳其人▫️土庫曼▫️Uyghur
評估者數量(R),性別(F&M)和年齡(<45&45+)的調查統計數據以及整體質量(Q),可理解性(C)和合成語音的可理解性(I)的評估結果。
| 語言 | r | f | m | <45 | 45+ | 問 | c | 我 |
|---|---|---|---|---|---|---|---|---|
| 亞塞拜然 | 47 | 22 | 25 | 22 | 25 | 2.93 | 90% | 52% |
| 巴什基 | 11 | 8 | 3 | 4 | 7 | 2.67 | 92% | 47% |
| 哈薩克 | 151 | 89 | 62 | 120 | 31 | 4.18 | 97% | 80% |
| 吉爾吉斯 | 14 | 12 | 2 | 6 | 8 | 3.54 | 86% | 43% |
| 薩卡 | 254 | 155 | 99 | 147 | 107 | 2.85 | 93% | 15% |
| 塔塔爾 | 15 | 12 | 3 | 3 | 12 | 2.82 | 79% | 17% |
| 土耳其 | 18 | 6 | 12 | 15 | 3 | 3.25 | 91% | 61% |
| 土庫曼 | 6 | 0 | 6 | 6 | 0 | 2.37 | 67% | 57% |
| Uyghur | 10 | 6 | 4 | 6 | 4 | 3.01 | 45% | 26% |
| 烏茲別克 | 22 | 2 | 20 | 19 | 3 | 2.85 | 80% | 45% |
| 全部的 | 548 | 312 | 236 | 348 | 200 | 3.25 | 92% | 41% |
在同一目錄中解開預訓練的聲碼器和聲學模型。
from parallel_wavegan . utils import load_model
from espnet2 . bin . tts_inference import Text2Speech
from scipy . io . wavfile import write
from utils import normalization
import torch
fs = 22050
vocoder_checkpoint = "parallelwavegan_male2_checkpoint/checkpoint-400000steps.pkl" ### specify vocoder path
vocoder = load_model ( vocoder_checkpoint ). to ( "cuda" ). eval ()
vocoder . remove_weight_norm ()
### specify path to the main model(transformer/tacotron2/fastspeech) and its config file
config_file = "exp/tts_train_raw_char/config.yaml"
model_path = "exp/tts_train_raw_char/train.loss.ave_5best.pth"
text2speech = Text2Speech (
config_file ,
model_path ,
device = "cuda" , ## if cuda not available use cpu
### only for Tacotron 2
threshold = 0.5 ,
minlenratio = 0.0 ,
maxlenratio = 10.0 ,
use_att_constraint = True ,
backward_window = 1 ,
forward_window = 3 ,
### only for FastSpeech & FastSpeech2
speed_control_alpha = 1.0 ,
)
text2speech . spc2wav = None ### disable griffin-lim
text = "merhaba"
### available options are azerbaijani, bashkir, kazakh, kyrgyz, sakha, tatar, turkish, turkmen, uyghur, uzbek
lang = "turkish"
text = normalization ( text , lang )
with torch . no_grad ():
c_mel = text2speech ( text )[ 'feat_gen' ]
wav = vocoder . inference ( c_mel )
write ( "result.wav" , fs , wav . view ( - 1 ). cpu (). numpy ())亞塞拜然
Azərbaycan Xəzər dənizi hövzəsinin qərbində yerləşir.
巴什基
Башҡортостан Республикаһы шарттарында ауыл хужалығы етерлек хеҙмәт ресурстарына нигеҙләнә.
哈薩克
Қазақстан — Шығыс Еуропа мен Орталық Азияда орналасқан мемлекет.
吉爾吉斯
Кыргыз Республикасы — Борбордук Азияда жайгашкан мамлекет.
薩卡
Саха Өрөспүүбүлүкэтэ Сибиир хотугулуу-илин өттүгэр сытар.
塔塔爾
Татарстан территориясе — урманлы җирдә яткан тигезлек.
土耳其
Türk dünyası, tüm Türk halkları kapsayan bir kavramdır.
土庫曼
Türkmenistan merkezi Aziýada bir döwletdir.
Uyghur
Arabic: ئۇيغۇر خەلقى تۈركىي مىللەتلىرىنىڭ ئايرىلماس بىر قىسمى ھەم مۇھىم بىر تەركىبىي قىسمى.
Cyrillic: Уйғур хәлқи түркий милләтлириниң айрилмас бир қисми һәм муһим бир тәркибий қисми.
Latin: Uyghur xelqi türkiy milletlirining ayrilmas bir qismi hem muhim bir terkibiy qismi.
烏茲別克
Oʻzbekiston — Markaziy Osiyoning markaziy qismida joylashgan mamlakat.
我們要感謝所有為參與者招募這項研究做出貢獻的個人。他們的努力對於我們調查的成功至關重要。特別是,我們想對維克多·克里沃諾尼森(Viktor Krivogornitsyn)表示最深切的讚賞,因為他在吸引大量的薩卡(Sakha)演講者方面的非凡奉獻精神。他的貢獻非常寶貴,我們感謝他的支持。
我們懇請要求,如果您在工作中使用我們的模型,則考慮援引我們的論文來承認其貢獻。引用適當的資源有助於促進學術完整性,並確保給予原始作者的信譽。通過在您的研究中承認我們的論文,您為科學界的持續發展和發展做出了貢獻。感謝您對我們的努力的支持和認可。
@inproceedings { yeshpanov23_interspeech ,
author = { Rustem Yeshpanov and Saida Mussakhojayeva and Yerbolat Khassanov } ,
title = { {Multilingual Text-to-Speech Synthesis for Turkic Languages Using Transliteration} } ,
year = 2023 ,
booktitle = { Proc. INTERSPEECH 2023 } ,
pages = { 5521--5525 } ,
doi = { 10.21437/Interspeech.2023-249 }
}