이 저장소는 종이에 대한 데모와 미리 훈련 된 모델을 제공합니다.
음역을 사용한 터키 언어에 대한 다국어 텍스트 음성 연설 합성
이 모델은 아제르바이잔, 바쉬 키르, 카자흐, 키르기즈, 사카, 타타르, 터키어, 투르크멘, Uyghur 및 Uzbek을 포함한 10 개의 터키 언어를 지원합니다. 발칸 반도에서 중앙 아시아까지 시베리아 북동부에 이르기까지 넓은 지리적 지역에서 사용되는이 언어들은 모음 조화, 광범위한 응집, 주제 관찰 질서 및 문법 성별 및 기사의 부재와 같은 광범위한 언어 적 특징을 공유합니다.
Kazakhtts2라는 대규모 및 오픈 소스 연설 코퍼스 덕분에 우리의 연구는 실현 가능해졌습니다. 코퍼스에는 5 개의 목소리 (3 명의 여성과 2 명의 남성)와 270 시간 이상의 고품질 전사 데이터가 포함되어 있습니다. Kazakhtts2는 공개적으로 이용 가능하며 학업 및 상업적 사용을 모두 허용합니다.
Turkic 언어에 대한 음성 합성을 가능하게하기 위해 IPA 기반 변환 모듈을 구성했습니다. IPA 기반 변환기는 다른 터키 언어의 알파벳에서 문자를 가져 와서 카자흐 알파벳의 문자로 변환합니다. 이를 위해 입력 된 문자는 먼저 해당 IPA 표현으로 변환됩니다. 다음으로, IPA 기호는 카자흐 알파벳의 문자로 변환되며, 이는 구성된 TTS 모델의 입력으로 사용할 수 있습니다.
Turkic Alphabets의 IPA 기호에 대한 매핑은 Turkic에서 Kazakh로 오류없는 변환을 허용하고 다루는 모든 언어를 다룰 수있는 완전한 매핑을 찾을 수 없었기 때문에 전문 지식을 기반으로 수동으로 작성되었습니다. Kazakh는 소스 언어로 사용되므로 Kazakh 알파벳의 42 글자에 해당하는 42 개의 IPA 기호 만 선택했습니다. 문제의 투르크어 언어 중 카자흐 (Kazakh) (바쉬 키르와 함께)는 가장 많은 글자이며 대상 언어의 대부분의 음소가 포함되어 있다고 언급 할 가치가 있습니다. 개발 된 매핑은 또한 음성 인식, 음성 번역 등과 같은 터키 언어를위한 다국어 시스템 구축을 목표로하는 다른 작업을위한 안내서로 사용될 수 있습니다. 터키 알파벳을 IPA 기호에 매핑하는 것은 여기에서 찾을 수 있습니다.
아래는 주관적인 평가를 수집하기 위해 연구에 사용 된 10 가지 설문지에 대한 링크입니다. 이 설문지는 Turkic 언어로 운영되는 인기있는 소셜 미디어 플랫폼에 배포되었습니다. 관심이 있으시면 언제든지 확인하십시오. 귀하의 참여와 의견은 우리가 연구를위한 귀중한 데이터를 수집하는 데 큰 감사를 표합니다. 귀하의 통찰력은 조사중인 주제에 대한 더 깊은 이해에 기여할 것입니다.
각 설문지는 20 개의 짧은 질문으로 구성되며 약 5 분이 걸립니다. 배경 지식이 필요하지 않습니다.
당신은 요청받을 것입니다
시간과 고려해 주셔서 감사합니다.
Azerbaijani ai️ Bashkir ▫️ Kazakh 향
평가자 수 (R), 성별 (F & M) 및 연령 (<45 & 45+)에 대한 설문 조사 통계 및 합성 된 음성의 전체 품질 (Q), 이해력 (C) 및 명료성 (i)의 평가 결과.
| 언어 | 아르 자형 | 에프 | 중 | <45 | 45+ | 큐 | 기음 | 나 |
|---|---|---|---|---|---|---|---|---|
| 아제르바이잔 | 47 | 22 | 25 | 22 | 25 | 2.93 | 90% | 52% |
| 바쉬 키르 | 11 | 8 | 3 | 4 | 7 | 2.67 | 92% | 47% |
| 카자흐 | 151 | 89 | 62 | 120 | 31 | 4.18 | 97% | 80% |
| 키르기즈 | 14 | 12 | 2 | 6 | 8 | 3.54 | 86% | 43% |
| 사카 | 254 | 155 | 99 | 147 | 107 | 2.85 | 93% | 15% |
| 타타르 | 15 | 12 | 3 | 3 | 12 | 2.82 | 79% | 17% |
| 터키 | 18 | 6 | 12 | 15 | 3 | 3.25 | 91% | 61% |
| 투르크멘 말 | 6 | 0 | 6 | 6 | 0 | 2.37 | 67% | 57% |
| uyghur | 10 | 6 | 4 | 6 | 4 | 3.01 | 45% | 26% |
| 우즈벡 | 22 | 2 | 20 | 19 | 3 | 2.85 | 80% | 45% |
| 총 | 548 | 312 | 236 | 348 | 200 | 3.25 | 92% | 41% |
미리 훈련 된 보코더와 동일한 디렉토리에서 음향 모델을 모두 압축하십시오.
from parallel_wavegan . utils import load_model
from espnet2 . bin . tts_inference import Text2Speech
from scipy . io . wavfile import write
from utils import normalization
import torch
fs = 22050
vocoder_checkpoint = "parallelwavegan_male2_checkpoint/checkpoint-400000steps.pkl" ### specify vocoder path
vocoder = load_model ( vocoder_checkpoint ). to ( "cuda" ). eval ()
vocoder . remove_weight_norm ()
### specify path to the main model(transformer/tacotron2/fastspeech) and its config file
config_file = "exp/tts_train_raw_char/config.yaml"
model_path = "exp/tts_train_raw_char/train.loss.ave_5best.pth"
text2speech = Text2Speech (
config_file ,
model_path ,
device = "cuda" , ## if cuda not available use cpu
### only for Tacotron 2
threshold = 0.5 ,
minlenratio = 0.0 ,
maxlenratio = 10.0 ,
use_att_constraint = True ,
backward_window = 1 ,
forward_window = 3 ,
### only for FastSpeech & FastSpeech2
speed_control_alpha = 1.0 ,
)
text2speech . spc2wav = None ### disable griffin-lim
text = "merhaba"
### available options are azerbaijani, bashkir, kazakh, kyrgyz, sakha, tatar, turkish, turkmen, uyghur, uzbek
lang = "turkish"
text = normalization ( text , lang )
with torch . no_grad ():
c_mel = text2speech ( text )[ 'feat_gen' ]
wav = vocoder . inference ( c_mel )
write ( "result.wav" , fs , wav . view ( - 1 ). cpu (). numpy ())아제르바이잔
Azərbaycan Xəzər dənizi hövzəsinin qərbində yerləşir.
바쉬 키르
Башҡортостан Республикаһы шарттарында ауыл хужалығы етерлек хеҙмәт ресурстарына нигеҙләнә.
카자흐
Қазақстан — Шығыс Еуропа мен Орталық Азияда орналасқан мемлекет.
키르기즈
Кыргыз Республикасы — Борбордук Азияда жайгашкан мамлекет.
사카
Саха Өрөспүүбүлүкэтэ Сибиир хотугулуу-илин өттүгэр сытар.
타타르
Татарстан территориясе — урманлы җирдә яткан тигезлек.
터키
Türk dünyası, tüm Türk halkları kapsayan bir kavramdır.
투르크멘 말
Türkmenistan merkezi Aziýada bir döwletdir.
uyghur
Arabic: ئۇيغۇر خەلقى تۈركىي مىللەتلىرىنىڭ ئايرىلماس بىر قىسمى ھەم مۇھىم بىر تەركىبىي قىسمى.
Cyrillic: Уйғур хәлқи түркий милләтлириниң айрилмас бир қисми һәм муһим бир тәркибий қисми.
Latin: Uyghur xelqi türkiy milletlirining ayrilmas bir qismi hem muhim bir terkibiy qismi.
우즈벡
Oʻzbekiston — Markaziy Osiyoning markaziy qismida joylashgan mamlakat.
우리는이 연구에 참가자 모집에 기여한 모든 개인 덕분에 진심으로 감사의 말을 전하고 싶습니다. 그들의 노력은 설문 조사의 성공에 중요했습니다. 특히, 우리는 Biktor Krivogornitsyn에게 상당한 수의 Sakha 스피커를 끌어들이는 데 헌신적 인 헌신에 대한 깊은 감사를 표명하고 싶습니다. 그의 기여는 매우 귀중했고, 우리는 그의지지에 감사합니다.
우리는 당신이 당신의 작업에서 우리의 모델을 활용한다면, 당신은 그 기여를 인정하기 위해 우리의 논문을 인용하는 것을 고려할 것을 요청합니다. 적절한 출처를 인용하면 학문적 무결성을 촉진하고 원래 저자에게 신용을 제공 할 수 있습니다. 귀하의 연구에서 본 논문을 인정함으로써 귀하는 과학계의 지속적인 발전과 발전에 기여합니다. 우리의 노력에 대한 귀하의 지원과 인정에 감사드립니다.
@inproceedings { yeshpanov23_interspeech ,
author = { Rustem Yeshpanov and Saida Mussakhojayeva and Yerbolat Khassanov } ,
title = { {Multilingual Text-to-Speech Synthesis for Turkic Languages Using Transliteration} } ,
year = 2023 ,
booktitle = { Proc. INTERSPEECH 2023 } ,
pages = { 5521--5525 } ,
doi = { 10.21437/Interspeech.2023-249 }
}