TurkicTTS 다운로드 TurkicTTS 소스 코드 다운로드

TurkicTTS

AI 소스 코드

1.0.0

다운로드

투르 키트
⌨️?

이 저장소는 종이에 대한 데모와 미리 훈련 된 모델을 제공합니다.
음역을 사용한 터키 언어에 대한 다국어 텍스트 음성 연설 합성

언어

이 모델은 아제르바이잔, 바쉬 키르, 카자흐, 키르기즈, 사카, 타타르, 터키어, 투르크멘, Uyghur 및 Uzbek을 포함한 10 개의 터키 언어를 지원합니다. 발칸 반도에서 중앙 아시아까지 시베리아 북동부에 이르기까지 넓은 지리적 지역에서 사용되는이 언어들은 모음 조화, 광범위한 응집, 주제 관찰 질서 및 문법 성별 및 기사의 부재와 같은 광범위한 언어 적 특징을 공유합니다.

데이터 세트? ️

Kazakhtts2라는 대규모 및 오픈 소스 연설 코퍼스 덕분에 우리의 연구는 실현 가능해졌습니다. 코퍼스에는 5 개의 목소리 (3 명의 여성과 2 명의 남성)와 270 시간 이상의 고품질 전사 데이터가 포함되어 있습니다. Kazakhtts2는 공개적으로 이용 가능하며 학업 및 상업적 사용을 모두 허용합니다.

접근하다 ?

Turkic 언어에 대한 음성 합성을 가능하게하기 위해 IPA 기반 변환 모듈을 구성했습니다. IPA 기반 변환기는 다른 터키 언어의 알파벳에서 문자를 가져 와서 카자흐 알파벳의 문자로 변환합니다. 이를 위해 입력 된 문자는 먼저 해당 IPA 표현으로 변환됩니다. 다음으로, IPA 기호는 카자흐 알파벳의 문자로 변환되며, 이는 구성된 TTS 모델의 입력으로 사용할 수 있습니다.

Turkic Alphabets의 IPA 기호에 대한 매핑은 Turkic에서 Kazakh로 오류없는 변환을 허용하고 다루는 모든 언어를 다룰 수있는 완전한 매핑을 찾을 수 없었기 때문에 전문 지식을 기반으로 수동으로 작성되었습니다. Kazakh는 소스 언어로 사용되므로 Kazakh 알파벳의 42 글자에 해당하는 42 개의 IPA 기호 만 선택했습니다. 문제의 투르크어 언어 중 카자흐 (Kazakh) (바쉬 키르와 함께)는 가장 많은 글자이며 대상 언어의 대부분의 음소가 포함되어 있다고 언급 할 가치가 있습니다. 개발 된 매핑은 또한 음성 인식, 음성 번역 등과 같은 터키 언어를위한 다국어 시스템 구축을 목표로하는 다른 작업을위한 안내서로 사용될 수 있습니다. 터키 알파벳을 IPA 기호에 매핑하는 것은 여기에서 찾을 수 있습니다.

설문 조사 →? ☹️ ? → → → → ✅️

아래는 주관적인 평가를 수집하기 위해 연구에 사용 된 10 가지 설문지에 대한 링크입니다. 이 설문지는 Turkic 언어로 운영되는 인기있는 소셜 미디어 플랫폼에 배포되었습니다. 관심이 있으시면 언제든지 확인하십시오. 귀하의 참여와 의견은 우리가 연구를위한 귀중한 데이터를 수집하는 데 큰 감사를 표합니다. 귀하의 통찰력은 조사중인 주제에 대한 더 깊은 이해에 기여할 것입니다.

각 설문지는 20 개의 짧은 질문으로 구성되며 약 5 분이 걸립니다. 배경 지식이 필요하지 않습니다.

당신은 요청받을 것입니다

10 개의 오디오 녹음을 듣고 품질을 평가하십시오.
5 가지 짧은 질문을 듣고 답변을 선택하십시오.
짧은 문장 5 개를 듣고 입력하십시오.

시간과 고려해 주셔서 감사합니다.

Azerbaijani ai️ Bashkir ▫️ Kazakh 향

평가 결과

평가자 수 (R), 성별 (F & M) 및 연령 (<45 & 45+)에 대한 설문 조사 통계 및 합성 된 음성의 전체 품질 (Q), 이해력 (C) 및 명료성 (i)의 평가 결과.

언어	아르 자형	에프	중	<45	45+	큐	기음	나
아제르바이잔	47	22	25	22	25	2.93	90%	52%
바쉬 키르	11	8	3	4	7	2.67	92%	47%
카자흐	151	89	62	120	31	4.18	97%	80%
키르기즈	14	12	2	6	8	3.54	86%	43%
사카	254	155	99	147	107	2.85	93%	15%
타타르	15	12	3	3	12	2.82	79%	17%
터키	18	6	12	15	3	3.25	91%	61%
투르크멘 말	6	0	6	6	0	2.37	67%	57%
uyghur	10	6	4	6	4	3.01	45%	26%
우즈벡	22	2	20	19	3	2.85	80%	45%
총	548	312	236	348	200	3.25	92%	41%

사전 예방 모델

미리 훈련 된 보코더와 동일한 디렉토리에서 음향 모델을 모두 압축하십시오.

보코더 : Parallel Wavegan_Male2_checkpoint

https://issai.nu.edu.kz/wp-content/uploads/2022/03/parallelwavegan_male2_checkpoint.zip

음향 모델 : kaztts_male2_tacotron2_train.loss.ave

https://issai.nu.edu.kz/wp-content/uploads/2022/03/kaztts_male2_tacotron2_train.loss.ave.zip

추론?

 from parallel_wavegan . utils import load_model
from espnet2 . bin . tts_inference import Text2Speech
from scipy . io . wavfile import write
from utils import normalization
import torch

fs = 22050
vocoder_checkpoint = "parallelwavegan_male2_checkpoint/checkpoint-400000steps.pkl" ### specify vocoder path
vocoder = load_model ( vocoder_checkpoint ). to ( "cuda" ). eval ()
vocoder . remove_weight_norm ()

### specify path to the main model(transformer/tacotron2/fastspeech) and its config file
config_file = "exp/tts_train_raw_char/config.yaml"
model_path = "exp/tts_train_raw_char/train.loss.ave_5best.pth"

text2speech = Text2Speech (
    config_file ,
    model_path ,
    device = "cuda" , ## if cuda not available use cpu
    ### only for Tacotron 2
    threshold = 0.5 ,
    minlenratio = 0.0 ,
    maxlenratio = 10.0 ,
    use_att_constraint = True ,
    backward_window = 1 ,
    forward_window = 3 ,
    ### only for FastSpeech & FastSpeech2
    speed_control_alpha = 1.0 ,
)
text2speech . spc2wav = None  ### disable griffin-lim

text = "merhaba"
### available options are azerbaijani, bashkir, kazakh, kyrgyz, sakha, tatar, turkish, turkmen, uyghur, uzbek
lang = "turkish"

text = normalization ( text , lang )
with torch . no_grad ():
    c_mel = text2speech ( text )[ 'feat_gen' ]
    wav = vocoder . inference ( c_mel )
write ( "result.wav" , fs , wav . view ( - 1 ). cpu (). numpy ())

합성 된 샘플?

아제르바이잔

 Azərbaycan Xəzər dənizi hövzəsinin qərbində yerləşir.

AZ_01.MOV

바쉬 키르

 Башҡортостан Республикаһы шарттарында ауыл хужалығы етерлек хеҙмәт ресурстарына нигеҙләнә.

BA_01.MOV

카자흐

 Қазақстан — Шығыс Еуропа мен Орталық Азияда орналасқан мемлекет.

KK_01.MOV

키르기즈

 Кыргыз Республикасы — Борбордук Азияда жайгашкан мамлекет.

ky_01.mov

사카

 Саха Өрөспүүбүлүкэтэ Сибиир хотугулуу-илин өттүгэр сытар.

SA_01.MOV

타타르

 Татарстан территориясе — урманлы җирдә яткан тигезлек.

TT_01.MOV

터키

 Türk dünyası, tüm Türk halkları kapsayan bir kavramdır.

tr_01.mov

투르크멘 말

 Türkmenistan merkezi Aziýada bir döwletdir.

tm_01.mov

uyghur

 Arabic: ئۇيغۇر خەلقى تۈركىي مىللەتلىرىنىڭ ئايرىلماس بىر قىسمى ھەم مۇھىم بىر تەركىبىي قىسمى.
Cyrillic: Уйғур хәлқи түркий милләтлириниң айрилмас бир қисми һәм муһим бир тәркибий қисми.
Latin: Uyghur xelqi türkiy milletlirining ayrilmas bir qismi hem muhim bir terkibiy qismi.

ug_01.mov

우즈벡

 Oʻzbekiston — Markaziy Osiyoning markaziy qismida joylashgan mamlakat.

uz_01.mov

감사의 말

우리는이 연구에 참가자 모집에 기여한 모든 개인 덕분에 진심으로 감사의 말을 전하고 싶습니다. 그들의 노력은 설문 조사의 성공에 중요했습니다. 특히, 우리는 Biktor Krivogornitsyn에게 상당한 수의 Sakha 스피커를 끌어들이는 데 헌신적 인 헌신에 대한 깊은 감사를 표명하고 싶습니다. 그의 기여는 매우 귀중했고, 우리는 그의지지에 감사합니다.

인용?

우리는 당신이 당신의 작업에서 우리의 모델을 활용한다면, 당신은 그 기여를 인정하기 위해 우리의 논문을 인용하는 것을 고려할 것을 요청합니다. 적절한 출처를 인용하면 학문적 무결성을 촉진하고 원래 저자에게 신용을 제공 할 수 있습니다. 귀하의 연구에서 본 논문을 인정함으로써 귀하는 과학계의 지속적인 발전과 발전에 기여합니다. 우리의 노력에 대한 귀하의 지원과 인정에 감사드립니다.

 @inproceedings { yeshpanov23_interspeech ,
  author = { Rustem Yeshpanov and Saida Mussakhojayeva and Yerbolat Khassanov } ,
  title = { {Multilingual Text-to-Speech Synthesis for Turkic Languages Using Transliteration} } ,
  year = 2023 ,
  booktitle = { Proc. INTERSPEECH 2023 } ,
  pages = { 5521--5525 } ,
  doi = { 10.21437/Interspeech.2023-249 }
}