このリポジトリは、論文のデモと事前に訓練されたモデルを提供します
音訳を使用したトルコ語のための多言語のテキストからスピーチ合成
このモデルは、アゼルバイジャン、バシュキル、カザフ、キルギス、サカ、タタール、トルコ語、トルクメン、ウイグル、ウズベックを含む10のトルコ語をサポートしています。バルカン半島から中央アジア、シベリア北東部まで伸びる広い地理的エリアを横切って話されているこれらの言語は、母音の調和、大規模な凝集、被験者オブジェクトの順序、文法的性別や記事の欠如など、幅広い一般的な言語特徴を共有しています。
私たちの研究は、Kazakhtts2と呼ばれる大規模でオープンソースのスピーチコーパスのおかげで実行可能になりました。コーパスには、5つの声(3人の女性と2人の男性)と270時間以上の高品質の転写データが含まれています。 Kazakhtts2は公開されており、学術的使用と商業的利用の両方を可能にします。
Turkic言語の音声合成を有効にするために、IPAベースの変換モジュールを構築しました。 IPAベースのコンバーターは、他のトルコ語のアルファベットから手紙を撮影し、それらをカザフのアルファベットの文字に変換します。この目的のために、入力された文字は最初に対応するIPA表現に変換されます。次に、IPAシンボルは、構築されたTTSモデルの入力として使用できるKazakhアルファベットの文字に変換されます。
Turkic AlphabetsのIPAシンボルへのマッピングは、TurkicからKazakhへのエラーのない変換を可能にし、アドレス指定されたすべての言語をカバーできる完全なマッピングを見つけることができなかったため、専門知識に基づいて手動で作成されました。 Kazakhはソース言語として使用されるため、Kazakhアルファベットの42文字に対応する42のIPA記号のみを選択しました。問題のトルコ語の言語のうち、カザフはバシキルと一緒に、ほとんどの文字があり、ターゲット言語の音素の大部分が含まれていることに言及する価値があります。開発されたマッピングは、音声認識、音声翻訳など、トルコ語用の多言語システムを構築することを目的とした他の作業のガイドとしても使用できます。 Turkic AlphabetsのIPAシンボルへのマッピングは、ここにあります。
以下は、主観的評価を収集するために研究で使用されている10のアンケートへのリンクです。これらのアンケートは、トルコ語で動作する人気のあるソーシャルメディアプラットフォームで配布されました。興味がある場合は、気軽にチェックしてください。あなたの参加と意見は、私たちの研究のための貴重なデータの収集を支援することに大いに感謝されています。あなたの洞察は、調査中の主題のより深い理解に貢献します。
各アンケートは20の短い質問で構成されており、約5分かかる必要があります。背景知識は必要ありません。
あなたは頼まれます
ご時間とご検討いただきありがとうございます。
Azerbaijani
評価者数(R)、性別(F&M)、および年齢(<45および45+)の調査統計と、合成された音声の全体的な品質(Q)、透明性(C)、および把握(I)の評価結果。
| 言語 | r | f | m | <45 | 45+ | Q | c | 私 |
|---|---|---|---|---|---|---|---|---|
| アゼルバイジャン | 47 | 22 | 25 | 22 | 25 | 2.93 | 90% | 52% |
| バシキル | 11 | 8 | 3 | 4 | 7 | 2.67 | 92% | 47% |
| カザフ | 151 | 89 | 62 | 120 | 31 | 4.18 | 97% | 80% |
| キルギス | 14 | 12 | 2 | 6 | 8 | 3.54 | 86% | 43% |
| サカ | 254 | 155 | 99 | 147 | 107 | 2.85 | 93% | 15% |
| タタール | 15 | 12 | 3 | 3 | 12 | 2.82 | 79% | 17% |
| トルコ語 | 18 | 6 | 12 | 15 | 3 | 3.25 | 91% | 61% |
| タークメン | 6 | 0 | 6 | 6 | 0 | 2.37 | 67% | 57% |
| uyghur | 10 | 6 | 4 | 6 | 4 | 3.01 | 45% | 26% |
| ウズベック | 22 | 2 | 20 | 19 | 3 | 2.85 | 80% | 45% |
| 合計 | 548 | 312 | 236 | 348 | 200 | 3.25 | 92% | 41% |
同じディレクトリの事前に訓練されたボコーダーとアコースティックモデルの両方を解凍します。
from parallel_wavegan . utils import load_model
from espnet2 . bin . tts_inference import Text2Speech
from scipy . io . wavfile import write
from utils import normalization
import torch
fs = 22050
vocoder_checkpoint = "parallelwavegan_male2_checkpoint/checkpoint-400000steps.pkl" ### specify vocoder path
vocoder = load_model ( vocoder_checkpoint ). to ( "cuda" ). eval ()
vocoder . remove_weight_norm ()
### specify path to the main model(transformer/tacotron2/fastspeech) and its config file
config_file = "exp/tts_train_raw_char/config.yaml"
model_path = "exp/tts_train_raw_char/train.loss.ave_5best.pth"
text2speech = Text2Speech (
config_file ,
model_path ,
device = "cuda" , ## if cuda not available use cpu
### only for Tacotron 2
threshold = 0.5 ,
minlenratio = 0.0 ,
maxlenratio = 10.0 ,
use_att_constraint = True ,
backward_window = 1 ,
forward_window = 3 ,
### only for FastSpeech & FastSpeech2
speed_control_alpha = 1.0 ,
)
text2speech . spc2wav = None ### disable griffin-lim
text = "merhaba"
### available options are azerbaijani, bashkir, kazakh, kyrgyz, sakha, tatar, turkish, turkmen, uyghur, uzbek
lang = "turkish"
text = normalization ( text , lang )
with torch . no_grad ():
c_mel = text2speech ( text )[ 'feat_gen' ]
wav = vocoder . inference ( c_mel )
write ( "result.wav" , fs , wav . view ( - 1 ). cpu (). numpy ())アゼルバイジャン
Azərbaycan Xəzər dənizi hövzəsinin qərbində yerləşir.
バシキル
Башҡортостан Республикаһы шарттарында ауыл хужалығы етерлек хеҙмәт ресурстарына нигеҙләнә.
カザフ
Қазақстан — Шығыс Еуропа мен Орталық Азияда орналасқан мемлекет.
キルギス
Кыргыз Республикасы — Борбордук Азияда жайгашкан мамлекет.
サカ
Саха Өрөспүүбүлүкэтэ Сибиир хотугулуу-илин өттүгэр сытар.
タタール
Татарстан территориясе — урманлы җирдә яткан тигезлек.
トルコ語
Türk dünyası, tüm Türk halkları kapsayan bir kavramdır.
タークメン
Türkmenistan merkezi Aziýada bir döwletdir.
uyghur
Arabic: ئۇيغۇر خەلقى تۈركىي مىللەتلىرىنىڭ ئايرىلماس بىر قىسمى ھەم مۇھىم بىر تەركىبىي قىسمى.
Cyrillic: Уйғур хәлқи түркий милләтлириниң айрилмас бир қисми һәм муһим бир тәркибий қисми.
Latin: Uyghur xelqi türkiy milletlirining ayrilmas bir qismi hem muhim bir terkibiy qismi.
ウズベック
Oʻzbekiston — Markaziy Osiyoning markaziy qismida joylashgan mamlakat.
この研究のために参加者の募集に貢献したすべての個人に心から感謝します。彼らの努力は、私たちの調査の成功にとって重要でした。特に、Viktor Krivogornitsynに、かなりの数のSakhaスピーカーを引き付けるという彼の並外れた献身について、私たちの最も深い感謝を表明したいと思います。彼の貢献は非常に貴重であり、私たちは彼の支援に感謝しています。
私たちは、あなたがあなたの仕事で私たちのモデルを利用するならば、あなたは私たちの論文を引用してその貢献を認めることを考えてください。適切な情報源を引用すると、学問の完全性の促進に役立ち、元の著者に信用が与えられるようになります。あなたの研究で私たちの論文を認めることにより、あなたは科学コミュニティの継続的な発展と進歩に貢献します。私たちは、私たちの努力のサポートと認識に感謝します。
@inproceedings { yeshpanov23_interspeech ,
author = { Rustem Yeshpanov and Saida Mussakhojayeva and Yerbolat Khassanov } ,
title = { {Multilingual Text-to-Speech Synthesis for Turkic Languages Using Transliteration} } ,
year = 2023 ,
booktitle = { Proc. INTERSPEECH 2023 } ,
pages = { 5521--5525 } ,
doi = { 10.21437/Interspeech.2023-249 }
}