Этот репозиторий предоставляет демонстрацию и предварительно обученную модель для бумаги
Многоязычный синтез текста в речь для туркских языков с использованием транслитерации
Модель поддерживает десять тюркских языков, в том числе азербайджани, Башкир, Казах, Кыргиз, Саха, Татар, Турции, Туркмен, Уйгур и Узбек. Рассматриваемые в широкой географической области, простирающейся от Балкан до Центральной Азии до северо-восточной Сибири, эти языки имеют широкий спектр общих лингвистических особенностей, таких как гласная гармония, обширная агглютинация, порядок субъекта-объекта и отсутствие грамматического пола и статей.
Наше исследование стало осуществимым благодаря крупномасштабному речевому корпусу с открытым исходным кодом под названием Kazakhtts2. Корпус содержит пять голосов (три женщины и два мужчины) и более 270 часов высококачественных транскрибированных данных. Kazakhtts2 публично доступен, что позволяет как академическому, так и коммерческому использованию.
Чтобы обеспечить синтез речи для туркских языков, мы построили модуль преобразования на основе IPA. Конвертер на основе IPA принимает буквы из алфавитов других туркских языков и превращает их в буквы казахского алфавита. Для этого введенные буквы сначала преобразуются в соответствующие представления IPA. Затем символы IPA преобразуются в буквы казахского алфавита, которые можно использовать в качестве входных данных для построенных моделей TTS.
Сопоставления турко-алфавитов на символах IPA были созданы вручную на основе нашего опыта, поскольку мы не смогли найти полное отображение, которое позволило бы без ошибок преобразования с тюрки в Казах и охватить все адресованные языки. Поскольку казах используется в качестве исходного языка, мы выбрали только 42 символа IPA, соответствующие 42 буквам казахского алфавита. Стоит отметить, что из рассматриваемых туркских языков казах - вместе с Башкиром - наиболее букв и содержит подавляющее большинство фонем целевых языков. Разработанные сопоставления также могут быть использованы в качестве руководства для другой работы, направленной на создание многоязычных систем для туркских языков, таких как распознавание речи, перевод речи и так далее. Картирование туркских алфавитов на символах IPA можно найти здесь.
Ниже приведены ссылки на десять анкет, используемые в исследовании для сбора субъективных оценок. Эти анкеты были распространены на популярных социальных сетях, работающих на туркских языках. Если вам интересно, не стесняйтесь их проверять. Ваше участие и вклад очень ценятся в том, чтобы помочь нам собрать ценные данные для нашего исследования. Ваше понимание будет способствовать более глубокому пониманию предмета, расследуемого.
Каждая анкета состоит из 20 коротких вопросов и должна занять у вас около 5 минут. Фоновые знания не требуются.
Вас попросят
Спасибо за ваше время и рассмотрение.
Азербайджани ▫ Башкир ▫ казах
Статистика обследования для числа оценщиков (R), пол (F & M) и возраста (<45 и 45+) и результатов оценки общего качества (Q), понимания (C) и разборчивости (i) синтезированной речи.
| Язык | Ведущий | Фон | М | <45 | 45+ | Q. | В | я |
|---|---|---|---|---|---|---|---|---|
| Азербайджани | 47 | 22 | 25 | 22 | 25 | 2.93 | 90% | 52% |
| Башкир | 11 | 8 | 3 | 4 | 7 | 2.67 | 92% | 47% |
| Казах | 151 | 89 | 62 | 120 | 31 | 4.18 | 97% | 80% |
| Кыргиз | 14 | 12 | 2 | 6 | 8 | 3.54 | 86% | 43% |
| Саха | 254 | 155 | 99 | 147 | 107 | 2.85 | 93% | 15% |
| Татар | 15 | 12 | 3 | 3 | 12 | 2.82 | 79% | 17% |
| турецкий | 18 | 6 | 12 | 15 | 3 | 3.25 | 91% | 61% |
| туркменский | 6 | 0 | 6 | 6 | 0 | 2.37 | 67% | 57% |
| Уйгур | 10 | 6 | 4 | 6 | 4 | 3.01 | 45% | 26% |
| Узбек | 22 | 2 | 20 | 19 | 3 | 2.85 | 80% | 45% |
| Общий | 548 | 312 | 236 | 348 | 200 | 3.25 | 92% | 41% |
Разируйте как предварительно обученный вокадер, так и акустическая модель в одном и том же каталоге.
from parallel_wavegan . utils import load_model
from espnet2 . bin . tts_inference import Text2Speech
from scipy . io . wavfile import write
from utils import normalization
import torch
fs = 22050
vocoder_checkpoint = "parallelwavegan_male2_checkpoint/checkpoint-400000steps.pkl" ### specify vocoder path
vocoder = load_model ( vocoder_checkpoint ). to ( "cuda" ). eval ()
vocoder . remove_weight_norm ()
### specify path to the main model(transformer/tacotron2/fastspeech) and its config file
config_file = "exp/tts_train_raw_char/config.yaml"
model_path = "exp/tts_train_raw_char/train.loss.ave_5best.pth"
text2speech = Text2Speech (
config_file ,
model_path ,
device = "cuda" , ## if cuda not available use cpu
### only for Tacotron 2
threshold = 0.5 ,
minlenratio = 0.0 ,
maxlenratio = 10.0 ,
use_att_constraint = True ,
backward_window = 1 ,
forward_window = 3 ,
### only for FastSpeech & FastSpeech2
speed_control_alpha = 1.0 ,
)
text2speech . spc2wav = None ### disable griffin-lim
text = "merhaba"
### available options are azerbaijani, bashkir, kazakh, kyrgyz, sakha, tatar, turkish, turkmen, uyghur, uzbek
lang = "turkish"
text = normalization ( text , lang )
with torch . no_grad ():
c_mel = text2speech ( text )[ 'feat_gen' ]
wav = vocoder . inference ( c_mel )
write ( "result.wav" , fs , wav . view ( - 1 ). cpu (). numpy ())Азербайджани
Azərbaycan Xəzər dənizi hövzəsinin qərbində yerləşir.
Башкир
Башҡортостан Республикаһы шарттарында ауыл хужалығы етерлек хеҙмәт ресурстарына нигеҙләнә.
Казах
Қазақстан — Шығыс Еуропа мен Орталық Азияда орналасқан мемлекет.
Кыргиз
Кыргыз Республикасы — Борбордук Азияда жайгашкан мамлекет.
Саха
Саха Өрөспүүбүлүкэтэ Сибиир хотугулуу-илин өттүгэр сытар.
Татар
Татарстан территориясе — урманлы җирдә яткан тигезлек.
турецкий
Türk dünyası, tüm Türk halkları kapsayan bir kavramdır.
туркменский
Türkmenistan merkezi Aziýada bir döwletdir.
Уйгур
Arabic: ئۇيغۇر خەلقى تۈركىي مىللەتلىرىنىڭ ئايرىلماس بىر قىسمى ھەم مۇھىم بىر تەركىبىي قىسمى.
Cyrillic: Уйғур хәлқи түркий милләтлириниң айрилмас бир қисми һәм муһим бир тәркибий қисми.
Latin: Uyghur xelqi türkiy milletlirining ayrilmas bir qismi hem muhim bir terkibiy qismi.
Узбек
Oʻzbekiston — Markaziy Osiyoning markaziy qismida joylashgan mamlakat.
Мы хотели бы выразить нашу сердечную благодарность всем людям, которые внесли свой вклад в набор участников для этого исследования. Их усилия имели решающее значение для успеха нашего опроса. В частности, мы хотели бы выразить свою глубокую оценку Виктору Кривогорнитсуну за его необычайную преданность привлечению значительного числа спикеров саха. Его вклад был бесценным, и мы благодарны за его поддержку.
Мы любезно просим, чтобы, если вы используете нашу модель в своей работе, вы рассмотрите возможность ссылаться на нашу статью, чтобы подтвердить ее вклад. Ссылаясь на соответствующие источники, помогает способствовать академической целостности и гарантирует, что кредит предоставляется первоначальным авторам. Признавая нашу статью в своем исследовании, вы вносите вклад в постоянное развитие и развитие научного сообщества. Мы ценим вашу поддержку и признание наших усилий.
@inproceedings { yeshpanov23_interspeech ,
author = { Rustem Yeshpanov and Saida Mussakhojayeva and Yerbolat Khassanov } ,
title = { {Multilingual Text-to-Speech Synthesis for Turkic Languages Using Transliteration} } ,
year = 2023 ,
booktitle = { Proc. INTERSPEECH 2023 } ,
pages = { 5521--5525 } ,
doi = { 10.21437/Interspeech.2023-249 }
}