Este repositorio proporciona una demostración y un modelo previamente capacitado para el documento.
Síntesis multilingüe de texto a voz para lenguas turcas utilizando transliteración
El modelo admite diez idiomas turcos, incluidos Azerbaiyani, Bashkir, Kazajus, Kirguistán, Sakha, Tatar, Turquía, Turkmen, Uyghur y Uzbek. Hablada en una amplia área geográfica que se extiende desde los Balcanes hasta Asia Central hasta el noreste de Siberia, estos idiomas comparten una amplia gama de características lingüísticas comunes, como armonía vocal, aglutinación extensa, orden de objeto-objeto-verbo y la ausencia de género y artículos gramaticales.
Nuestro estudio se hizo factible gracias a un corpus de discurso a gran escala y de código abierto llamado Kazajhtts2. El corpus contiene cinco voces (tres mujeres y dos hombres) y más de 270 horas de datos transcritos de alta calidad. Kazajhtts2 está disponible públicamente, lo que permite el uso académico y comercial.
Para habilitar la síntesis del habla para los idiomas turcos, construimos un módulo de conversión basado en IPA. El convertidor basado en IPA toma letras de los alfabetos de otros idiomas turcos y las convierte en las letras del alfabeto kazajos. Para este propósito, las letras ingresadas se convierten primero en las representaciones de IPA correspondientes. A continuación, los símbolos IPA se convierten en las letras del alfabeto Kazajus, que se puede usar como entrada para los modelos TTS construidos.
Las asignaciones de los alfabetos turcos en los símbolos de IPA se crearon manualmente en función de nuestra experiencia, ya que no pudimos encontrar un mapeo completo que permitiera una conversión sin errores de turco a kazajas y cubriría todos los idiomas abordados. Dado que el kazajo se usa como lenguaje fuente, seleccionamos solo 42 símbolos IPA correspondientes a las 42 letras del alfabeto kazajos. Vale la pena mencionar que, de las lenguas turcas en cuestión, el kazajro, junto con Bashkir, tiene la mayor cantidad de letras y contiene una gran mayoría de los fonemas de los idiomas objetivo. Las asignaciones desarrolladas también se pueden utilizar como guía para otros trabajos destinados a construir sistemas multilingües para lenguas turcas, como reconocimiento de voz, traducción del habla, etc. El mapeo de los alfabetos turcos en símbolos de IPA se puede encontrar aquí.
A continuación se presentan los enlaces a los diez cuestionarios utilizados en el estudio para recopilar evaluaciones subjetivas. Estos cuestionarios se distribuyeron en plataformas populares de redes sociales que operan en los idiomas turcos. Si está interesado, no dude en verlos. Su participación y su opinión son muy apreciados para ayudarnos a recopilar datos valiosos para nuestra investigación. Sus ideas contribuirán a una comprensión más profunda del tema bajo investigación.
Cada cuestionario consta de 20 preguntas cortas y debe tomarle unos 5 minutos. No se requiere conocimiento de fondo.
Se le pedirá que
Gracias por su tiempo y consideración.
Azerbaiyani ▫️ Bashkir ▫️ Kazajhh ▫️ Kirgyz ▫️ Sakha ▫️ Tatar ▫️ Turkish ▫️ Turkmen ▫️ Uyghur ▫️ uzbek
Las estadísticas de la encuesta para el número de evaluador (R), el género (F&M) y la edad (<45 y 45+) y los resultados de la evaluación de la calidad general (Q), la comprensibilidad (C) y la inteligibilidad (I) del habla sintetizada.
| Idioma | Riñonal | F | METRO | <45 | 45+ | Q | do | I |
|---|---|---|---|---|---|---|---|---|
| Azerbaiyano | 47 | 22 | 25 | 22 | 25 | 2.93 | 90% | 52% |
| Brashkir | 11 | 8 | 3 | 4 | 7 | 2.67 | 92% | 47% |
| Kazáceo | 151 | 89 | 62 | 120 | 31 | 4.18 | 97% | 80% |
| Kirguistán | 14 | 12 | 2 | 6 | 8 | 3.54 | 86% | 43% |
| Sakha | 254 | 155 | 99 | 147 | 107 | 2.85 | 93% | 15% |
| Tártaro | 15 | 12 | 3 | 3 | 12 | 2.82 | 79% | 17% |
| turco | 18 | 6 | 12 | 15 | 3 | 3.25 | 91% | 61% |
| Turco | 6 | 0 | 6 | 6 | 0 | 2.37 | 67% | 57% |
| Uigur | 10 | 6 | 4 | 6 | 4 | 3.01 | 45% | 26% |
| Uzbek | 22 | 2 | 20 | 19 | 3 | 2.85 | 80% | 45% |
| Total | 548 | 312 | 236 | 348 | 200 | 3.25 | 92% | 41% |
Descomprima tanto el vocoder previamente capacitado como el modelo acústico en el mismo directorio.
from parallel_wavegan . utils import load_model
from espnet2 . bin . tts_inference import Text2Speech
from scipy . io . wavfile import write
from utils import normalization
import torch
fs = 22050
vocoder_checkpoint = "parallelwavegan_male2_checkpoint/checkpoint-400000steps.pkl" ### specify vocoder path
vocoder = load_model ( vocoder_checkpoint ). to ( "cuda" ). eval ()
vocoder . remove_weight_norm ()
### specify path to the main model(transformer/tacotron2/fastspeech) and its config file
config_file = "exp/tts_train_raw_char/config.yaml"
model_path = "exp/tts_train_raw_char/train.loss.ave_5best.pth"
text2speech = Text2Speech (
config_file ,
model_path ,
device = "cuda" , ## if cuda not available use cpu
### only for Tacotron 2
threshold = 0.5 ,
minlenratio = 0.0 ,
maxlenratio = 10.0 ,
use_att_constraint = True ,
backward_window = 1 ,
forward_window = 3 ,
### only for FastSpeech & FastSpeech2
speed_control_alpha = 1.0 ,
)
text2speech . spc2wav = None ### disable griffin-lim
text = "merhaba"
### available options are azerbaijani, bashkir, kazakh, kyrgyz, sakha, tatar, turkish, turkmen, uyghur, uzbek
lang = "turkish"
text = normalization ( text , lang )
with torch . no_grad ():
c_mel = text2speech ( text )[ 'feat_gen' ]
wav = vocoder . inference ( c_mel )
write ( "result.wav" , fs , wav . view ( - 1 ). cpu (). numpy ())Azerbaiyano
Azərbaycan Xəzər dənizi hövzəsinin qərbində yerləşir.
Brashkir
Башҡортостан Республикаһы шарттарында ауыл хужалығы етерлек хеҙмәт ресурстарына нигеҙләнә.
Kazáceo
Қазақстан — Шығыс Еуропа мен Орталық Азияда орналасқан мемлекет.
Kirguistán
Кыргыз Республикасы — Борбордук Азияда жайгашкан мамлекет.
Sakha
Саха Өрөспүүбүлүкэтэ Сибиир хотугулуу-илин өттүгэр сытар.
Tártaro
Татарстан территориясе — урманлы җирдә яткан тигезлек.
turco
Türk dünyası, tüm Türk halkları kapsayan bir kavramdır.
Turco
Türkmenistan merkezi Aziýada bir döwletdir.
Uigur
Arabic: ئۇيغۇر خەلقى تۈركىي مىللەتلىرىنىڭ ئايرىلماس بىر قىسمى ھەم مۇھىم بىر تەركىبىي قىسمى.
Cyrillic: Уйғур хәлқи түркий милләтлириниң айрилмас бир қисми һәм муһим бир тәркибий қисми.
Latin: Uyghur xelqi türkiy milletlirining ayrilmas bir qismi hem muhim bir terkibiy qismi.
Uzbek
Oʻzbekiston — Markaziy Osiyoning markaziy qismida joylashgan mamlakat.
Nos gustaría extender nuestro sincero agradecimiento a todas las personas que contribuyeron al reclutamiento de participantes para este estudio. Sus esfuerzos fueron críticos para el éxito de nuestra encuesta. En particular, nos gustaría expresar nuestro más profundo aprecio a Viktor Krivogornitsyn por su extraordinaria dedicación al atraer un número sustancial de hablantes de Sakha. Su contribución fue invaluable, y estamos agradecidos por su apoyo.
Solicitamos amablemente que si utiliza nuestro modelo en su trabajo, considera citar nuestro documento para reconocer su contribución. Citar las fuentes apropiadas ayuda a promover la integridad académica y garantiza que el crédito se otorgue a los autores originales. Al reconocer nuestro artículo en su investigación, usted contribuye al desarrollo continuo y al avance de la comunidad científica. Agradecemos su apoyo y reconocimiento de nuestros esfuerzos.
@inproceedings { yeshpanov23_interspeech ,
author = { Rustem Yeshpanov and Saida Mussakhojayeva and Yerbolat Khassanov } ,
title = { {Multilingual Text-to-Speech Synthesis for Turkic Languages Using Transliteration} } ,
year = 2023 ,
booktitle = { Proc. INTERSPEECH 2023 } ,
pages = { 5521--5525 } ,
doi = { 10.21437/Interspeech.2023-249 }
}