Téléchargement MTTS - Téléchargement du code source MTTS

MTTS

Code Source AI

1.0.0

Télécharger

Ce projet a été arrêté et est assez ancien

recommander:

https://github.com/paddlepaddle/paddlespeech/tree/develop/paddlespeech/t2s/frontend
https://github.com/thuhcsi/crystal

Bienvenue à rejoindre

COMMUNICATION SYNTHÈSE VOCTY GROUPE QQ: 882726654

Une démo de MTTS Mandarin / Texte chinois à la parole Frontend

Mandarin / Texte chinois à la parole basée sur la synthèse de la parole des paramètres statistiques à l'aide de la boîte à outils Merlin

Ce n'est qu'une démo à l'avant de la synthèse de prononciation. Il ne fournit pas de fonctions de régularisation de texte et de prédiction du rythme. Utilisez Pypyin pour convertir du texte en pinyin et utilisez le bégaiement pour participer. La précision de ces deux n'est pas aussi bonne que le niveau commercial.

Pour d'autres projets de synthèse vocale, le portail de bout en bout est une bonne direction, et le naturel est meilleur que celui de Merlin.

Ce n'est qu'une démo de frontend mandarin qui est le manque de certaines parties comme la «normalisation du texte» et la «prédiction de la prosodie», et l'ensemble de téléphones et les questions définissent ce projet d'utilisation n'a pas encore été complètement testé.

Une documentation approximative: un projet de documentation écrite en mandarin

Données

Il n'y a pas de jeu de données de synthèse de la parole de mandarine open source sur Internet, ce proj a utilisé un ensemble de données Thchs30 pour démostrater la synthèse de la parole

MISE À JOUR

Données de synthèse de la parole de mandarin open source de la société de banqueurs de données, données de synthèse de la parole chinoise open source, grâce à la société Biaobei

【Téléchargement des données】 https://weixinxcxdb.oss-cn-beijing.aliyuns.com/gwyinpinku/bznsyp.rar 【Description des données】 http://www.data-baker.com/open_source.httml

Échantillons générés

Écoutez https://jackiexiao.github.io/mtts/

Comment reproduire

Tout d'abord, vous avez besoin de données contient wav et txt (la marque prosodale est facultative)
Deuxièmement, générez l'étiquette HTS en utilisant ce projet
Utilisation de Merlin / Egs / Mandarin_Voice pour s'entraîner et générer une voix de mandarin

Ensemble d'annotation et de questions liés au contexte

Annotation liée au contexte
Question des questions
Règles pour concevoir un ensemble de questions de conception de règles

Installer

Python: Python3.6
Système: Linux (testé sur Ubuntu16.04)

 pip install jieba pypinyin
sudo apt-get install libatlas3-base

Exécutez bash tools/install_mtts.sh
Ou téléchargez un fichier par vous-même

Téléchargez l'aligneur de montreal-forcé et décompressez les outils de répertoire /
Télécharger acoustic_model thchs30.zip et copier dans le répertoire misc /

Demo de course

 bash run_demo.sh

Usage

1. Générer l'étiquette HTS par wav et texte

Utilisation: Exécutez python src/mtts.py txtfile wav_directory_path output_directory_path (chemin absolu ou chemin relatif) alors vous obtiendrez un étiquette -a your_acoustic_model.zip , si vous avez votre propre modèle acoustique formé par un projet mensuel, utilisez Thchs3
ATTENTION: Actuellement, ne soutient que le caractère chinois, TXT ne devrait pas avoir de numéro d'Arabie ou d'alphabet anglais (ne peut contenir des chiffres arabes et des caractères anglais)

Exemple TxtFile

 A_01 这是一段文本
A_02 这是第二段文本

Exemple Wav_directory (le taux d'échantillonnage devrait supérieur à 16 kHz)

 A_01.wav  
A_02.wav

2. Générez l'étiquette HTS par texte avec ou sans fichier d'alignement

Utilisation: Exécutez python src/mandarin_frontend.py txtfile output_directory_path
ou importer mandarin_frontend

 from mandarin_frontend import txt2label

result = txt2label('向香港特别行政区同胞澳门和台湾同胞海外侨胞')
[print(line) for line in result]

# with prosody mark and alignment file (sfs file)
# result = txt2label('向#1香港#2特别#1行政区#1同胞#4澳门#2和#1台湾#1同胞#4海外#1侨胞',
            sfsfile='example_file/example.sfs')

Voir le code source pour plus d'informations, mais faites attention au fichier d'alignement (fichier SFS), le format est endtime phone_type non start_time, phone_type (qui est différent des données de Speech Ocean)

3. Alignement forcé

Ce projet utilise l'aligneur de Montréal-Forced pour effectuer un alignement forcé, si vous souhaitez obtenir un meilleur alignement, utilisez vos données pour former un modèle d'alignement, voir MFA: Algin-Using-Only-the-Dataset

Nous avons formé le modèle acoustique à l'aide de l'ensemble de données THCHS30, voir misc/thchs30.zip , le dictionnaire que nous utilisons mandarin_mtts.lexicon. Si vous utilisez un ensemble de données plus grand que THCHS30, vous pouvez obtenir un meilleur alignement.
Si vous souhaitez utiliser le modèle de mandarin pré-formé de MFA (Montréal-Forced-aligneur), c'est le dictionnaire dont vous avez besoin mandarin-for-montreal

Mark de la prosodie

Vous pouvez générer un étiquette HTS sans Mark Prosody. Nous supposons que le segment des mots est plus petit que le mot prosodique (qui est ajusté en code)

"# 0", "# 1", "# 2", "# 3" et "# 4" sont les symboles d'étiquetage de la prosodie.

# 0 signifie Word segment
# 1 signifie mot prosodique
# 2 signifie Stressful Word (en fait, dans ce projet, nous le regardions comme # 1)
# 3 signifie phrase prosodique
# 4 représente une phrase internationale