Téléchargement CTTS - CTTS Code source Télécharger

CTTS

Code Source AI

1.0.0

Télécharger

Frontend tts cantonais

Texte cantonais / chinois à la parole basée sur la synthèse de la parole paramétrique statistique à l'aide de la boîte à outils Merlin

Ce projet est influencé par MTTS

Comment reproduire

Tout d'abord, vous avez besoin de données contenant wav et txt (la marque prosodale est facultative)
Deuxièmement, générez l'étiquette HTS en utilisant ce projet
Utilisation de Merlin / EGS / Cantonais_Voice pour s'entraîner et générer une voix cantonaise

Ensemble d'annotation et de questions liés au contexte

Annotation liée au contexte
Question des questions
Règles pour concevoir un ensemble de questions

Installer

Python: Python3.6
Système: Linux (testé sur Ubuntu16.04)

 sudo apt-get install libatlas3-base

Exécutez bash tools/install_mtts.sh
Ou téléchargez un fichier par vous-même

Téléchargez l'aligneur de montreal-forcé et décompressez les outils de répertoire /

Demo de course

 bash run_demo.sh

Usage

1. Générer l'étiquette HTS par wav et texte

Utilisation: Exécutez python src/mtts.py txtfile wav_directory_path output_directory_path (chemin absolu ou chemin relatif) alors vous obtiendrez un étiquette -a your_acoustic_model.zip , si vous avez votre propre modèle acoustique formé par un projet mensuel, utilisez Thchs3
ATTENTION: Actuellement, ne soutient que le caractère chinois, TXT ne devrait pas avoir de numéro d'Arabie ou d'alphabet anglais

Exemple TxtFile

 A_01 这是一段文本
A_02 这是第二段文本

Exemple Wav_directory (le taux d'échantillonnage devrait supérieur à 16 kHz)

 A_01.wav  
A_02.wav

2. Générez l'étiquette HTS par texte avec ou sans fichier d'alignement

Utilisation: Exécutez python src/mandarin_frontend.py txtfile output_directory_path
ou importer mandarin_frontend

 from mandarin_frontend import txt2label

result = txt2label('向香港特别行政区同胞澳门和台湾同胞海外侨胞')
[print(line) for line in result]

Voir le code source pour plus d'informations, mais faites attention au fichier d'alignement (fichier SFS), le format est endtime phone_type non start_time, phone_type (qui est différent des données de Speech Ocean)

3. Alignement forcé

Ce projet utilise l'aligneur de Montréal-Forced pour effectuer un alignement forcé, si vous souhaitez obtenir un meilleur alignement, utilisez vos données pour former un modèle d'alignement, voir MFA: Algin-Using-Only-the-Dataset

Nous avons formé le modèle acoustique sur notre ensemble de données.

Mark de la prosodie

Vous pouvez générer un étiquette HTS sans Mark Prosody. Nous supposons que le segment des mots est plus petit que le mot prosodique (qui est ajusté en code)