CS Tacotron Pytorch Download - CS Tacotron Pytorch Code source Télécharger

CS Tacotron Pytorch

Code Source AI

1.0.0

Télécharger

Cs-tacotron

Une implémentation Pytorch de CS-Tacotron, un modèle de TTS génératif de bout en bout basé sur la synthèse du code basé sur le tacotron. Pour une version régulière de Tacotron, veuillez consulter ce dépôt.

Introduction

Avec le large succès des modèles récents de texte à la carte à la disposition (TTS), des résultats prometteurs sur la synthèse de la parole réaliste ont prouvé la capacité de la machine de synthétiser des voix humaines. Cependant, peu de progrès ont été réalisés dans le domaine de la synthèse de texte vocale chinois-anglais chinois, où la machine doit apprendre à gérer à la fois l'entrée et la sortie de manière multilingue. Le changement de code se produit lorsqu'un haut-parleur alterne entre deux langues ou plus, de nos jours, les gens communiquent dans les langages de commutation de code dans la vie quotidienne, d'où les technologies du langage parlées telles que TTS doivent être développées pour gérer les entrées et la sortie multilingues.

Dans ce travail, nous présentons le Tacotron à commutation de code, qui est construit sur la base du modèle génératif de text-to-voca-text à la pointe de bout en bout (Wang et al., 2017). CS-Tacotron est capable de synthétiser la parole de commutation de code conditionnée sur le texte CS brut. Compte tenu des paires de texte et d'audio CS, notre modèle peut être formé de bout en bout avec un prétraitement des données approprié. De plus, nous formons notre modèle sur l'ensemble de données de conférences, un ensemble de données basé sur des conférences chinois-anglais basé sur le code, qui provient du traitement numérique du cours (DSP) offert à l'Université nationale de Taïwan (NTU). Nous présentons plusieurs techniques de mise en œuvre clés pour faire en sorte que le modèle de tacotron fonctionne bien sur cette tâche de génération de parole multilingue difficile. CS-Tacotron possède la capacité de générer la parole CS à partir du texte CS et parle de manière vivante avec le style du haut-parleur de la conférence.

Voir le rapport.pdf pour plus de détails de ce travail.

Les demandes de traction sont les bienvenues!

Démo

Échantillons audio de CS-Tacotron. Toutes les phrases ci-dessous sont invisibles pendant la formation.

Si vous lisez ceci sur GitHub, veuillez visiter notre page GitHub pour que les barres audio s'affichent correctement.
Les fichiers audio et leurs tracés <spectrogramme / alignement correspondants> peuvent également être trouvés dans le résultat /.

CS-Tacotron fonctionne bien sur les entrées chinoises monolingues.

- "這是數位語音處理"
- "今天天氣很好"
- "歡迎來到台灣大學"
- "歡迎來到語音處理實驗室"
- "吃什麼好呢"

CS-Tacotron fonctionne bien sur les entrées chinois-anglais chinois-anglais hors du domaine .

- "每天都要 Happy"
- "這是語音處理 Traitement"
- "你可以多使用 Google"
- "Nouvel An 新氣象"
- "這是個好 Problème"

CS-Tacotron peut également adopter certaines entrées en anglais monolingue hors du domaine ,

Malgré le fait qu'aucune des données de formation ne contient une phrase en anglais complète.
- "Taiwan numéro un"
- "Vous avez un problème"

Démarrage rapide

Installation des dépendances

Installez Python 3.
Installez la dernière version de Pytorch selon votre plateforme. Pour de meilleures performances, installez avec GPU Support (CUDA) si viable. Ce code fonctionne avec Pytorch 1.0 et plus tard.
(Facultatif) Installez la dernière version de TensorFlow en fonction de votre plate-forme. Cela peut être facultatif, mais pour l'instant requis pour le traitement de la parole.
Installation des exigences:
```
 pip3 install -r requirements.txt
```
AVERTISSEMENT: vous devez installer Torch et Tensorflow / Tensorflow-GPU en fonction de votre plate-forme. Ici, nous énumérons la version Pytorch et TensorFlow que nous utilisons lorsque nous avons construit ce projet.

En utilisant un modèle pré-formé

Exécutez l'environnement de test avec le mode interactif :

 python3 test.py --interactive --plot --long_input --model 470000

Exécutez l'algorithme de test sur un ensemble de transcriptions (les résultats peuvent être trouvés dans le répertoire résultat / 480000):
```
 python3 test.py --plot --model 480000 --test_file_path ../data/text/test_sample.txt
 * '--long_input' is optional to add
```

Entraînement

Remarque: Nous avons formé notre modèle sur notre propre ensemble de données: conférences. Actuellement, cet ensemble de données n'est pas disponible pour la publication publique et reste une collection privée dans le laboratoire. Voir «rapport.pdf» pour plus d'informations sur cet ensemble de données.

Téléchargez un ensemble de données de commutation de code de votre choix.
Déballer l'ensemble de données dans ~/data/text et ~/data/audio .
Après le déballage, votre arbre de données devrait ressembler à ceci pour que les chemins par défaut fonctionnent:
```
 ./CS-Tacotron
 |- data
	 |- text
	 	|- train_sample.txt
	 	|- test_sample.txt
	 |- audio
	 	|- sample 
	 		|- audio_sample_*.wav
	 		|- ...
```

Remarque: Pour la section suivante, définissez les chemins en fonction des noms de fichiers de votre ensemble de données, ce n'est qu'une démonstration de quelques exemples de données. Le format de votre ensemble de données doit correspondre aux exemples de données fournies pour que ce code fonctionne.

Prétraitez les données du texte à l'aide de SRC / Preprocess.py:

 python3 preprocess.py --mode text --text_input_raw_path ../data/text/train_sample.txt --text_pinyin_path '../data/text/train_sample_pinyin.txt'

Prétrange des données audio à l'aide de SRC / Preprocess.py:

 python3 preprocess.py --mode audio --audio_input_dir ../data/audio/sample/ --audio_output_dir ../data/audio/sample_processed/ --visualization_dir ../data/audio/sample_visualization/

Visualisation des différences de prétraitement audio:

Créez des fichiers Meta prêts pour les modèles à partir de texte et d'audio à l'aide de SRC / Preprocess.py:

 python3 preprocess.py --mode meta --text_pinyin_path ../data/text/train_sample_pinyin.txt --audio_output_dir ../data/audio/sample_processed/

Former un modèle à l'aide de SRC / Train.py
```
 python3 train.py
```
Des hyperparamètres accordables se trouvent dans src / config.py. Vous pouvez ajuster ces paramètres et définir en modifiant le fichier. Les hyperparamètres par défaut sont recommandés pour les conférences et les autres données de commutation de code chinois-anglais.
Moniteur avec TensorBoardx (facultatif)
```
 tensorboard --logdir 'path to log dir'
```
Le formateur déverse l'audio et les alignements toutes les 2000 étapes par défaut. Vous pouvez les trouver dans CS-tacotron/ckpt .

Reconnaissance

Nous aimerions accorder le crédit au travail de Ryuichi Yamamoto, une merveilleuse implémentation en pytorch de Tacotron, sur laquelle nous avons principalement basé notre travail.

Alignement

Nous montrons le tracé d'alignement de la phase de test de notre modèle, où le premier montre l'alignement de la contribution chinoise monolingue, la seconde est la contribution chinoise-anglophone, et la troisième est respectivement l'entrée en anglais monolingue.

Développer

Informations supplémentaires

Version 1.0.0
Type Code Source AI
Date de mise à jour 2025-08-25
taille 158.14MB
Provenant de Github

Applications connexes

pytorch image models

2024-11-03
cs dlp

2024-11-01
Version mobile du jeu CS Contract Sniper

2024-06-09
Counter Terrorist Strike CS version chinoise version mobile

2023-12-11
Groupe de travail CS

2023-05-15
Tutoriel Illustrator CS Standard

2009-06-10

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
ML stack

Code Source AI

1.0.0
awesome free chatgpt

Code Source AI

1.0.0
pywin_contextmenu

Code Source AI

Version update
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout