Matcha TTS Download - Matcha TTS Source Téléchargement

Matcha TTS

Code Source AI

v0.0.7

Télécharger

? Matcha-TTS: une architecture TTS rapide avec correspondance de débit conditionnelle

Shivam Mehta, Ruibo Tu, Jonas Beskow, Éva Székely et Gustav Eje hent

Ceci est la mise en œuvre du code officiel? Matcha-TTS [ICASSP 2024].

Nous proposons? Matcha-TTS, une nouvelle approche de TTS neuronal non autorégressive, qui utilise l'appariement du débit conditionnel (similaire aux flux rectifiés) pour accélérer la synthèse de la parole basée sur les ODE. Notre méthode:

Est probabiliste
A une empreinte de mémoire compacte
Cela semble très naturel
Est très rapide à synthétiser à partir de

Consultez notre page de démonstration et lisez notre papier ICASSP 2024 pour plus de détails.

Les modèles pré-formés seront automatiquement téléchargés avec l'interface CLI ou Gradio.

Vous pouvez également essayer? Matcha-tts dans votre navigateur sur HuggingFace? espaces.

Vidéo de teaser

Installation

Créer un environnement (suggéré mais facultatif)

 conda create -n matcha-tts python=3.10 -y
conda activate matcha-tts

Installez des Matcha TTS à l'aide de PIP ou depuis Source

pip install matcha-tts

de la source

pip install git+https://github.com/shivammehta25/Matcha-TTS.git
cd Matcha-TTS
pip install -e .

Exécuter CLI / Gradio App / Jupyter Notebook

 # This will download the required models
matcha-tts --text " <INPUT TEXT> "

ou

matcha-tts-app

ou ouvrir synthesis.ipynb sur le cahier Jupyter

Arguments de la CLI

Pour synthétiser à partir du texte donné, exécutez:

matcha-tts --text " <INPUT TEXT> "

Pour synthétiser à partir d'un fichier, exécuter:

matcha-tts --file < PATH TO FILE >

Pour synthétiser par lots à partir d'un fichier, exécutez:

matcha-tts --file < PATH TO FILE > --batched

Arguments supplémentaires

Taux de parole

matcha-tts --text " <INPUT TEXT> " --speaking_rate 1.0

Température d'échantillonnage

matcha-tts --text " <INPUT TEXT> " --temperature 0.667

Étapes d'Euler Ode Solver

matcha-tts --text " <INPUT TEXT> " --steps 10

Former avec votre propre ensemble de données

Supposons que nous nous entraînons avec le discours LJ

Téléchargez l'ensemble de données à partir d'ici, extrayez-les sur data/LJSpeech-1.1 et préparez les listes de fichiers pour pointer des données extraites comme pour l'élément 5 dans la configuration du repo Nvidia Tacotron 2.
Clone et entrez le référentiel Matcha-TTS

git clone https://github.com/shivammehta25/Matcha-TTS.git
cd Matcha-TTS

Installez le package à partir de la source

pip install -e .

Allez dans configs/data/ljspeech.yaml et modifiez

 train_filelist_path : data/filelists/ljs_audio_text_train_filelist.txt
valid_filelist_path : data/filelists/ljs_audio_text_val_filelist.txt

Générer des statistiques de normalisation avec le fichier YAML de la configuration de l'ensemble de données

matcha-data-stats -i ljspeech.yaml
# Output:
#{ ' mel_mean ' : -5.53662231756592, ' mel_std ' : 2.1161014277038574}

Mettez à jour ces valeurs dans configs/data/ljspeech.yaml sous la clé data_statistics .

data_statistics:  # Computed for ljspeech dataset
  mel_mean: -5.536622
  mel_std: 2.116101

aux chemins de votre train et valites de validation.

Exécutez le script d'entraînement

make train-ljspeech

ou

python matcha/train.py experiment=ljspeech

Pour une course de mémoire minimale

python matcha/train.py experiment=ljspeech_min_memory

Pour une formation multi-GPU, courez

python matcha/train.py experiment=ljspeech trainer.devices=[0,1]

Synthétiser à partir du modèle formé personnalisé

matcha-tts --text " <INPUT TEXT> " --checkpoint_path < PATH TO CHECKPOINT >

Assistance ONNX

Un merci spécial à @ mush42 pour la mise en œuvre du support d'exportation et d'inférence ONNX.

Il est possible d'exporter des points de contrôle Matcha vers ONNX et d'exécuter l'inférence sur le graphique ONNX exporté.

Exportation ONNX

Pour exporter un point de contrôle vers ONNX, installez d'abord ONNX avec

pip install onnx

Ensuite, exécutez ce qui suit:

python3 -m matcha.onnx.export matcha.ckpt model.onnx --n-timesteps 5

Facultativement, l'exportateur ONNX accepte les arguments Vocoder-Name et Vocoder-CheckPoint . Cela vous permet d'intégrer le vocodeur dans le graphique exporté et de générer des formes d'onde en une seule exécution (similaire aux systèmes TTS de bout en bout).

Notez que n_timesteps est traité comme un hyper-paramètre plutôt que comme une entrée de modèle. Cela signifie que vous devez le spécifier pendant l'exportation (pas pendant l'inférence). S'il n'est pas spécifié, n_timesteps est défini sur 5 .

IMPORTANT : Pour l'instant, Torch> = 2.1.0 est nécessaire pour l'exportation, car l'opérateur scaled_product_attention n'est pas exportable dans les versions plus anciennes. Jusqu'à la sortie de la version finale, ceux qui souhaitent exporter leurs modèles doivent installer Torch> = 2.1.0 manuellement en pré-libération.

Inférence ONNX

Pour exécuter l'inférence sur le modèle exporté, installez d'abord onnxruntime en utilisant

pip install onnxruntime
pip install onnxruntime-gpu  # for GPU inference

Utilisez ensuite ce qui suit:

python3 -m matcha.onnx.infer model.onnx --text " hey " --output-dir ./outputs

Vous pouvez également contrôler les paramètres de synthèse:

python3 -m matcha.onnx.infer model.onnx --text " hey " --output-dir ./outputs --temperature 0.4 --speaking_rate 0.9 --spk 0

Pour exécuter l'inférence sur GPU , assurez-vous d'installer le package onnxruntime-gpu , puis passez --gpu à la commande d'inférence:

python3 -m matcha.onnx.infer model.onnx --text " hey " --output-dir ./outputs --gpu

Si vous avez exporté uniquement le matcha vers ONNX, cela écrira le spectrogramme MEL en tant que graphiques et des tableaux numpy vers le répertoire de sortie. Si vous avez intégré le vocodeur dans le graphique exporté, cela écrira des fichiers audio .wav vers le répertoire de sortie.

Si vous avez exporté uniquement Matcha vers ONNX et que vous souhaitez exécuter un pipeline TTS complet, vous pouvez passer un chemin vers un modèle Vocoder au format ONNX :

python3 -m matcha.onnx.infer model.onnx --text " hey " --output-dir ./outputs --vocoder hifigan.small.onnx

Cela écrira des fichiers audio .wav dans le répertoire de sortie.

Extraire les alignements des phonèmes de Matcha-TTS

Si l'ensemble de données est structuré comme

data/
└── LJSpeech-1.1
    ├── metadata.csv
    ├── README
    ├── test.txt
    ├── train.txt
    ├── val.txt
    └── wavs

Ensuite, vous pouvez extraire les alignements de niveau de phonème à partir d'un modèle Matcha-TTS formé en utilisant:

python  matcha/utils/get_durations_from_trained_model.py -i dataset_yaml -c < checkpoint >

Exemple:

python  matcha/utils/get_durations_from_trained_model.py -i ljspeech.yaml -c matcha_ljspeech.ckpt

ou simplement:

matcha-tts-get-durations -i ljspeech.yaml -c matcha_ljspeech.ckpt

Entraîner en utilisant des alignements extraits

Dans le jeu de données, activez la durée de charge. Exemple: ljspeech.yaml

 load_durations: True

ou voir un exemplaires dans les configurations / expérimentation / ljspeech_from_durations.yaml

Informations sur la citation

Si vous utilisez notre code ou si vous trouvez ce travail utile, veuillez citer notre article:

 @inproceedings{mehta2024matcha,
  title={Matcha-{TTS}: A fast {TTS} architecture with conditional flow matching},
  author={Mehta, Shivam and Tu, Ruibo and Beskow, Jonas and Sz{'e}kely, {'E}va and Henter, Gustav Eje},
  booktitle={Proc. ICASSP},
  year={2024}
}

Remerciements

Puisque ce code utilise Lightning-Hydra-Template, vous avez tous les pouvoirs qui l'accompagnent.

Autre code source que nous aimerions reconnaître:

Coqui-TTS: Pour m'aider à comprendre comment faire des binaires cython pip installables et des encouragements
Diffuseurs de face étreintes: pour leur bibliothèque de diffuseurs impressionnants et ses composants
Grad-TTS: pour le code source de recherche d'alignement monotonique
TORCHDYN: utile pour essayer d'autres solveurs ODE pendant la recherche et le développement
Labml.ai: pour l'implémentation de la corde

Développer

Informations supplémentaires

Version v0.0.7
Type Code Source AI
Date de mise à jour 2025-08-23
taille 512.32KB
Provenant de Github

Applications connexes

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
F5 TTS ComfyUI

2024-11-02
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
Informations en anglais sur le développement vocal (TTS User Guide Delphi version)

2009-05-28

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
ML stack

Code Source AI

1.0.0
awesome free chatgpt

Code Source AI

1.0.0
pywin_contextmenu

Code Source AI

Version update
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout