cs224n gpu that talks de téléchargement - cs224n gpu that talks de téléchargement du code source

cs224n gpu that talks

Code Source AI

1.0.0

Télécharger

Attention, j'essaie de parler: synthèse de la parole de bout en bout (CS224N '18)

Mise en œuvre d'un modèle de texte à dispection basé sur SEQ2SEQ convolutionnel basé sur Tachibana et. al. (2017). Étant donné une séquence de caractères, le modèle prédit une séquence de trames de spectrogramme en deux étapes (Text2Mel et SSRN).

Comme discuté dans le rapport, nous pouvons obtenir une qualité audio assez décente avec Text2Mel formé pour 60 000 étapes, SSRN pour 100 000 étapes. Cela correspond à environ (6 + 12) heures de formation sur un seul GPU Tesla K80 sur l'ensemble de données LJ.

Modèle pré-entraîné : [Télécharger] Échantillons : [Base-Model-M4] [UNSUPERVISED-DECODER-M1]

Pour plus de détails, voir: Papier d'affiche

Usage:

Structure de répertoire

 - runs (contains checkpoints and params.json file for each different run. params.json specifies various hyperameters: see params-examples folder)
    - run1/params.json ...
 - src (implementation code package)
 - sentences (contains test sentences in .txt files)
 
train.py
evaluate.py
synthesize.py

../data (directory containing data in format below)
 - FOLDER
    - train.csv, val.csv (files containing [wav_file_name|transcript|normalized_trascript] as in LJ-Speech dataset)
    - wavs (folder containing corresponding .wav audio files)

Fichiers de script

Exécutez chaque fichier avec python <script_file>.py -h pour voir les détails de l'utilisation.

 python train.py <PATH_PARAMS.JSON> <MODE>
python evaluate.py <PATH_PARAMS.JSON> <MODE> 
python synthesize.py <TEXT2MEL_PARAMS> <SSRN_PARAMS> <SENTENCES.txt> (<N_ITER> <SAMPLE_DIR>)

Cahiers:

Évaluation : exécute les prédictions du modèle sur l'ensemble des ensembles de formation et de validation pour différents points de contrôle de modèle enregistrés et enregistre les résultats finaux.
Demo : tapez interactivement les phrases d'entrée et écoutez l'audio de sortie généré.

Plus loin:

Formation sur différentes langues avec une plus petite quantité de données disponibles DataSet Datas of Indian Languages
Explorer l'utilisation de méthodes semi-supervisées pour accélérer la formation, en utilisant un «modèle audio-language» pré-formé comme initialisation

Code externe référencé:

(De SRC / INIT .PY) Le code utilitaire a été référencé à partir des sources suivantes, tous les autres code sont les propres auteur:

src / data_load.py, dsp_utils.py (avec modifications)
https://www.github.com/kyubyong/dc_tts, (auteur: Kyubyong Park, @kyubyong) https://github.com/r9y9/deepvoice3_pytorch/blob/master/audio.py (auteur: @ r9y9)
src / spsi.py (référencé)
https://github.com/lonce/spsi_python (auteur: @lonce)
src / utils.py (référencé)
https://github.com/cs230-stanford/cs230-code-examples https://www.github.com/kyubyong/dc_tts https://github.com/tensorflow/tensor2tensor.py.py.

Développer

Informations supplémentaires

Version 1.0.0
Type Code Source AI
Date de mise à jour 2025-09-15
taille 1.72MB
Provenant de Github

Applications connexes

zkwork_aleo_gpu_worker

2024-11-11
ce n'est pas mon voisin version chinoise

2024-05-14
Ce n'est pas la version mobile de mon voisin

2024-03-04
Ce n'est pas le jeu d'horreur de mon voisin

2024-03-04
Ce n'est pas le jeu de mon voisin

2024-02-25
Prends ça

2022-08-15

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
ML stack

Code Source AI

1.0.0
awesome free chatgpt

Code Source AI

1.0.0
pywin_contextmenu

Code Source AI

Version update
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout