Téléchargement vall e - Téléchargement du code source vall e

vall e

Code Source AI

1.0.0

Télécharger

Vall-e

Une mise en œuvre non officielle de Pytorch de Vall-E, basée sur le tokenizer encode.

Commencer

Un jouet Google Colab Exemple :. Veuillez noter que cet exemple survole un seul énoncé sous les data/test et n'est pas utilisable. Le modèle pré-entraîné est encore à venir.

Exigences

Étant donné que l'entraîneur est basé sur Deeppeed, vous devrez avoir un GPU contre lequel Deeppeed a développé et testé, ainsi qu'un compilateur CUDA ou ROCM préinstallé pour installer ce package.

Installer

 pip install git+https://github.com/enhuiz/vall-e

Ou vous pouvez cloner par:

 git clone --recurse-submodules https://github.com/enhuiz/vall-e.git

Notez que le code n'est testé que sous Python 3.10.7 .

Former

Mettez vos données dans un dossier, par exemple data/your_data . Les fichiers audio doivent être nommés avec le suffixe .wav et les fichiers texte avec .normalized.txt .
Quantifier les données:

 python -m vall_e.emb.qnt data/your_data

Générer des phonèmes basés sur le texte:

 python -m vall_e.emb.g2p data/your_data

Personnalisez votre configuration en créant config/your_data/ar.yml et config/your_data/nar.yml . Reportez-vous aux configurations d'exemples dans config/test et vall_e/config.py pour plus de détails. Vous pouvez choisir différents préréglages de modèles, vérifier vall_e/vall_e/__init__.py .
Former le modèle AR ou NAR à l'aide des scripts suivants:

 python -m vall_e.train yaml=config/your_data/ar_or_nar.yml

Vous pouvez quitter votre entraînement à tout moment en tapant simplement quit votre CLI. Le dernier point de contrôle sera automatiquement enregistré.

Exporter

Les deux modèles qualifiés doivent être exportés vers un certain chemin. Pour exporter l'un d'eux, courez:

 python -m vall_e.export zoo/ar_or_nar.pt yaml=config/your_data/ar_or_nar.yml

Cela exportera le dernier point de contrôle.

Synthèse

 python -m vall_e <text> <ref_path> <out_path> --ar-ckpt zoo/ar.pt --nar-ckpt zoo/nar.pt

FAIRE

Modèle AR pour le premier quantificateur
Décodage audio à partir de jetons
Modèle NAR pour les quantificateurs de repos
DESSOINS POUR LES DES EXTCULES MODÈLES
Implémentez ADALN pour le modèle NAR.
Échantillonnage de niveau de quantification par échantillon pour la formation NAR.
Point de contrôle pré-formé et démos sur Libritts
CLI de synthèse

Avis

Encodec est concédé sous licence sous CC-BY-NC 4.0. Si vous utilisez le code pour générer une quantification audio ou effectuer un décodage, il est important d'adhérer aux termes de leur licence.

Citations

 @article { wang2023neural ,
  title = { Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers } ,
  author = { Wang, Chengyi and Chen, Sanyuan and Wu, Yu and Zhang, Ziqiang and Zhou, Long and Liu, Shujie and Chen, Zhuo and Liu, Yanqing and Wang, Huaming and Li, Jinyu and others } ,
  journal = { arXiv preprint arXiv:2301.02111 } ,
  year = { 2023 }
}

 @article { defossez2022highfi ,
  title = { High Fidelity Neural Audio Compression } ,
  author = { Défossez, Alexandre and Copet, Jade and Synnaeve, Gabriel and Adi, Yossi } ,
  journal = { arXiv preprint arXiv:2210.13438 } ,
  year = { 2022 }
}

Développer

Informations supplémentaires

Version 1.0.0
Type Code Source AI
Date de mise à jour 2025-08-20
taille 796.54KB
Provenant de Github

Applications connexes

Insecte E

2024-02-17
Le E

2022-09-04
Tout E

2022-09-02
Pour E

2022-08-31
Obtenez E

2022-08-30
Pirate E

2022-08-25

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
ML stack

Code Source AI

1.0.0
awesome free chatgpt

Code Source AI

1.0.0
pywin_contextmenu

Code Source AI

Version update
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout