cnn_vocoder Télécharger - cnn_vocoder CODE TELOCKING Téléchargement

cnn_vocoder

Code Source AI

1.0.0

Télécharger

CNNVOCODER

Remarque: je ne travaille plus sur ce projet. Voir # 9.

Un vocodeur basé sur CNN.

Ce travail est inspiré du modèle M-CNN décrit dans l'inversion du spectrogramme rapide à l'aide de réseaux de neurones convolutionnels multi-tête. Les auteurs montrent que même des réseaux de mise à l'échantillonnage simples suffisent à synthèse la forme d'onde du spectrogramme / spectrogramme MEL.

Dans ce dépôt, j'utilise la fonction de spectrogramme pour le modèle de formation car il contient plus d'informations que la fonctionnalité de spectrogramme MEL. Cependant, parce que la transformation du spectrogramme en spectrogramme MEL n'est qu'une projection linéaire, donc fondamentalement, vous pouvez entraîner un spectrogramme de prédire de réseau simple à partir du spectrogramme MEL. Vous pouvez également modifier les paramètres pour pouvoir former un vocodeur à partir de la fonction de spectrogramme MEL.

Échantillons audios

Notes d'architecture

Comparez avec M-CNN, mon réseau proposé a quelques différences:

J'utilise des couches UpSampling + Conv au lieu de la couche TransposéConv. Cela aide à empêcher les artefacts en damier.
Le modèle utilise de nombreux blocs résiduels pré / après le module de mise en dynamisme pour rendre le réseau plus grand / plus profond.
Je n'ai utilisé que la perte de L1 entre la magntude STFT à échelle logarithmique de la forme d'onde prédite et cible. La perte d'évaluation sur l'espace logarithmique est meilleure que sur la magntude STFT brute car elle est plus proche de la sensation humaine sur le volume. J'ai essayé de calculer la perte sur la fonction de spectrogramme, mais cela n'a pas beaucoup aidé.

Installer les exigences

$ pip install -r requirements.txt

Cocodeur de formation

1. Préparer un ensemble de données

J'utilise un ensemble de données LJSpeech pour mon expérience. Si vous ne l'avez pas encore, veuillez télécharger un ensemble de données et le mettre quelque part.

Après cela, vous pouvez exécuter la commande pour générer un ensemble de données pour notre expérience:

$ python preprocessing.py --samples_per_audio 20  
--out_dir ljspeech 
--data_dir path/to/ljspeech/dataset 
--n_workers 4

2. Train vocoder

$ python train.py --out_dir ${output_directory}

Pour plus d'options de formation, veuillez courir:

$ python train.py --help

Générer de l'audio à partir du spectrogramme

Générer du spectrogramme à partir de l'audio

$ python gen_spec.py -i sample.wav -o out.npz

Générer de l'audio à partir du spectrogramme

$ python synthesis.py --model_path path/to/checkpoint 
                      --spec_path out.npz 
                      --out_path out.wav

Modèle pré-entraîné

Vous pouvez obtenir mon modèle pré-formé ici.

Remerciements

Cette implémentation utilise le code de Nvidia, Ryuichi Yamamoto, Keith Ito comme décrit dans mon code.

Licence

Mit

Développer

Informations supplémentaires

Version 1.0.0
Type Code Source AI
Date de mise à jour 2025-08-21
taille 2.5MB
Provenant de Github

Applications connexes

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
YuQue_Book_Download

2024-11-12
zkwork_aleo_gpu_worker

2024-11-11
nextcloud_share_url_downloader

2024-11-01
Moteur d'analyse de données Lihua version gratuite 3.0_search_navigation_collection_public opinion_ranking_api

2022-06-28

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
ML stack

Code Source AI

1.0.0
awesome free chatgpt

Code Source AI

1.0.0
pywin_contextmenu

Code Source AI

Version update
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout