so vits svc Download - so vits svc le téléchargement du code source SVC

so vits svc

Autre code source

1.0.0

Télécharger

SoftVC VITS chantant la conversion vocale

Anglais |中文简体

Cette série de mise à jour à durée limitée touche à sa fin, l'entrepôt entrera dans l'État d'Archieve, sachez

Un studio qui contient un éditeur F0 visible, un éditeur de chronologie de mix de haut-parleur et d'autres fonctionnalités (où les modèles ONNX sont utilisés): MoevoiceStudio

Une fourche avec une interface utilisateur considérablement améliorée: 34J / SO-VITS-SVC-FORK

Un client prend en charge la conversion en temps réel: W-Okada / Changer vocal

Ce projet diffère fondamentalement des VITS, car il se concentre sur la conversion vocale chanteuse (SVC) plutôt que sur le texte-parole (TTS). Dans ce projet, la fonctionnalité TTS n'est pas prise en charge et VITS est incapable d'effectuer des tâches SVC. Il est important de noter que les modèles utilisés dans ces deux projets ne sont pas interchangeables ou universellement applicables.

Annonce

Le but de ce projet était de permettre aux développeurs de faire effectuer leurs personnages d'anime bien-aimés. L'intention des développeurs était de se concentrer uniquement sur les personnages fictifs et d'éviter toute implication de vrais individus, tout ce qui concerne les personnes réelles s'écarte de l'intention initiale du développeur.

Clause de non-responsabilité

Ce projet est une source open-source, hors ligne, et tous les membres de SVCDevelobeam, ainsi que d'autres développeurs et maintenants impliqués (ci-après dénommés contributeurs), n'ont aucun contrôle sur le projet. Les contributeurs n'ont jamais fourni aucune forme d'assistance à aucune organisation ou individu, y compris, mais sans s'y limiter, l'extraction de l'ensemble de données, le traitement de l'ensemble de données, le support informatique, la prise en charge de la formation, l'inférence, etc. Les contributeurs ne sont pas et ne peuvent pas être conscients des objectifs pour lesquels les utilisateurs utilisent le projet. Par conséquent, tous les modèles d'IA et l'audio synthétisé produit par la formation de ce projet ne sont pas liés aux contributeurs. Tout problème ou conséquence résultant de son utilisation est la seule responsabilité de l'utilisateur.

Ce projet est exécuté complètement hors ligne et ne collecte aucune information utilisateur ni ne recueille des données d'entrée utilisateur. Par conséquent, les contributeurs à ce projet ne sont pas conscients de toutes les entrées et modèles de l'utilisateur et ne sont donc pas responsables de toute entrée utilisateur.

Ce projet sert uniquement de cadre et ne possède pas de fonctionnalité de synthèse de la parole en soi. Toutes les fonctionnalités obligent les utilisateurs à former les modèles indépendamment. En outre, ce projet n'est pas livré avec des modèles, et tous les projets distribués secondaires sont indépendants des contributeurs de ce projet.

? Conditions d'utilisation

Avertissement: veuillez vous assurer de résoudre tout problème d'autorisation lié à l'ensemble de données par vous-même. Vous assurez l'entière responsabilité de tout problème résultant de l'utilisation des ensembles de données non autorisés pour la formation, ainsi que de toutes les conséquences qui en résultent. Le référentiel et son mainteneur, SVC développent l'équipe, décline toute association avec ou responsabilité pour les conséquences.

Ce projet est exclusivement établi à des fins académiques, visant à faciliter la communication et l'apprentissage. Il n'est pas destiné au déploiement dans des environnements de production.
Toute vidéo basée sur SoVits publiée sur une plate-forme vidéo doit clairement spécifier dans l'introduction Les voix et l'audio de la source d'entrée utilisées pour la conversion du changeur vocal, par exemple, si vous utilisez la vidéo / l'audio de quelqu'un d'autre et le convertir en séparant les voix comme source d'entrée , vous devez donner un lien clair vers la vidéo ou la musique originale; Si vous utilisez votre propre voix ou une voix synthétisée par un autre moteur de synthèse vocale comme source d'entrée, vous devez également le dire dans votre introduction.
Vous êtes seul responsable de tout problème de contrefaçon causé par la source d'entrée et toutes les conséquences. Lorsque vous utilisez d'autres logiciels commerciaux de synthèse vocale comme source d'entrée, veuillez vous assurer que vous respectez les réglementations de ce logiciel, notant que les réglementations de nombreux moteurs de synthèse vocale indiquent explicitement qu'elles ne peuvent pas être utilisées pour convertir les sources d'entrée!
S'engager dans des activités illégales, ainsi que des activités religieuses et politiques, est strictement interdite lors de l'utilisation de ce projet. Les développeurs du projet s'opposent avec véhémence aux activités susmentionnées. Si vous n'êtes pas d'accord avec cette disposition, l'utilisation du projet est interdite.
Si vous continuez à utiliser le programme, vous serez réputé avoir accepté les termes et conditions énoncés dans Readme et Readme vous a découragé et n'est pas responsable des problèmes ultérieurs.
Si vous avez l'intention d'employer ce projet à d'autres fins, veuillez contacter et informer les responsables de ce référentiel à l'avance.

Introduction du modèle

Le modèle de conversion vocale chantant utilise l'encodeur de contenu SoftVC pour extraire les fonctionnalités de la parole de l'audio source. Ces vecteurs de caractéristiques sont directement introduits dans des VITS sans avoir besoin de conversion en une représentation intermédiaire basée sur le texte. En conséquence, la hauteur et les intonations de l'audio d'origine sont conservées. Pendant ce temps, le vocodeur a été remplacé par NSF Hifigan pour résoudre le problème de l'interruption sonore.

? Contenu de mise à jour de la version 4.1-stable

L'entrée des fonctionnalités est modifiée en 12e couche de sortie de transformateur VEC de contenu et compatible avec 4.0 branches.
Mettez à jour la diffusion peu profonde, vous pouvez utiliser le modèle de diffusion peu profond pour améliorer la qualité sonore.
Ajout de la prise en charge de l'encodeur Whisper-PPG
Ajout de la fusion sonore statique / dynamique
Ajout de l'intégration de l'intégration
Fonctionnalité ajoutée de la récupération des fonctionnalités de RVC

? Questions sur la compatibilité avec le modèle 4.0

Pour prendre en charge le modèle 4.0 et incorporer le codeur de la parole, vous pouvez apporter des modifications au fichier config.json . Ajoutez le champ speech_encoder à la section "modèle" comme indiqué ci-dessous:

  "model": {
    .........
    "ssl_dim": 256,
    "n_speakers": 200,
    "speech_encoder":"vec256l9"
  }

? Diffusion peu profonde

Diagramme

Version python

Sur la base de nos tests, nous avons déterminé que le projet s'exécute stable sur Python 3.8.9 .

? Fichiers de modèle pré-formé

Requis

Vous devez sélectionner un encodeur dans la liste ci-dessous

1. Si vous utilisez Contentvec comme encodeur vocal (recommandé)

vec768l12 et vec256l9 nécessitent le codeur

Contentvec: CheckPoint_best_Legacy_500.pt
- Placez-le sous le répertoire pretrain

Ou téléchargez le contenu suivant, qui n'a que 199 Mo de taille mais qui a le même effet:

Contentvec: hubert_base.pt
- Modifiez le nom du fichier sur checkpoint_best_legacy_500.pt et placez-le dans le répertoire pretrain

 # contentvec
wget -P pretrain/ https://huggingface.co/lj1995/VoiceConversionWebUI/resolve/main/hubert_base.pt -O checkpoint_best_legacy_500.pt
# Alternatively, you can manually download and place it in the hubert directory

2. Si Hubertsoft est utilisé comme encodeur de la parole

VC Soft Hubert: Hubert-Soft-0d54a1f4.pt
- Placez-le sous le répertoire pretrain

3. Si chuchot-ppg comme codeur

Télécharger le modèle sur medium.pt, le modèle convient whisper-ppg
ou téléchargez le modèle en grand-v2.pt, le modèle convient à whisper-ppg-large
- Placez-le sous le répertoire pretrain

4. Si cnhubertlarge comme codeur

Téléchargez le modèle à chinois-hubert-large-fairseq-ckpt.pt
- Placez-le sous le répertoire pretrain

5. Si dphubert comme codeur

Téléchargez le modèle sur DPHUBERT-SP0.75.PTH
- Placez-le sous le répertoire pretrain

6. Si wavlm est utilisé comme codeur

Téléchargez le modèle sur wavlm-base + .pt, le modèle s'adapte wavlmbase+
- Placez-le sous le répertoire pretrain

7. Si onnxhubert / contentvec comme encodeur

Télécharger le modèle chez Moess-subModel
- Placez-le sous le répertoire pretrain

Liste des encodeurs

"VEC768L12"
"VEC256L9"
"VEC256L9-SNEX"
"VEC256L12-SNEX"
"Vec768l9-onNx"
"VEC768L12-SNEX"
"Hubertsoft -onnx"
"Hubertsoft"
"Whisper-Pppg"
"cnhubertlARGE"
"dphubert"
"Whisper-Pppg-Garn"
"wavlmbase +"

Facultatif (fortement recommander)

Fichiers du modèle pré-formé: G_0.pth D_0.pth
- Placez-les dans le répertoire logs/44k
Modèle de diffusion Fichier de modèle de base de pré-élaction: model_0.pt
- Mettez-le dans le répertoire logs/44k/diffusion

Obtenez le modèle pré-formé SOVITS à partir de SVC-Developing-Team (TBD) ou ailleurs.

Modèle de diffusion références au modèle de diffusion de diffusion-SVC. Le modèle de diffusion pré-formé est universel avec les DDSP-SVC. Vous pouvez aller au dépôt de diffusion-SVC pour obtenir le modèle de diffusion pré-formé.

Bien que le modèle pré-entraîné ne pose généralement pas de préoccupations de droits d'auteur, il est essentiel de rester vigilant. Il est conseillé de consulter l'auteur au préalable ou de passer attentivement la description pour déterminer l'utilisation autorisée du modèle. Cela permet de garantir la conformité à toutes les directives ou restrictions spécifiées concernant son utilisation.

Facultatif (sélectionnez selon les besoins)

NSF-HIFIGAN

Si vous utilisez le NSF-HIFIGAN enhancer ou shallow diffusion , vous devrez télécharger le modèle NSF-HIFIGAN pré-formé.

Vocodeur NSF-HIFIGAN pré-formé: NSF_HIFIGAN_20221211.zip
- Dézip et placez les quatre fichiers sous le répertoire pretrain/nsf_hifigan

 # nsf_hifigan
wget -P pretrain/ https://github.com/openvpi/vocoders/releases/download/nsf-hifigan-v1/nsf_hifigan_20221211.zip
unzip -od pretrain/nsf_hifigan pretrain/nsf_hifigan_20221211.zip
# Alternatively, you can manually download and place it in the pretrain/nsf_hifigan directory
# URL: https://github.com/openvpi/vocoders/releases/tag/nsf-hifigan-v1

Rmvpe

Si vous utilisez le prédicteur rmvpe F0, vous devrez télécharger le modèle RMVPE pré-formé.

Téléchargez le modèle sur rmvpe.zip, ce poids est recommandé.
- unzip rmvpe.zip ， et renommez le fichier model.pt à rmvpe.pt et placez-le sous le répertoire pretrain .

~~Télécharger le modèle sur rmvpe.pt~~
- ~~Placez-le sous le répertoire pretrain~~

FCPE (version d'aperçu)

FCPE (Fast Context-Base Pitch Estimator) est un prédicteur F0 dédié conçu pour la conversion vocale en temps réel et deviendra le prédicteur F0 préféré pour la conversion vocale en temps réel à l'avenir. (L'article est écrit)

Si vous utilisez le prédicteur fcpe F0, vous devrez télécharger le modèle FCPE pré-formé.

Télécharger le modèle sur fcpe.pt
- Placez-le sous le répertoire pretrain

Préparation de l'ensemble de données

Placez simplement l'ensemble de données dans le répertoire dataset_raw avec la structure de fichier suivante:

 dataset_raw
├───speaker0
│   ├───xxx1-xxx1.wav
│   ├───...
│   └───Lxx-0xx8.wav
└───speaker1
    ├───xx2-0xxx2.wav
    ├───...
    └───xxx7-xxx007.wav

Il n'y a pas de restrictions spécifiques sur le format du nom pour chaque fichier audio (conventions de dénomination telles que 000001.wav à 999999.wav sont également valides), mais le type de fichier doit être `` wav``.

Vous pouvez personnaliser le nom de l'orateur comme indiqué ci-dessous:

 dataset_raw
└───suijiSUI
    ├───1.wav
    ├───...
    └───25788785-20221210-200143-856_01_(Vocals)_0_0.wav

Prétraitement

0. Slice Audio

Pour éviter le débordement de la mémoire vidéo pendant la formation ou le prétraitement, il est recommandé de limiter la durée des clips audio. La coupe de l'audio à une longueur de "5s - 15s" est plus recommandée. Les temps légèrement plus longs sont acceptables, cependant, des clips excessivement longs peuvent entraîner des problèmes tels que torch.cuda.OutOfMemoryError .

Pour faciliter le processus de tranchage, vous pouvez utiliser audio-licer-Gui ou audio-Slicer-CLI

En général, seul l' Minimum Interval doit être ajusté. Pour l'audio parlé, la valeur par défaut suffit généralement, tandis que pour chanter l'audio, il peut être ajusté à environ 100 ou même 50 , selon les exigences spécifiques.

Après tranchage, il est recommandé de supprimer tous les clips audio excessivement longs ou trop courts.

Si vous utilisez Encodeur Whisper-PPG pour la formation, les clips audio doivent être plus courts que 30 s.

1. Resamponner à 44100Hz et mono

python resample.py

Avertissement

Bien que ce projet ait des scripts Resample.py pour le rééchantillonnage, le mono et la correspondance du volume, la correspondance par défaut de la volume est de correspondre à 0 dB. Cela peut endommager la qualité sonore. Bien que le package de correspondance de l'intensité de Python, Pyloudnorm ne limite le niveau, cela peut conduire à la flèche sonore. Par conséquent, il est recommandé d'envisager d'utiliser un logiciel de traitement sonore professionnel, tel que adobe audition pour la correspondance de l'intensité. Si vous utilisez déjà d'autres logiciels pour la correspondance du volume, ajoutez le paramètre -skip_loudnorm à la commande RUN:

python resample.py --skip_loudnorm

2. Diviser automatiquement l'ensemble de données en ensembles de formation et de validation et générer des fichiers de configuration.

python preprocess_flist_config.py --speech_encoder vec768l12

Speech_encoder a les options suivantes

 vec768l12
vec256l9
hubertsoft
whisper-ppg
cnhubertlarge
dphubert
whisper-ppg-large
wavlmbase+

Si l'argument Speech_Encoder est omis, la valeur par défaut est vec768l12

Utilisez l'intégration de l'intégration

Ajouter --vol_aug si vous souhaitez permettre une incorporation de volume:

python preprocess_flist_config.py --speech_encoder vec768l12 --vol_aug

Après avoir activé l'incorporation du volume, le modèle formé correspondra à l'intensité de la source d'entrée; Sinon, cela correspondra à l'intensité de l'ensemble d'entraînement.

Vous pouvez modifier certains paramètres dans la configuration générée.json et diffusion.yaml

keep_ckpts : gardez le nombre de modèles précédents pendant la formation. Réglé sur 0 pour les garder tous. La valeur par défaut est 3 .
all_in_mem : Chargez tout ensemble de données vers RAM. Il peut être activé lorsque le disque IO de certaines plates-formes est trop faible et que la mémoire système est beaucoup plus grande que votre ensemble de données.
batch_size : La quantité de données chargées au GPU pour une seule session de formation peut être ajustée à une taille inférieure à la capacité de mémoire du GPU.
vocoder_name : sélectionnez un vocoder. La valeur par défaut est nsf-hifigan .

diffusion.yaml

cache_all_data : Chargez tout ensemble de données vers RAM. Il peut être activé lorsque le disque IO de certaines plates-formes est trop faible et que la mémoire système est beaucoup plus grande que votre ensemble de données.
duration : La durée du tranchage audio pendant la formation peut être ajustée en fonction de la taille de la mémoire vidéo, Remarque: Cette valeur doit être inférieure au temps minimum de l'audio dans l'ensemble de formation!
batch_size : La quantité de données chargée au GPU pour une seule session de formation peut être ajustée à une taille inférieure à la capacité de mémoire vidéo.
timesteps : le nombre total d'étapes du modèle de diffusion, qui par défaut est à 1000.
k_step_max : La formation ne peut entraîner que la diffusion k_step_max étape pour économiser le temps de formation, notez que la valeur doit être inférieure aux timesteps , 0 est de former l'intégralité du modèle de diffusion, Remarque: Si vous ne formez pas l'intégralité du modèle de diffusion ne pourra pas utiliser Only_diffusion!

Liste de vocodeurs

 nsf-hifigan
nsf-snake-hifigan

3. Générer Hubert et F0

python preprocess_hubert_f0.py --f0_predictor dio

F0_Predictor a les options suivantes

 crepe
dio
pm
harvest
rmvpe
fcpe

Si l'ensemble de formation est trop bruyant, il est recommandé d'utiliser crepe pour gérer F0

Si le paramètre F0_Predictor est omis, la valeur par défaut est rmvpe

Si vous voulez une diffusion peu profonde (facultative), vous devez ajouter le paramètre --use_diff , par exemple:

python preprocess_hubert_f0.py --f0_predictor dio --use_diff

Accélérer le prétraitement

Si votre ensemble de données est assez grand, vous pouvez augmenter le param --num_processes comme ça:

python preprocess_hubert_f0.py --f0_predictor dio --num_processes 8

Tout le travailleur sera affecté à différents GPU si vous avez plus d'un GPU.

Après avoir terminé les étapes ci-dessus, le répertoire de jeu de données contiendra les données prétraitées et le dossier DataSet_RAW peut être supprimé.

? ️‍ formation

Modèle sovits

python train.py -c configs/config.json -m 44k

Modèle de diffusion (facultatif)

Si la fonction de diffusion peu profonde est nécessaire, le modèle de diffusion doit être formé. La méthode de formation du modèle de diffusion est la suivante:

python train_diff.py -c configs/diffusion.yaml

Pendant la formation, les fichiers du modèle seront enregistrés sur logs/44k , et le modèle de diffusion sera enregistré dans logs/44k/diffusion

? Inférence

Utiliser Inference_Main.py

 # Example
python inference_main.py -m " logs/44k/G_30400.pth " -c " configs/config.json " -n "君の知らない物語-src.wav " -t 0 -s " nen "

Paramètres requis:

-m | --model_path : chemin vers le modèle.
-c | --config_path : chemin vers le fichier de configuration.
-n | --clean_names : une liste des noms de fichiers WAV situés dans le dossier raw .
-t | --trans : Pitch Shift, prend en charge les valeurs positives et négatives (semiton).
-s | --spk_list : Sélectionnez l'ID de haut-parleur à utiliser pour la conversion.
-cl | --clip : Coupage audio forcé, réglé sur 0 pour désactiver (par défaut), en le définissant sur une valeur non nulle (durée en secondes) pour activer.

Paramètres facultatifs: voir la section suivante

-lg | --linear_gradient : La longueur de la fonte des croix de deux tranches audio en secondes. S'il y a une voix discontinue après le tranchage forcé, vous pouvez ajuster cette valeur. Sinon, il est recommandé d'utiliser la valeur par défaut de 0.
-f0p | --f0_predictor : Sélectionnez un prédicteur F0, les options sont crepe , pm , dio , harvest , rmvpe , fcpe , la valeur par défaut est pm (Remarque: F0 Le regroupement moyen sera activé lors de l'utilisation crepe )
-a | --auto_predict_f0 : Prédiction de hauteur automatique, ne le permettez pas lors de la conversion de voix de chant car cela peut provoquer de graves problèmes de hauteur.
-cm | --cluster_model_path : modèle de cluster ou chemin d'index de récupération de fonctionnalité, s'il est laissé vide, il sera automatiquement défini comme chemin par défaut de ces modèles. S'il n'y a pas de cluster de formation ou de récupération de fonctionnalités, remplissez à volonté.
-cr | --cluster_infer_ratio : la proportion de schéma de clustering ou de récupération de fonctionnalités varie de 0 à 1. S'il n'y a pas de modèle de clustering ou de récupération de fonctionnalité, la valeur par défaut est 0.
-eh | --enhance : Que ce soit pour utiliser NSF_HIFIGAN Enhancer, cette option a un certain effet sur l'amélioration de la qualité du son pour certains modèles avec quelques ensembles de formation, mais a un effet négatif sur des modèles bien formés, il est donc désactivé par défaut.
-shd | --shallow_diffusion : s'il faut utiliser une diffusion peu profonde, qui peut résoudre certains problèmes de son électrique après utilisation. Cette option est désactivée par défaut. Lorsque cette option est activée, NSF_HIFigan Enhancer sera désactivé
-usm | --use_spk_mix : s'il faut utiliser la fusion vocale dynamique
-lea | --loudness_envelope_adjustment : le réglage de l'enveloppe de résistance de la source d'entrée par rapport au rapport de fusion de l'enveloppe de volume de sortie. Plus la plus proche de 1, plus l'enveloppe de volume de sortie est utilisée
-fr | --feature_retrieval : CONSILLE À UTILISER LA RÉTENSITION DES FONCTIONS Si le modèle de clustering est utilisé, il sera désactivé, et les paramètres cm et cr deviendront le chemin d'index et le rapport de mélange de la récupération des fonctionnalités

Paramètres de diffusion peu profonde:

-dm | --diffusion_model_path : chemin du modèle de diffusion
-dc | --diffusion_config_path : chemin de fichier de configuration de diffusion
-ks | --k_step : Plus le nombre de k_steps est grand, plus il est proche du résultat du modèle de diffusion. La valeur par défaut est 100
-od | --only_diffusion : s'il faut utiliser uniquement le mode de diffusion, qui ne charge pas le modèle SoVits pour utiliser uniquement l'inférence du modèle de diffusion
-se | --second_encoding : qui implique d'appliquer un codage supplémentaire à l'audio d'origine avant la diffusion peu profonde. Cette option peut donner des résultats variables - parfois positifs et parfois négatifs.

Avertissement

Si l'inférence à l'aide de l'encodeur de la parole whisper-ppg , vous devez définir --clip sur 25 et -lg à 1. Sinon, il ne parviendra pas à déduire correctement.

? Paramètres facultatifs

Si vous êtes satisfait des résultats précédents, ou si vous ne pensez pas que vous comprenez ce qui suit, vous pouvez le sauter et cela n'aura aucun effet sur l'utilisation du modèle. L'impact de ces paramètres facultatifs mentionnés est relativement faible, et bien qu'ils puissent avoir un certain impact sur des ensembles de données spécifiques, dans la plupart des cas, la différence peut ne pas être significative.

Prédiction F0 automatique

Au cours de la formation du modèle 4.0, un prédicteur F0 est également formé, ce qui permet une prédiction de hauteur automatique pendant la conversion vocale. Cependant, si les résultats ne sont pas satisfaisants, la prédiction manuelle peut être utilisée à la place. Veuillez noter que lors de la conversion des voix de chant, il est conseillé de ne pas activer cette fonctionnalité car elle peut provoquer un changement de hauteur important.

Définissez auto_predict_f0 sur true in inference_main.py .

Contrôle de fuite de timbre à base de cluster

Introduction: Le schéma de clustering implémenté dans ce modèle vise à réduire les fuites du timbre et à améliorer la similitude du modèle formé avec le timbre de la cible, bien que l'effet puisse ne pas être très prononcé. Cependant, s'appuyer uniquement sur le regroupement peut réduire la clarté du modèle et le rendre moins distinct. Par conséquent, une méthode de fusion est adoptée dans ce modèle pour contrôler l'équilibre entre les approches de clustering et de non-cluster. Cela permet un ajustement manuel du compromis entre "Sonner comme le timbre de la cible" et "avoir une énonciation claire" pour trouver un équilibre optimal.

Aucune modification n'est requise dans les étapes existantes. Formez simplement un modèle de clustering supplémentaire, qui entraîne des coûts de formation relativement bas.

Processus de formation:
- Former sur une machine avec de bonnes performances CPU. Selon une expérience existante, il faut environ 4 minutes pour former chaque haut-parleur sur une machine à nuages Tencent avec un processeur à 6 cœurs.
- Exécuter python cluster/train_cluster.py . Le modèle de sortie sera enregistré dans logs/44k/kmeans_10000.pt .
- Le modèle de clustering peut actuellement être formé à l'aide du GPU en exécutant python cluster/train_cluster.py --gpu
Processus d'inférence:
- Spécifiez cluster_model_path dans inference_main.py . Si ce n'est pas spécifié, la valeur par défaut est logs/44k/kmeans_10000.pt .
- Spécifiez cluster_infer_ratio dans inference_main.py , où 0 signifie ne pas utiliser de clustering du tout, 1 signifie uniquement utiliser le clustering, et généralement 0.5 est suffisant.

Récupération des fonctionnalités

Introduction: Comme pour le schéma de clustering, la fuite du timbre peut être réduite, l'énonciation est légèrement meilleure que le regroupement, mais elle réduira la vitesse d'inférence. En utilisant la méthode de fusion, il devient possible de contrôler linéairement l'équilibre entre la récupération des fonctionnalités et la récupération non-fonctionnement, permettant un réglage fin de la proportion souhaitée.

Processus de formation: Premièrement, il doit être exécuté après avoir généré Hubert et F0:

python train_index.py -c configs/config.json

La sortie du modèle sera en logs/44k/feature_and_index.pkl

Processus d'inférence:
- Le --feature_retrieval doit être formulé en premier, et le mode de clustering passe automatiquement au mode de récupération des fonctionnalités.
- Spécifiez cluster_model_path dans inference_main.py . S'il n'est pas spécifié, la valeur par défaut est logs/44k/feature_and_index.pkl .
- Spécifiez cluster_infer_ratio dans inference_main.py , où 0 signifie ne pas utiliser du tout la récupération des fonctionnalités, 1 signifie uniquement utiliser la récupération des fonctionnalités, et généralement 0.5 est suffisant.

? ️ Compression du modèle

Le modèle généré contient des données nécessaires pour une formation plus approfondie. Si vous confirmez que le modèle est définitif et ne pas être utilisé dans une formation plus approfondie, il est sûr de supprimer ces données pour obtenir une taille de fichier plus petite (environ 1/3).

 # Example
python compress_model.py -c= " configs/config.json " -i= " logs/44k/G_30400.pth " -o= " logs/44k/release.pth "

? ‍? Mélange de timbre

Mélange de tonalité statique

Reportez-vous au fichier webUI.py pour le mélange de timbre stable de la fonction Gadget / Lab.

Introduction: Cette fonction peut combiner plusieurs modèles en un seul modèle (combinaison convexe ou combinaison linéaire de plusieurs paramètres de modèle) pour créer une voix mixte qui n'existe pas en réalité

Note:

Cette fonctionnalité n'est prise en charge que pour les modèles mono-speaker
Si vous forcez un modèle multi-haut-parleurs, il est essentiel de s'assurer qu'il existe le même nombre de haut-parleurs dans chaque modèle. Cela garantira que les sons avec le même haut-parleur peuvent être mélangés correctement.
Assurez-vous que les champs model dans config.json de tous les modèles à mixer sont les mêmes
Le modèle mixte peut utiliser n'importe quel fichier config.json à partir des modèles en cours de synthèse. Cependant, le modèle de clustering ne sera pas fonctionnel après mixte.
Lorsque les modèles de téléchargement par lots, il est préférable de mettre les modèles dans un dossier et de les télécharger ensemble après les avoir sélectionnés
Il est suggéré d'ajuster le rapport de mélange entre 0 et 100, ou à d'autres nombres, mais des effets inconnus se produiront dans le mode de combinaison linéaire
Après le mélange, le fichier nommé Output.pth sera enregistré dans le répertoire racine du projet
Le mode de combinaison convexe effectuera Softmax pour ajouter le rapport de mélange à 1, tandis que le mode de combinaison linéaire ne sera pas

Mélange de timbre dynamique

Reportez-vous au fichier spkmix.py pour une introduction au mélange dynamique du timbre

Règles d'écriture de piste de mixage de personnages:

ID de rôle: [[Heure de début 1, heure de fin 1, valeur de démarrage 1, valeur de démarrage 1], [heure de début 2, heure de fin 2, valeur de démarrage 2]]

L'heure de début doit être la même que l'heure de fin de la précédente. La première heure de début doit être 0 et la dernière heure de fin doit être 1 (l'heure varie de 0 à 1).

Tous les rôles doivent être remplis. Pour les rôles inutilisés, remplissez [[0., 1., 0., 0.]]

La valeur de fusion peut être remplie arbitrairement et le passage linéaire de la valeur de début à la valeur finale dans le délai spécifié. Le

La combinaison linéaire interne sera automatiquement garantie d'être 1 (condition de combinaison convexe), donc il peut être utilisé en toute sécurité

Utilisez le paramètre --use_spk_mix lors du raisonnement pour activer le mélange dynamique du timbre

? Exportation vers ONNX

Utiliser onnx_export.py

Créez un dossier nommé checkpoints et ouvrez-le
Créez un dossier dans le dossier checkpoints comme dossier de projet, en le nommant après votre projet, par exemple aziplayer
Renommer votre modèle en tant que model.pth , le fichier de configuration comme config.json , et les placer dans le dossier aziplayer que vous venez de créer
Modifier "NyaruTaffy" dans path = "NyaruTaffy" dans onnx_export.py au nom de votre projet, path = "aziplayer" （onnx_export_speaker_mix fait que vous pouvez mélanger la voix du haut-parleur）
Exécuter onnx_export.py
Attendez qu'il finisse de courir. Un model.onnx sera généré dans votre dossier de projet, qui est le modèle exporté.

Remarque: Pour les modèles Hubert Onnx, veuillez utiliser les modèles fournis par Moess. Actuellement, ils ne peuvent pas être exportés seuls (Hubert à Fairseq possède de nombreux opérateurs non pris en charge et des choses impliquant des constantes qui peuvent entraîner des erreurs ou entraîner des problèmes avec la forme d'entrée / sortie et les résultats lorsqu'ils sont exportés.)

? Référence

URL	Désignation	Titre	Source d'implémentation
2106.06103	VITS (synthétiseur)	Autoencodeur variationnel conditionnel avec apprentissage contradictoire pour le texte à la fin à la fin à la fin de bout	Jaywalnut310 / VITS
2111.02392	Softvc (encodeur de discours)	Une comparaison des unités de discours discrètes et souples pour une meilleure conversion vocale	Bshall / Hubert
2204.09224	Contentvec (Encodeur de discours)	Contentvec: une représentation de la parole auto-supervisée améliorée en démêlant les locuteurs	Inuspicious3000 / Contentvec
2212.04356	Whisper (Encodeur de discours)	Reconnaissance de la parole robuste via une faible supervision faible	Openai / Whisper
2110.13900	Wavlm (encodeur de la parole)	WAVLM: pré-formation auto-supervisée à grande échelle pour le traitement de la parole complète de la pile	Microsoft / unilm / wavlm
2305.17651	DPHUBERT (Encodeur de discours)	DPHUBERT: Distillation conjointe et élagage des modèles de vocation auto-supervisés	pyf98 / dphubert
Doi: 10.21437 / intersegesech.2017-68	Récolte (prédicteur F0)	Récolte: un estimateur de fréquence fondamental à haute performance des signaux de la parole	mmorise / monde / récolte
AES35-000039	Dio (prédicteur F0)	Méthode d'estimation F0 rapide et fiable basée sur l'extraction de la période de la vibration du pli vocal de la voix et de la parole chantante	mmorise / monde / dio
8461329	Crêpe (prédicteur F0)	Crêpe: une représentation convolutionnelle pour l'estimation de la hauteur	maxrmorrison / torchcrepe
Doi: 10.1016 / j.wocn.2018.07.001	Parselmouth (prédicteur F0)	Présentation de Parselmouth: une interface Python à Praat	Yannickjadoul / Parselmouth
2306.15412v2	RMVPE (prédicteur F0)	RMVPE: un modèle robuste pour l'estimation de la hauteur vocale dans la musique polyphonique	Dream-High / RMVPE
2010.05646	Hifigan (vocoder)	Hifi-gan: réseaux adversaires génératifs pour une synthèse de parole efficace et haute fidélité	Jik876 / Hifi-gan
1810.11946	NSF (Vocoder)	Modèle de forme d'onde basé sur le filtre à source neuronal pour la synthèse de la parole paramétrique statistique	openvpi / diffsinger / modules / nsf_hifigan
2006.08195	Serpent (vocodeur)	Les réseaux de neurones ne parviennent pas à apprendre les fonctions périodiques et comment le réparer	Edwarddixon / Snake
2105.02446v3	Diffusion peu profonde (post-traitement)	Diffsinger: Singing vocal Synthesis via un mécanisme de diffusion superficiel	Cnchtu / diffusion-svc
K-means	Caractéristiques du clustering K-means (prétraitement)	Quelques méthodes de classification et d'analyse des observations multivariées	Ce repo
	Caractéristique de la récupération de Topk (prétraitement)	Conversion vocale basée sur la récupération	RVC-Project / Retrieval-Based-Voice-Conversion-Webui
	chuchoter ppg	chuchoter ppg	Playvoice / whisper_ppg
	bigvgan	bigvgan	PlayVoice / so-vits-svc-5.0

☀️ Contributeurs précédents

Pour une raison quelconque, l'auteur a supprimé le référentiel d'origine. En raison de la négligence des membres de l'organisation, la liste des contributeurs a été effacée car tous les fichiers ont été directement reversés dans ce référentiel au début de la reconstruction de ce référentiel. Ajoutez maintenant une liste de contributeurs précédents à Readme.md.

Certains membres n'ont pas répertorié selon leurs souhaits personnels.

_Mât

_Xiaomiku01

_しぐれ

_{Tomogasukunai}

_Plachtaa

_{ZD 小达}

_凍聲響世

Certaines dispositions légales pour référence

Tout pays, région, organisation ou individu à l'aide de ce projet doit se conformer aux lois suivantes.

《民法典》

第一千零一十九条

任何组织或者个人不得以丑化、污损，或者利用信息技术手段伪造等方式侵害他人的肖像权。未经肖像权人同意，不得制作、使用、公开肖像权人的肖像，但是法律另有规定的除外。未经肖像权人同意，肖像作品权利人不得以发表、复制、发行、出租、展览等方式使用或者公开肖像权人的肖像。对自然人声音的保护，参照适用肖像权保护的有关规定。

第一千零二十四条

【名誉权】民事主体享有名誉权。任何组织或者个人不得以侮辱、诽谤等方式侵害他人的名誉权。

第一千零二十七条

【作品侵害名誉权】行为人发表的文学、艺术作品以真人真事或者特定人为描述对象，含有侮辱、诽谤内容，侵害他人名誉权的，受害人有权依法请求该行为人承担民事责任。行为人发表的文学、艺术作品不以特定人为描述对象，仅其中的情节与该特定人的情况相似的，不承担民事责任。

《中华人民和国宪法》和国宪法》

《中华人民和国刑法》和国刑法》

《中华人民和国民法典》和国民法典》

《中华人民和国合同法》和国合同法》

? Merci à tous les contributeurs pour leurs efforts

Développer

Informations supplémentaires

Version 1.0.0
Type Autre code source
Date de mise à jour 2025-02-24
taille 809.61KB
Provenant de Github

Applications connexes

étoile donc

2024-07-22
BLAGUE

2024-02-26
donc un logiciel de correspondance vocale

2023-10-12
alors quelle application

2023-05-23
Panzer Corps : Alors

2022-08-17
L'Allemagne en guerre : donc

2022-08-08

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Autre code source

1.0.0
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Autre code source

1.0.0

Actualités connexes Tout

so vits svc

SoftVC VITS chantant la conversion vocale

Annonce

Clause de non-responsabilité

? Conditions d'utilisation

Introduction du modèle

? Contenu de mise à jour de la version 4.1-stable

? Questions sur la compatibilité avec le modèle 4.0

? Diffusion peu profonde

Version python

? Fichiers de modèle pré-formé

Requis

1. Si vous utilisez Contentvec comme encodeur vocal (recommandé)

2. Si Hubertsoft est utilisé comme encodeur de la parole

3. Si chuchot-ppg comme codeur

4. Si cnhubertlarge comme codeur

5. Si dphubert comme codeur

6. Si wavlm est utilisé comme codeur

7. Si onnxhubert / contentvec comme encodeur

Liste des encodeurs

Facultatif (fortement recommander)

Facultatif (sélectionnez selon les besoins)

NSF-HIFIGAN

Rmvpe

FCPE (version d'aperçu)

Préparation de l'ensemble de données

Prétraitement

0. Slice Audio

1. Resamponner à 44100Hz et mono

Avertissement

2. Diviser automatiquement l'ensemble de données en ensembles de formation et de validation et générer des fichiers de configuration.

Vous pouvez modifier certains paramètres dans la configuration générée.json et diffusion.yaml

diffusion.yaml

Liste de vocodeurs

3. Générer Hubert et F0

? ️‍ formation

Modèle sovits

Modèle de diffusion (facultatif)

? Inférence

Avertissement

? Paramètres facultatifs

Prédiction F0 automatique

Contrôle de fuite de timbre à base de cluster

Récupération des fonctionnalités

? ️ Compression du modèle

? ‍? Mélange de timbre

Mélange de tonalité statique

Mélange de timbre dynamique

? Exportation vers ONNX

? Référence

☀️ Contributeurs précédents

Certaines dispositions légales pour référence

Tout pays, région, organisation ou individu à l'aide de ce projet doit se conformer aux lois suivantes.

《民法典》

第一千零一十九条

第一千零二十四条

第一千零二十七条

《中华人民 和国宪法》和国宪法》

《中华人民 和国刑法》和国刑法》

《中华人民 和国民法典》和国民法典》

《中华人民 和国合同法》和国合同法》

? Merci à tous les contributeurs pour leurs efforts

《中华人民和国宪法》和国宪法》

《中华人民和国刑法》和国刑法》

《中华人民和国民法典》和国民法典》

《中华人民和国合同法》和国合同法》