so vits svc fork Download - so vits svc fork

so vits svc fork

Autre code source

v4.2.26

Télécharger

SoftVC VITS SINGING VOCK CONVANTION FROF

简体中文

Une fourche de so-vits-svc avec un support en temps réel et une interface considérablement améliorée . Sur la base de la branche 4.0 (V1) (ou 4.1 ) et les modèles sont compatibles. 4.1 Les modèles ne sont pas pris en charge. D'autres modèles ne sont pas non plus pris en charge.

Plus maintenu

Raisons

En un an, la technologie a évolué énormément et il existe de nombreuses meilleures alternatives
J'espérais créer un référentiel plus modulaire et facile à installer, mais n'avait pas les compétences, le temps, l'argent pour le faire
Pysimplegui n'est plus LGPL
L'utilisation de Typer devient plus populaire que directement en utilisant un clic

Alternatives

Méfiez-vous toujours des très rares influenceurs qui sont trop surpris de tout nouveau projet / technologie. Vous devez prendre tous les postes de réseautage social avec semi-doute.

Le boom du changeur de voix qui s'est produit en 2023 a pris fin, et de nombreux développeurs, pas seulement ceux de ce référentiel, n'ont pas été très actifs depuis un certain temps.

Il y a trop d'alternatives à énumérer ici mais:

Famille RVC: IaHispano / Applio (MIT), RVC de Fumiama (AGPL) et RVC d'origine (MIT)
VCCLIENT (MIT etc.) est bien entretenu et propose une interface graphique sur le Web pour une conversion en temps réel.
Le diffusion de poisson a essayé d'être assez modulaire mais pas tout à fait activement entretenu.
yxlllc / ddsp-svc - De nouvelles versions sont publiées occasionnellement. yxlllc / reflow-vae-svc
Coqui-AI / TTS était pour TTS mais était partiellement modulaire. Cependant, il n'est plus maintenu, malheureusement.

Ailleurs, plusieurs start-ups ont amélioré et commercialisé des changeurs de voix (probablement à but lucratif).

Les mises à jour de ce référentiel sont limitées à la maintenance depuis le printemps 2023. Il est difficile de réduire la liste des alternatives ici, mais envisagez d'essayer d'autres projets si vous recherchez un changeur de voix avec des performances encore meilleures (en particulier en termes de latence autre que la qualité). > ~~Cependant, ce projet peut être idéal pour ceux qui souhaitent essayer la conversion vocale pour le moment (car il est facile à installer).~~

Fonctionnalités non disponibles dans le dépôt original

Conversion vocale en temps réel (amélioré en v1.1.0)
Intègre partiellement QuickVC
Fixation abusive de ContentVec dans le référentiel d'origine. ¹
Estimation de hauteur plus précise à l'aide CREPE .
GUI et CLI unifiés disponibles
~ 2x formation plus rapide
Prêt à utiliser simplement en installant avec pip .
Téléchargez automatiquement les modèles pré-entraînés. Pas besoin d'installer fairseq .
Code complètement formaté avec noir, isort, autoflake, etc.

Installation

Option 1. Un cliquez sur une installation facile

Ce fichier BAT effectuera automatiquement les étapes décrites ci-dessous.

Option 2. Installation manuelle (en utilisant PIPX, expérimental)

1. Installation de pipx

Windows (version de développement requise en raison de PYPA / PIPX # 940):

py -3 -m pip install --user git+https://github.com/pypa/pipx.git
py -3 -m pipx ensurepath

Linux / macOS:

python -m pip install --user pipx
python -m pipx ensurepath

2. Installation de So-Vits-Svc-Fork

pipx install so-vits-svc-fork --python=3.11
pipx inject so-vits-svc-fork torch torchaudio --pip-args= " --upgrade " --index-url=https://download.pytorch.org/whl/cu121 # https://download.pytorch.org/whl/nightly/cu121

Option 3. Installation manuelle

Créer un environnement virtuel

Windows:

py -3.11 -m venv venv
venv S cripts a ctivate

Linux / macOS:

python3.11 -m venv venv
source venv/bin/activate

Anaconda:

conda create -n so-vits-svc-fork python=3.11 pip
conda activate so-vits-svc-fork

L'installation sans créer un environnement virtuel peut provoquer une PermissionError si Python est installé dans des fichiers de programme, etc.

Installez ceci via PIP (ou votre gestionnaire de packages préféré qui utilise PIP):

python -m pip install -U pip setuptools wheel
pip install -U torch torchaudio --index-url https://download.pytorch.org/whl/cu121 # https://download.pytorch.org/whl/nightly/cu121
pip install -U so-vits-svc-fork

Notes

Si aucun GPU n'est disponible ou en utilisant MacOS, supprimez simplement pip install -U torch torchaudio --index-url https://download.pytorch.org/whl/cu121 . MPS est probablement pris en charge.
Si vous utilisez un GPU AMD sur Linux, remplacez --index-url https://download.pytorch.org/whl/cu121 avec --index-url https://download.pytorch.org/whl/nightly/rocm5.7 . Les GPU AMD ne sont pas pris en charge sur Windows (# 120).

Mise à jour

Veuillez mettre à jour ce package régulièrement pour obtenir les dernières fonctionnalités et corrections de bogues.

pip install -U so-vits-svc-fork
# pipx upgrade so-vits-svc-fork

Usage

Inférence

Gui

GUI lance avec la commande suivante:

svcg

CLI

En temps réel (à partir du microphone)

svc vc

Déposer

svc infer source.wav

Des modèles pré-entraînés sont disponibles sur le visage étreint ou Civitai.

Notes

Si vous utilisez WSL, veuillez noter que WSL nécessite une configuration supplémentaire pour gérer l'audio et que l'interface graphique ne fonctionnera pas sans trouver de périphérique audio.
Dans l'inférence en temps réel, s'il y a du bruit sur les entrées, le modèle Hubert réagira également à ceux-ci. Envisagez d'utiliser des applications de réduction du bruit en temps réel telles que RTX Voice dans ce cas.
Les modèles autres que pour 4.0v1 ou ce référentiel ne sont pas pris en charge.
L'inférence du GPU nécessite au moins 4 Go de VRAM. Si cela ne fonctionne pas, essayez l'inférence du processeur car il est assez rapide. ²

Entraînement

Avant l'entraînement

Si votre ensemble de données dispose de BGM, veuillez supprimer le BGM à l'aide d'un logiciel tel que le dissolvant vocal ultime. 3_HP-Vocal-UVR.pth ou UVR-MDX-NET Main est recommandé. ³
Si votre ensemble de données est un long fichier audio avec un seul haut-parleur, utilisez svc pre-split pour diviser l'ensemble de données en plusieurs fichiers (en utilisant librosa ).
Si votre ensemble de données est un long fichier audio avec plusieurs haut-parleurs, utilisez svc pre-sd pour diviser l'ensemble de données en plusieurs fichiers (en utilisant pyannote.audio ). Une classification manuelle supplémentaire peut être nécessaire en raison de problèmes de précision. Si les haut-parleurs parlent avec une variété de styles de discours, définisseurs - les endetteurs-moindres plus grands que le nombre réel de haut-parleurs. En raison de dépendances non résolues, veuillez installer pyannote.audio manuellement: pip install pyannote-audio .
Pour classer manuellement les fichiers audio, svc pre-classify est disponible. Des touches de flèche de haut en bas peuvent être utilisées pour modifier la vitesse de lecture.

Nuage

⁴

Si vous n'avez pas accès à un GPU avec plus de 10 Go de VRAM, le plan gratuit de Google Colab est recommandé pour les utilisateurs légers et le plan Pro / Growth de l'espace de papiers est recommandé pour les utilisateurs lourds. Inversement, si vous avez accès à un GPU haut de gamme, l'utilisation de services cloud n'est pas recommandée.

Locale

Placez votre ensemble de données comme dataset_raw/{speaker_id}/**/{wav_file}.{any_format} (les sous-dossiers et les noms de fichiers non ascii sont acceptables) et exécutent:

svc pre-resample
svc pre-config
svc pre-hubert
svc train -t

Notes

Durée de l'audio de données par fichier doit être <~ 10s.
Besoin d'au moins 4 Go de VRAM. ⁵
Il est recommandé d'augmenter autant que possible le batch_size dans config.json avant la commande train pour correspondre à la capacité VRAM. La définition batch_size sur auto-{init_batch_size}-{max_n_trials} (ou simplement auto ) augmentera automatiquement batch_size jusqu'à ce que l'erreur OOM se produit, mais peut ne pas être utile dans certains cas.
Pour utiliser CREPE , remplacez svc pre-hubert par svc pre-hubert -fm crepe .
Pour utiliser correctement ContentVec , remplacez svc pre-config par -t so-vits-svc-4.0v1 . L'entraînement peut prendre un peu plus de temps car certains poids sont réinitialisés en raison de la réutilisation des poids des générateurs initiaux hérités.
Pour utiliser MS-iSTFT Decoder , remplacez svc pre-config par svc pre-config -t quickvc .
L'élimination du silence et la normalisation du volume sont automatiquement effectuées (comme dans le repo en amont) et ne sont pas nécessaires.
Si vous avez formé un grand ensemble de données sans droit d'auteur, envisagez de le libérer comme un modèle initial.
Pour plus de détails (par exemple, paramètres, etc.), vous pouvez voir le wiki ou les discussions.

Aide supplémentaire

Pour plus de détails, exécutez svc -h ou svc <subcommand> -h .

 > svc -h
Usage: svc [OPTIONS] COMMAND [ARGS]...

  so-vits-svc allows any folder structure for training data.
  However, the following folder structure is recommended.
      When training: dataset_raw/{speaker_name}/ ** /{wav_name}.{any_format}
      When inference: configs/44k/config.json, logs/44k/G_XXXX.pth
  If the folder structure is followed, you DO NOT NEED TO SPECIFY model path, config path, etc.
  (The latest model will be automatically loaded.)
  To train a model, run pre-resample, pre-config, pre-hubert, train.
  To infer a model, run infer.

Options:
  -h, --help  Show this message and exit.

Commands:
  clean          Clean up files, only useful if you are using the default file structure
  infer          Inference
  onnx           Export model to onnx (currently not working)
  pre-classify   Classify multiple audio files into multiple files
  pre-config     Preprocessing part 2: config
  pre-hubert     Preprocessing part 3: hubert If the HuBERT model is not found, it will be...
  pre-resample   Preprocessing part 1: resample
  pre-sd         Speech diarization using pyannote.audio
  pre-split      Split audio files into multiple files
  train          Train model If D_0.pth or G_0.pth not found, automatically download from hub.
  train-cluster  Train k-means clustering
  vc             Realtime inference from microphone

Liens externes

Tutoriel vidéo

Contributeurs

Merci à ces gens merveilleux (clé emoji):

_34J ? ? ? ? ️ ✅?	_Garrett ? ?	_Blueamulet ? ?	_{ThrowawayAccount01} ?	_緋 ?	_Lordmau5 ? ? ? ?	_DL909 ?
_{Satisfaire256} ?	_{Pierluigi Zagaria} ?	_{rickusmattster} ?	_Desuka-art ?	_heyfixit	_{Rongeur ringard} ?	_谢宇
_Coldcawfee ?	_sbbersier ? ? ?	_Meldoner ? ?	_mmodeusher ?	_Alondan ?	_Likkkez ?	_{Jeux de ruban adhésif} ?
_{Xianglong he} ?	_75aosu ?	_Tonyco82 ?	_yxlllc ?	_{a été surnommé} ?	_{Escoolioinglesias} ? ? ?	_Noir ?
_{Mgs. M. Thoyib Antarnusa} ?	_Exosfeer ?	_guranon ? ?	_{Alexander Koumis}	_acekagami ?	_Highupech ?	_Scorpi
_Maximxls	_Star3lord ?	_Chouchouser ?	_{Zerui Chen} ?	_{Roee Shenberg} ? ?	_Justas ?	_Onako2
_4LL0W3V1L	_J5y0v6b ? ️	_{marcellocirelli} ?	_{Priyanshu Patel}	_{Anna Gorshunova} ?

Ce projet suit les spécifications de tous les contributeurs. Contributions de toute nature bienvenue!

# 206 ↩
# 469 ↩
https://ytpmv.info/how-to-use-uvr/ ↩
Si vous enregistrez un code de référence, puis ajoutez un mode de paiement, vous pouvez économiser environ 5 $ sur la facturation mensuelle de votre premier mois. Notez que les deux récompenses de référence sont des crédits d'espace de papier et non en espèces. C'était une décision difficile mais insérée parce que le débogage et la formation du modèle initial nécessitent une grande quantité de pouvoir informatique et le développeur est un étudiant. ↩
# 456 ↩

Développer

Informations supplémentaires