简体中文
Une fourche de so-vits-svc avec un support en temps réel et une interface considérablement améliorée . Sur la base de la branche 4.0 (V1) (ou 4.1 ) et les modèles sont compatibles. 4.1 Les modèles ne sont pas pris en charge. D'autres modèles ne sont pas non plus pris en charge.
Méfiez-vous toujours des très rares influenceurs qui sont trop surpris de tout nouveau projet / technologie. Vous devez prendre tous les postes de réseautage social avec semi-doute.
Le boom du changeur de voix qui s'est produit en 2023 a pris fin, et de nombreux développeurs, pas seulement ceux de ce référentiel, n'ont pas été très actifs depuis un certain temps.
Il y a trop d'alternatives à énumérer ici mais:
Ailleurs, plusieurs start-ups ont amélioré et commercialisé des changeurs de voix (probablement à but lucratif).
Les mises à jour de ce référentiel sont limitées à la maintenance depuis le printemps 2023.
Il est difficile de réduire la liste des alternatives ici, mais envisagez d'essayer d'autres projets si vous recherchez un changeur de voix avec des performances encore meilleures (en particulier en termes de latence autre que la qualité).>Cependant, ce projet peut être idéal pour ceux qui souhaitent essayer la conversion vocale pour le moment (car il est facile à installer).
QuickVCContentVec dans le référentiel d'origine. 1CREPE .pip .fairseq .Ce fichier BAT effectuera automatiquement les étapes décrites ci-dessous.
Windows (version de développement requise en raison de PYPA / PIPX # 940):
py -3 -m pip install --user git+https://github.com/pypa/pipx.git
py -3 -m pipx ensurepathLinux / macOS:
python -m pip install --user pipx
python -m pipx ensurepathpipx install so-vits-svc-fork --python=3.11
pipx inject so-vits-svc-fork torch torchaudio --pip-args= " --upgrade " --index-url=https://download.pytorch.org/whl/cu121 # https://download.pytorch.org/whl/nightly/cu121Windows:
py -3.11 -m venv venv
venv S cripts a ctivateLinux / macOS:
python3.11 -m venv venv
source venv/bin/activateAnaconda:
conda create -n so-vits-svc-fork python=3.11 pip
conda activate so-vits-svc-fork L'installation sans créer un environnement virtuel peut provoquer une PermissionError si Python est installé dans des fichiers de programme, etc.
Installez ceci via PIP (ou votre gestionnaire de packages préféré qui utilise PIP):
python -m pip install -U pip setuptools wheel
pip install -U torch torchaudio --index-url https://download.pytorch.org/whl/cu121 # https://download.pytorch.org/whl/nightly/cu121
pip install -U so-vits-svc-forkpip install -U torch torchaudio --index-url https://download.pytorch.org/whl/cu121 . MPS est probablement pris en charge.--index-url https://download.pytorch.org/whl/cu121 avec --index-url https://download.pytorch.org/whl/nightly/rocm5.7 . Les GPU AMD ne sont pas pris en charge sur Windows (# 120).Veuillez mettre à jour ce package régulièrement pour obtenir les dernières fonctionnalités et corrections de bogues.
pip install -U so-vits-svc-fork
# pipx upgrade so-vits-svc-fork GUI lance avec la commande suivante:
svcgsvc vcsvc infer source.wavDes modèles pré-entraînés sont disponibles sur le visage étreint ou Civitai.
3_HP-Vocal-UVR.pth ou UVR-MDX-NET Main est recommandé. 3svc pre-split pour diviser l'ensemble de données en plusieurs fichiers (en utilisant librosa ).svc pre-sd pour diviser l'ensemble de données en plusieurs fichiers (en utilisant pyannote.audio ). Une classification manuelle supplémentaire peut être nécessaire en raison de problèmes de précision. Si les haut-parleurs parlent avec une variété de styles de discours, définisseurs - les endetteurs-moindres plus grands que le nombre réel de haut-parleurs. En raison de dépendances non résolues, veuillez installer pyannote.audio manuellement: pip install pyannote-audio .svc pre-classify est disponible. Des touches de flèche de haut en bas peuvent être utilisées pour modifier la vitesse de lecture. 4
Si vous n'avez pas accès à un GPU avec plus de 10 Go de VRAM, le plan gratuit de Google Colab est recommandé pour les utilisateurs légers et le plan Pro / Growth de l'espace de papiers est recommandé pour les utilisateurs lourds. Inversement, si vous avez accès à un GPU haut de gamme, l'utilisation de services cloud n'est pas recommandée.
Placez votre ensemble de données comme dataset_raw/{speaker_id}/**/{wav_file}.{any_format} (les sous-dossiers et les noms de fichiers non ascii sont acceptables) et exécutent:
svc pre-resample
svc pre-config
svc pre-hubert
svc train -tbatch_size dans config.json avant la commande train pour correspondre à la capacité VRAM. La définition batch_size sur auto-{init_batch_size}-{max_n_trials} (ou simplement auto ) augmentera automatiquement batch_size jusqu'à ce que l'erreur OOM se produit, mais peut ne pas être utile dans certains cas.CREPE , remplacez svc pre-hubert par svc pre-hubert -fm crepe .ContentVec , remplacez svc pre-config par -t so-vits-svc-4.0v1 . L'entraînement peut prendre un peu plus de temps car certains poids sont réinitialisés en raison de la réutilisation des poids des générateurs initiaux hérités.MS-iSTFT Decoder , remplacez svc pre-config par svc pre-config -t quickvc . Pour plus de détails, exécutez svc -h ou svc <subcommand> -h .
> svc -h
Usage: svc [OPTIONS] COMMAND [ARGS]...
so-vits-svc allows any folder structure for training data.
However, the following folder structure is recommended.
When training: dataset_raw/{speaker_name}/ ** /{wav_name}.{any_format}
When inference: configs/44k/config.json, logs/44k/G_XXXX.pth
If the folder structure is followed, you DO NOT NEED TO SPECIFY model path, config path, etc.
(The latest model will be automatically loaded.)
To train a model, run pre-resample, pre-config, pre-hubert, train.
To infer a model, run infer.
Options:
-h, --help Show this message and exit.
Commands:
clean Clean up files, only useful if you are using the default file structure
infer Inference
onnx Export model to onnx (currently not working)
pre-classify Classify multiple audio files into multiple files
pre-config Preprocessing part 2: config
pre-hubert Preprocessing part 3: hubert If the HuBERT model is not found, it will be...
pre-resample Preprocessing part 1: resample
pre-sd Speech diarization using pyannote.audio
pre-split Split audio files into multiple files
train Train model If D_0.pth or G_0.pth not found, automatically download from hub.
train-cluster Train k-means clustering
vc Realtime inference from microphoneTutoriel vidéo
Merci à ces gens merveilleux (clé emoji):
34J ? ? ? ? | Garrett ? ? | Blueamulet ? ? | ThrowawayAccount01 ? | 緋 ? | Lordmau5 ? ? ? ? | DL909 ? |
Satisfaire256 ? | Pierluigi Zagaria ? | rickusmattster ? | Desuka-art ? | heyfixit | Rongeur ringard ? | 谢宇 |
Coldcawfee ? | sbbersier ? ? ? | Meldoner ? ? | mmodeusher ? | Alondan ? | Likkkez ? | Jeux de ruban adhésif ? |
Xianglong he ? | 75aosu ? | Tonyco82 ? | yxlllc ? | a été surnommé ? | Escoolioinglesias ? ? ? | Noir ? |
Mgs. M. Thoyib Antarnusa ? | Exosfeer ? | guranon ? ? | Alexander Koumis | acekagami ? | Highupech ? | Scorpi |
Maximxls | Star3lord ? | Chouchouser ? | Zerui Chen ? | Roee Shenberg ? ? | Justas ? | Onako2 |
4LL0W3V1L | J5y0v6b ? ️ | marcellocirelli ? | Priyanshu Patel | Anna Gorshunova ? |
Ce projet suit les spécifications de tous les contributeurs. Contributions de toute nature bienvenue!
# 206 ↩
# 469 ↩
https://ytpmv.info/how-to-use-uvr/ ↩
Si vous enregistrez un code de référence, puis ajoutez un mode de paiement, vous pouvez économiser environ 5 $ sur la facturation mensuelle de votre premier mois. Notez que les deux récompenses de référence sont des crédits d'espace de papier et non en espèces. C'était une décision difficile mais insérée parce que le débogage et la formation du modèle initial nécessitent une grande quantité de pouvoir informatique et le développeur est un étudiant. ↩
# 456 ↩