GPT SoVITS Download - GPT SoVITS Source Code Download

GPT SoVITS

Code Source AI

v2

Télécharger

Gpt-sovits-webui

Une puissante conversion vocale à quelques coups et un webui de texte vocal.

Anglais |中文简体|日本語| 한국어 | Türkçe

Caractéristiques:

TTS zéro: saisir un échantillon vocal de 5 secondes et vivre une conversion instantanée de texte-parole.
TTS à quelques coups: affinez le modèle avec seulement 1 minute de données de formation pour améliorer la similitude vocale et le réalisme.
Support cross-lingual: l'inférence dans les langues différentes de l'ensemble de données de formation, soutenant actuellement l'anglais, le japonais, le coréen, le cantonais et le chinois.
Outils WebUI: les outils intégrés incluent la séparation des accompagnements de voix, la segmentation automatique des ensembles de formation, l'ASR chinois et l'étiquetage de texte, aidant les débutants à créer des ensembles de données de formation et des modèles GPT / SOVITS.

Découvrez notre vidéo de démonstration ici!

Speinchateurs invisibles Demo fin à quelques coups:

peu.shot.fine.tuning.demo.mp4

Guide de l'utilisateur: 简体中文 | Anglais

Installation

Pour les utilisateurs en Chine, vous pouvez cliquer ici pour utiliser Autodl Cloud Docker pour vivre la fonctionnalité complète en ligne.

Environnements testés

Python 3.9, Pytorch 2.0.1, Cuda 11
Python 3.10.13, Pytorch 2.1.2, Cuda 12.3
Python 3.9, Pytorch 2.2.2, macOS 14.4.1 (Silicon Apple)
Python 3.9, Pytorch 2.2.2, dispositifs CPU

Remarque: Numba == 0,56.4 nécessite Py <3,11

Fenêtre

Si vous êtes un utilisateur de Windows (testé avec win> = 10), vous pouvez télécharger le package intégré et double-cliquez sur go-webui.bat pour démarrer GPT-Sovits-webui.

Les utilisateurs en Chine peuvent télécharger le package ici.

Linux

conda create -n GPTSoVits python=3.9
conda activate GPTSoVits
bash install.sh

macos

Remarque: Les modèles formés avec des GPU sur les Mac entraînent une qualité nettement plus faible que ceux formés sur d'autres appareils, nous utilisons donc temporairement des CPU à la place.

Installez les outils de ligne de commande xcode en exécutant xcode-select --install .
Installez FFMPEG en exécutant brew install ffmpeg .
Installez le programme en exécutant les commandes suivantes:

conda create -n GPTSoVits python=3.9
conda activate GPTSoVits
pip install -r requirements.txt

Installer manuellement

Installer ffmpeg

Utilisateurs de conda

conda install ffmpeg

Utilisateurs Ubuntu / Debian

sudo apt install ffmpeg
sudo apt install libsox-dev
conda install -c conda-forge ' ffmpeg<7 '

Utilisateurs de Windows

Téléchargez et placez Ffmpeg.exe et ffprobe.exe dans la racine GPT-Sovits.

Installer Visual Studio 2017 (coréen TTS uniquement)

Utilisateurs macOS

brew install ffmpeg

Installer des dépendances

pip install -r requirements.txt

Utilisation de Docker

configuration docker-compose.yaml

En ce qui concerne les balises d'image: en raison des mises à jour rapides dans la base de code et du processus lent des images d'emballage et de test, veuillez consulter Docker Hub pour les dernières images actuellement emballées et sélectionner selon votre situation, ou alternativement, construire localement à l'aide d'un Dockerfile Docker en fonction de vos propres besoins.
Variables d'environnement:

IS_HALF: contrôle la demi-précision / double précision. Il s'agit généralement de la cause si le contenu des répertoires 4-CNHUBERT / 5-WAV32K n'est pas généré correctement pendant l'étape "Extraction SSL". Ajustez-vous à vrai ou faux en fonction de votre situation réelle.

Configuration des volumes ， Le répertoire racine de l'application à l'intérieur du conteneur est défini sur / Workspace. Le Docker-Compose.yaml par défaut répertorie quelques exemples pratiques pour télécharger / télécharger du contenu.
SHM_SIZE: La mémoire disponible par défaut pour Docker Desktop sur Windows est trop petite, ce qui peut provoquer des opérations anormales. Ajustez en fonction de votre propre situation.
Dans le cadre de la section Déploiement, les paramètres liés au GPU doivent être ajustés avec prudence en fonction de votre système et de votre situation réelle.

Exécution avec Docker Compose

 docker compose -f "docker-compose.yaml" up -d

Exécution avec la commande docker

Comme ci-dessus, modifiez les paramètres correspondants en fonction de votre situation réelle, puis exécutez la commande suivante:

 docker run --rm -it --gpus=all --env=is_half=False --volume=G:GPT-SoVITS-DockerTestoutput:/workspace/output --volume=G:GPT-SoVITS-DockerTestlogs:/workspace/logs --volume=G:GPT-SoVITS-DockerTestSoVITS_weights:/workspace/SoVITS_weights --workdir=/workspace -p 9880:9880 -p 9871:9871 -p 9872:9872 -p 9873:9873 -p 9874:9874 --shm-size="16G" -d breakstring/gpt-sovits:xxxxx

Modèles pré-entraînés

Les utilisateurs en Chine peuvent télécharger tous ces modèles ici.

Téléchargez des modèles pré-entraînés à partir de modèles GPT-Sovits et placez-les dans GPT_SoVITS/pretrained_models .
Téléchargez les modèles G2PW à partir de G2PWMODEL_1.1.zip, se dézip et renommer vers G2PWModel , puis placez-les dans GPT_SoVITS/text . (TTS chinois uniquement)
Pour UVR5 (chant / accompagnement de séparation et de réverbération, en outre), téléchargez des modèles à partir de poids UVR5 et placez-les dans tools/uvr5/uvr5_weights .
Pour l'ASR chinois (en outre), téléchargez des modèles de Damo ASR Model, Damo VAD Model et Damo Punc Model et placent-les dans tools/asr/models .
Pour ASR anglais ou japonais (en outre), téléchargez des modèles à partir de plus rapides de chuchotement V3 et placez-les dans tools/asr/models . De plus, d'autres modèles peuvent avoir l'effet similaire avec une empreinte de disque plus petite.

Format de jeu de données

Le format de fichier TTS Annotation .List:

 vocal_path|speaker_name|language|text

Dictionnaire linguistique:

'Zh': chinois
'Ja': japonais
'en': anglais
'Ko': coréen
'Yue': cantonais

Exemple:

 D:GPT-SoVITSxxx/xxx.wav|xxx|en|I like playing Genshin.

Finetune et inférence

Ouvrir webui

Utilisateurs de packages intégrés

Double-cliquez sur go-webui.bat ou utilisez go-webui.ps1 si vous souhaitez passer à v1, alors double-cliquez sur go-webui-v1.bat ou utilisez go-webui-v1.ps1

Autres

python webui.py < language(optional) >

Si vous souhaitez passer à V1, alors

python webui.py v1 < language(optional) >

Ou commutation maunale dans webui

Affiner

Le remplissage automatique du chemin est maintenant pris en charge

 1.Fill in the audio path

 2.Slice the audio into small chunks

 3.Denoise(optinal)

 4.ASR

 5.Proofreading ASR transcriptions

 6.Go to the next Tab, then finetune the model

Open Inférence Webui

Utilisateurs de packages intégrés

Double-cliquez sur go-webui-v2.bat ou utilisez go-webui-v2.ps1 , puis ouvrez le webui d'inférence à 1-GPT-SoVITS-TTS/1C-inference

Autres

python GPT_SoVITS/inference_webui.py < language(optional) >

OU

python webui.py

Ensuite, ouvrez le webui d'Inférence à 1-GPT-SoVITS-TTS/1C-inference

Notes de libération V2

Nouvelles fonctionnalités:

Soutenir coréen et cantonais
Un frontage de texte optimisé
Modèle pré-formé prolongé de 2k heures à 5 km
Amélioration de la qualité de synthèse pour l'audio de référence de faible qualité
Plus de détails

Utilisez V2 à partir de l'environnement V1:

pip install -r requirements.txt pour mettre à jour certains packages
Clone les derniers codes de GitHub.
Téléchargez V2 Modèles prétrainés à partir de HuggingFace et mettez-les dans GPT_SoVITSpretrained_modelsgsv-v2final-pretrained .
Chinois V2 supplémentaire: G2PWMODEL_1.1.zip （Téléchargez les modèles G2PW, se dézip et renommer vers G2PWModel , puis les placer dans GPT_SoVITS/text .

Liste de TOD

(Supplémentaire) Méthode pour exécuter à partir de la ligne de commande

Utilisez la ligne de commande pour ouvrir le webui pour UVR5

 python tools/uvr5/webui.py "<infer_device>" <is_half> <webui_port_uvr5>

C'est ainsi que la segmentation audio de l'ensemble de données est effectuée en utilisant la ligne de commande

 python audio_slicer.py 
    --input_path "<path_to_original_audio_file_or_directory>" 
    --output_root "<directory_where_subdivided_audio_clips_will_be_saved>" 
    --threshold <volume_threshold> 
    --min_length <minimum_duration_of_each_subclip> 
    --min_interval <shortest_time_gap_between_adjacent_subclips> 
    --hop_size <step_size_for_computing_volume_curve>

C'est ainsi que le traitement ASR de jeu de données est effectué en utilisant la ligne de commande (uniquement chinois)

 python tools/asr/funasr_asr.py -i <input> -o <output>

Le traitement ASR est effectué via plus rapide_whisper (marquage ASR sauf chinois)

(Aucune barre de progrès, les performances du GPU peuvent entraîner des retards)

 python ./tools/asr/fasterwhisper_asr.py -i <input> -o <output> -l <language> -p <precision>

Un chemin de sauvegarde de liste personnalisé est activé

Crédits

Un merci spécial aux projets et contributeurs suivants:

Recherche théorique

AR-VITS
Tempête de son
vits
Transférer
Contentvec
Hifi-gan
pêcheur

Modèles pré-entraînés

Discours chinois prétraisant
Chinois-Roberta-WWM-EXT-GRAND

Frontend texte pour l'inférence

paddlespeech zh_ormalisation
Languette
G2PW
pypyin-g2pw
paddlespeech g2pw

Outils webui

ultimatevocalremovergui
audio-licence
Sous-page
Ffmpeg
gradio
plus rapide
Funasr

Reconnaissant à @ naozumi520 d'avoir fourni l'ensemble de formation en cantonais et des conseils sur les connaissances liées au cantonais.

Merci à tous les contributeurs pour leurs efforts

Développer

Informations supplémentaires

Version v2
Type Code Source AI
Date de mise à jour 2025-08-19
taille 6.11MB
Provenant de Github

Applications connexes

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
La dernière version du cinéma et de la télévision GPT

2023-10-30

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
ML stack

Code Source AI

1.0.0
awesome free chatgpt

Code Source AI

1.0.0
pywin_contextmenu

Code Source AI

Version update
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout