Anglais |中文简体|日本語| 한국어 | Türkçe
TTS zéro: saisir un échantillon vocal de 5 secondes et vivre une conversion instantanée de texte-parole.
TTS à quelques coups: affinez le modèle avec seulement 1 minute de données de formation pour améliorer la similitude vocale et le réalisme.
Support cross-lingual: l'inférence dans les langues différentes de l'ensemble de données de formation, soutenant actuellement l'anglais, le japonais, le coréen, le cantonais et le chinois.
Outils WebUI: les outils intégrés incluent la séparation des accompagnements de voix, la segmentation automatique des ensembles de formation, l'ASR chinois et l'étiquetage de texte, aidant les débutants à créer des ensembles de données de formation et des modèles GPT / SOVITS.
Découvrez notre vidéo de démonstration ici!
Speinchateurs invisibles Demo fin à quelques coups:
Guide de l'utilisateur: 简体中文 | Anglais
Pour les utilisateurs en Chine, vous pouvez cliquer ici pour utiliser Autodl Cloud Docker pour vivre la fonctionnalité complète en ligne.
Remarque: Numba == 0,56.4 nécessite Py <3,11
Si vous êtes un utilisateur de Windows (testé avec win> = 10), vous pouvez télécharger le package intégré et double-cliquez sur go-webui.bat pour démarrer GPT-Sovits-webui.
Les utilisateurs en Chine peuvent télécharger le package ici.
conda create -n GPTSoVits python=3.9
conda activate GPTSoVits
bash install.shRemarque: Les modèles formés avec des GPU sur les Mac entraînent une qualité nettement plus faible que ceux formés sur d'autres appareils, nous utilisons donc temporairement des CPU à la place.
xcode-select --install .brew install ffmpeg .conda create -n GPTSoVits python=3.9
conda activate GPTSoVits
pip install -r requirements.txtconda install ffmpegsudo apt install ffmpeg
sudo apt install libsox-dev
conda install -c conda-forge ' ffmpeg<7 ' Téléchargez et placez Ffmpeg.exe et ffprobe.exe dans la racine GPT-Sovits.
Installer Visual Studio 2017 (coréen TTS uniquement)
brew install ffmpegpip install -r requirements.txt docker compose -f "docker-compose.yaml" up -d
Comme ci-dessus, modifiez les paramètres correspondants en fonction de votre situation réelle, puis exécutez la commande suivante:
docker run --rm -it --gpus=all --env=is_half=False --volume=G:GPT-SoVITS-DockerTestoutput:/workspace/output --volume=G:GPT-SoVITS-DockerTestlogs:/workspace/logs --volume=G:GPT-SoVITS-DockerTestSoVITS_weights:/workspace/SoVITS_weights --workdir=/workspace -p 9880:9880 -p 9871:9871 -p 9872:9872 -p 9873:9873 -p 9874:9874 --shm-size="16G" -d breakstring/gpt-sovits:xxxxx
Les utilisateurs en Chine peuvent télécharger tous ces modèles ici.
Téléchargez des modèles pré-entraînés à partir de modèles GPT-Sovits et placez-les dans GPT_SoVITS/pretrained_models .
Téléchargez les modèles G2PW à partir de G2PWMODEL_1.1.zip, se dézip et renommer vers G2PWModel , puis placez-les dans GPT_SoVITS/text . (TTS chinois uniquement)
Pour UVR5 (chant / accompagnement de séparation et de réverbération, en outre), téléchargez des modèles à partir de poids UVR5 et placez-les dans tools/uvr5/uvr5_weights .
Pour l'ASR chinois (en outre), téléchargez des modèles de Damo ASR Model, Damo VAD Model et Damo Punc Model et placent-les dans tools/asr/models .
Pour ASR anglais ou japonais (en outre), téléchargez des modèles à partir de plus rapides de chuchotement V3 et placez-les dans tools/asr/models . De plus, d'autres modèles peuvent avoir l'effet similaire avec une empreinte de disque plus petite.
Le format de fichier TTS Annotation .List:
vocal_path|speaker_name|language|text
Dictionnaire linguistique:
Exemple:
D:GPT-SoVITSxxx/xxx.wav|xxx|en|I like playing Genshin.
Double-cliquez sur go-webui.bat ou utilisez go-webui.ps1 si vous souhaitez passer à v1, alors double-cliquez sur go-webui-v1.bat ou utilisez go-webui-v1.ps1
python webui.py < language(optional) >Si vous souhaitez passer à V1, alors
python webui.py v1 < language(optional) >Ou commutation maunale dans webui
1.Fill in the audio path
2.Slice the audio into small chunks
3.Denoise(optinal)
4.ASR
5.Proofreading ASR transcriptions
6.Go to the next Tab, then finetune the model
Double-cliquez sur go-webui-v2.bat ou utilisez go-webui-v2.ps1 , puis ouvrez le webui d'inférence à 1-GPT-SoVITS-TTS/1C-inference
python GPT_SoVITS/inference_webui.py < language(optional) >OU
python webui.py Ensuite, ouvrez le webui d'Inférence à 1-GPT-SoVITS-TTS/1C-inference
Nouvelles fonctionnalités:
Soutenir coréen et cantonais
Un frontage de texte optimisé
Modèle pré-formé prolongé de 2k heures à 5 km
Amélioration de la qualité de synthèse pour l'audio de référence de faible qualité
Plus de détails
Utilisez V2 à partir de l'environnement V1:
pip install -r requirements.txt pour mettre à jour certains packages
Clone les derniers codes de GitHub.
Téléchargez V2 Modèles prétrainés à partir de HuggingFace et mettez-les dans GPT_SoVITSpretrained_modelsgsv-v2final-pretrained .
Chinois V2 supplémentaire: G2PWMODEL_1.1.zip (Téléchargez les modèles G2PW, se dézip et renommer vers G2PWModel , puis les placer dans GPT_SoVITS/text .
Priorité élevée:
Caractéristiques:
Utilisez la ligne de commande pour ouvrir le webui pour UVR5
python tools/uvr5/webui.py "<infer_device>" <is_half> <webui_port_uvr5>
C'est ainsi que la segmentation audio de l'ensemble de données est effectuée en utilisant la ligne de commande
python audio_slicer.py
--input_path "<path_to_original_audio_file_or_directory>"
--output_root "<directory_where_subdivided_audio_clips_will_be_saved>"
--threshold <volume_threshold>
--min_length <minimum_duration_of_each_subclip>
--min_interval <shortest_time_gap_between_adjacent_subclips>
--hop_size <step_size_for_computing_volume_curve>
C'est ainsi que le traitement ASR de jeu de données est effectué en utilisant la ligne de commande (uniquement chinois)
python tools/asr/funasr_asr.py -i <input> -o <output>
Le traitement ASR est effectué via plus rapide_whisper (marquage ASR sauf chinois)
(Aucune barre de progrès, les performances du GPU peuvent entraîner des retards)
python ./tools/asr/fasterwhisper_asr.py -i <input> -o <output> -l <language> -p <precision>
Un chemin de sauvegarde de liste personnalisé est activé
Un merci spécial aux projets et contributeurs suivants:
Reconnaissant à @ naozumi520 d'avoir fourni l'ensemble de formation en cantonais et des conseils sur les connaissances liées au cantonais.