so vits svc -Download - so vits svc Source Code Download

so vits svc

Anderer Quellcode

1.0.0

Herunterladen

Softvc Vits singen Sprachumwandlung

Englisch |中文简体

Diese Runde des begrenzten Zeit -Updates endet, das Lagerhaus wird in den Archieve -Staat eintreten, bitte wissen Sie

Ein Studio, das sichtbaren F0 -Editor, Speaker Mix Timeline -Editor und andere Funktionen enthält (wo die ONNX -Modelle verwendet werden): Moevoicestudio

Eine Gabel mit einer stark verbesserten Benutzeroberfläche: 34J/SO-Vits-SVC-Gabel

Ein Kunde unterstützt Echtzeitkonvertierung: W-OKADA/Voice Changer

Dieses Projekt unterscheidet sich grundlegend von Vits, da es sich eher auf die Gesangs-Voice Conversion (SVC) als auf Text-to-Speech (TTS) konzentriert. In diesem Projekt wird TTS -Funktionalität nicht unterstützt, und Vits können SVC -Aufgaben nicht ausführen. Es ist wichtig zu beachten, dass die in diesen beiden Projekten verwendeten Modelle nicht austauschbar oder universell anwendbar sind.

Bekanntmachung

Ziel dieses Projekts war es, Entwicklern zu ermöglichen, dass ihre geliebten Anime -Charaktere Gesangsaufgaben ausführen. Die Absicht der Entwickler war es, sich ausschließlich auf fiktive Charaktere zu konzentrieren und echte Personen zu vermeiden, alles, was mit echten Individuen zusammenhängt, weicht von der ursprünglichen Absicht des Entwicklers ab.

Haftungsausschluss

Dieses Projekt ist ein Open-Source-Offline-Bestreben, und alle Mitglieder von SVCDevelopteam sowie anderen beteiligten Entwicklern und Inhaber (im Folgenden als Mitwirkenden bezeichnet) haben keine Kontrolle über das Projekt. Die Mitwirkenden haben noch nie eine Organisation oder Person unterstützt, einschließlich, aber nicht beschränkt auf Datensatzextraktion, Datensatzverarbeitung, Computerunterstützung, Schulungsunterstützung, Inferenz usw. Die Mitwirkenden sind nicht und können sich der Zwecke nicht bewusst sein, für die Benutzer das Projekt nutzen. Daher haben alle AI -Modelle und synthetisierten Audioen, die durch das Training dieses Projekts erzeugt werden, nichts mit den Mitwirkenden zu tun. Probleme oder Konsequenzen, die sich aus ihrer Verwendung ergeben, liegen in der alleinigen Verantwortung des Benutzers.

Dieses Projekt wird vollständig offline ausgeführt und sammelt keine Benutzerinformationen oder sammelte Benutzereingabedaten. Die Mitwirkenden an diesem Projekt sind daher nicht alle Benutzereingaben und -modelle bekannt und sind daher für keine Benutzereingaben verantwortlich.

Dieses Projekt dient nur als Framework und besitzt keine Sprachsynthesefunktionalität für sich. Alle Funktionen erfordern, dass Benutzer die Modelle unabhängig schulen. Darüber hinaus wird dieses Projekt nicht mit Modellen gebündelt, und alle sekundären verteilten Projekte sind unabhängig von den Mitwirkenden dieses Projekts.

? Nutzungsbedingungen

WARNUNG: Bitte stellen Sie sicher, dass Sie alle Autorisierungsfragen im Zusammenhang mit dem Datensatz selbst behandeln. Sie tragen die volle Verantwortung für Probleme, die sich aus der Verwendung nicht autorisierter Datensätze für das Training sowie alle daraus resultierenden Folgen ergeben. Das Repository und sein Betreuer SVC entwickeln das Team und lehnen jegliche Verbindung mit oder Haftung für die Konsequenzen ab.

Dieses Projekt ist ausschließlich für akademische Zwecke festgelegt, um die Kommunikation und das Lernen zu erleichtern. Es ist nicht für den Einsatz in Produktionsumgebungen gedacht.
Jedes Sovits-basierte Video, das auf einer Videoplattform veröffentlicht wurde Sie müssen einen klaren Link zum Originalvideo oder zur Musik geben. Wenn Sie Ihren eigenen Gesang oder eine Sprache verwenden, die von einer anderen Sprachsynthese -Engine als Eingangsquelle synthetisiert wird, müssen Sie dies auch in Ihrer Einführung angeben.
Sie sind ausschließlich für alle durch die Eingabequelle und alle Konsequenzen verursachten Verletzungsfragen verantwortlich. Wenn Sie andere kommerzielle Vokalsynthese -Software als Eingabebereich verwenden, stellen Sie bitte sicher, dass Sie den Vorschriften dieser Software einhalten, und stellen fest, dass die Vorschriften vieler Stimmsynthesemotoren ausdrücklich darauf hinweisen, dass sie nicht zur Umwandlung von Inputquellen verwendet werden können!
Es ist strengstens untersagt, illegale Aktivitäten sowie religiöse und politische Aktivitäten zu betreiben. Die Projektentwickler lehnen vehement gegen die oben genannten Aktivitäten ab. Wenn Sie dieser Bestimmung nicht einverstanden sind, ist die Verwendung des Projekts verboten.
Wenn Sie das Programm weiterhin verwenden, werden Sie angenommen, dass Sie den in Readme festgelegten Bedingungen vereinbart haben, und Readme hat Sie entmutigt und ist nicht für nachfolgende Probleme verantwortlich.
Wenn Sie beabsichtigen, dieses Projekt für andere Zwecke zu verwenden, kontaktieren Sie bitte die Wartung dieses Repositorys im Voraus.

Modelleinführung

Das Sanging Voice Conversion -Modell verwendet SoftVC -Inhaltscodierer, um Sprachmerkmale aus dem Quell -Audio zu extrahieren. Diese Feature-Vektoren werden direkt in Vits eingespeist, ohne dass eine Konvertierung in eine textbasierte Zwischendarstellung erforderlich ist. Infolgedessen bleiben die Tonhöhe und die Intonationen des ursprünglichen Audios erhalten. In der Zwischenzeit wurde der Vokoder durch NSF Hifigan ersetzt, um das Problem der Schallunterbrechung zu lösen.

? 4.1-Stabile Version Aktualisieren Sie Inhalte

Die Feature -Eingabe wird in die 12. Schicht des Inhalts -VEC -Transformatorausgangs geändert und mit 4.0 Zweigen kompatibel.
Aktualisieren Sie die flache Diffusion, Sie können das flache Diffusionsmodell verwenden, um die Klangqualität zu verbessern.
Es wurde die Unterstützung des Whisper-PPG-Encoders hinzugefügt
Statische/dynamische Klangfusion hinzugefügt
Zusätzliche Lautstärke einbetteten
Die Funktionalität des Feature -Abrufs von RVC hinzugefügt

? Fragen zur Kompatibilität mit dem 4.0 -Modell

Um das 4.0 -Modell zu unterstützen und den Sprachcodierer einzubeziehen, können Sie Änderungen an der Datei config.json vornehmen. Fügen Sie das Feld " speech_encoder zum Abschnitt "Modell" hinzu, wie unten gezeigt:

  "model": {
    .........
    "ssl_dim": 256,
    "n_speakers": 200,
    "speech_encoder":"vec256l9"
  }

? Flache Verbreitung

Diagramm

Python -Version

Basierend auf unseren Tests haben wir festgestellt, dass das Projekt auf Python 3.8.9 stabil ausgeführt wird.

? Vorausgebildete Modelldateien

Erforderlich

Sie müssen einen Encoder aus der folgenden Liste auswählen

1. Wenn Sie ContentVEC als Sprachcodierer verwenden (empfohlen)

vec768l12 und vec256l9 benötigen den Encoder

ContentVec: checkpoint_best_legacy_500.pt
- Platzieren Sie es in das pretrain

Oder laden Sie den folgenden ContentVec herunter, der nur eine Größe von 199 MB hat, aber den gleichen Effekt hat:

ContentVec: Hubert_base.pt
- Ändern Sie den Dateinamen in checkpoint_best_legacy_500.pt und platzieren Sie ihn in das pretrain

 # contentvec
wget -P pretrain/ https://huggingface.co/lj1995/VoiceConversionWebUI/resolve/main/hubert_base.pt -O checkpoint_best_legacy_500.pt
# Alternatively, you can manually download and place it in the hubert directory

2. Wenn Hubertsoft als Sprachcodierer verwendet wird

Soft VC Hubert: Hubert-Soft-0d54a1f4.Pt
- Platzieren Sie es in das pretrain

3. Wenn flüstere PPG als Encoder

Laden Sie das Modell bei Medium whisper-ppg
oder download modell in großer V2.Pt, das Modell passt whisper-ppg-large
- Platzieren Sie es in das pretrain

4. Wenn Cnhubertlarge als Encoder

Download-Modell bei Chinese-Hubert-Large-Fairseq-CKPT.Pt.Pt.Pt
- Platzieren Sie es in das pretrain

5. Wenn dhubert als Encoder

Laden Sie das Modell bei DPHUBERT-SP0.75.PTH herunter
- Platzieren Sie es in das pretrain

6. Wenn Wavlm als Encoder verwendet wird

Laden Sie das Modell bei Wavlm-Base+.PT herunter, das Modell passt wavlmbase+
- Platzieren Sie es in das pretrain

7. Wenn Onnxhubert/ContentVec als Encoder

Laden Sie das Modell bei Moess-Submodel herunter
- Platzieren Sie es in das pretrain

Liste der Encoder

"VEC768L12"
"VEC256L9"
"VEC256L9-ONNX"
"VEC256L12-ONNX"
"VEC768L9-ONNX"
"VEC768L12-ONNX"
"Hubertsoft-onnx"
"Hubertsoft"
"Whisper-PPG"
"Cnhubertlarge"
"Dphubert"
"flüsterepg-large"
"Wavlmbase+"

Optional (dringend empfehlen)

Vorausgebildete Modelldateien: G_0.pth D_0.pth
- Platzieren Sie sie unter die logs/44k -Verzeichnis
Diffusionsmodell Vorabbasismodelldatei: model_0.pt
- Geben Sie es in das Verzeichnis der logs/44k/diffusion ein

Holen Sie sich Sovits vorgebildetes Modell aus dem SVC-Entwicklungsteam (TBD) oder irgendwo anders.

Diffusionsmodell referenziert das Diffusions-SVC-Diffusionsmodell. Das vorgebildete Diffusionsmodell ist mit den DDSP-SVCs universell. Sie können zum Repo von Diffusion-SVC gehen, um das vorgebildete Diffusionsmodell zu erhalten.

Während das vorbereitete Modell in der Regel keine Urheberrechtsbedenken darstellt, ist es wichtig, wachsam zu bleiben. Es ist ratsam, den Autor vorher zu konsultieren oder die Beschreibung sorgfältig zu überprüfen, um die zulässige Verwendung des Modells zu ermitteln. Dies hilft, die Einhaltung der festgelegten Richtlinien oder Einschränkungen hinsichtlich der Nutzung zu gewährleisten.

Optional (nach Bedarf auswählen)

NSF-HIFIGAN

Wenn Sie den NSF-HIFIGAN enhancer oder shallow diffusion verwenden, müssen Sie das vorgebildete NSF-Hifigan-Modell herunterladen.

Vorausgebildeter NSF-Hifigan Vocoder: NSF_HIFIGAN_20221211.zip
- Unzippieren und platzieren Sie die vier Dateien unter das Verzeichnis pretrain/nsf_hifigan

 # nsf_hifigan
wget -P pretrain/ https://github.com/openvpi/vocoders/releases/download/nsf-hifigan-v1/nsf_hifigan_20221211.zip
unzip -od pretrain/nsf_hifigan pretrain/nsf_hifigan_20221211.zip
# Alternatively, you can manually download and place it in the pretrain/nsf_hifigan directory
# URL: https://github.com/openvpi/vocoders/releases/tag/nsf-hifigan-v1

Rmvpe

Wenn Sie den rmvpe F0-Prädiktor verwenden, müssen Sie das vorgebildete RMVPE-Modell herunterladen.

Download -Modell bei rmvpe.zip, dieses Gewicht wird empfohlen.
- Unzip rmvpe.zip ， und benennen Sie die model.pt -Datei in rmvpe.pt um und legen Sie sie unter das pretrain .

~~Laden Sie das Modell bei RMVPE.PT herunter~~
- ~~Platzieren Sie es in das pretrain~~

FCPE (Vorschau -Version)

FCPE (schneller Kontext-Basis-Pitch-Schätzer) ist ein dedizierter F0-Prädiktor für die Umwandlung in Echtzeit-Sprache und wird in Zukunft der bevorzugte F0-Prädiktor für Sovits Echtzeit-Sprachumwandlung. (Das Papier wird geschrieben)

Wenn Sie den fcpe F0-Prädiktor verwenden, müssen Sie das vorgebildete FCPE-Modell herunterladen.

Laden Sie das Modell bei FCPE.PT herunter
- Platzieren Sie es in das pretrain

Datensatzvorbereitung

Platzieren Sie einfach den Datensatz in das Verzeichnis dataset_raw mit der folgenden Dateistruktur:

 dataset_raw
├───speaker0
│   ├───xxx1-xxx1.wav
│   ├───...
│   └───Lxx-0xx8.wav
└───speaker1
    ├───xx2-0xxx2.wav
    ├───...
    └───xxx7-xxx007.wav

Das Format des Namens für jede Audiodatei gibt keine spezifischen Einschränkungen (Namenskonventionen wie 000001.wav bis 999999.wav sind ebenfalls gültig), aber der Dateityp muss "WAV" sein.

Sie können den Namen des Sprechers wie unten gezeigt anpassen:

 dataset_raw
└───suijiSUI
    ├───1.wav
    ├───...
    └───25788785-20221210-200143-856_01_(Vocals)_0_0.wav

Vorverarbeitung

0. Audio schneiden

Um den Überlauf des Videospeichers während des Trainings oder der Vorverarbeitung zu vermeiden, wird empfohlen, die Länge von Audioclips zu begrenzen. Es wird empfohlen, das Audio auf eine Länge von "5s - 15s" zu schneiden. Etwas längere Zeiten sind akzeptabel, aber übermäßig lange Clips können zu Problemen wie torch.cuda.OutOfMemoryError führen.

Um den Schnittprozess zu erleichtern, können Sie Audio-Slicer-Gui oder Audio-Slicer-Cli verwenden

Im Allgemeinen muss nur das Minimum Interval angepasst werden. Für gesprochenes Audio reicht der Standardwert normalerweise aus, während er für das Singen von Audio je nach den spezifischen Anforderungen auf rund 100 oder sogar 50 eingestellt werden kann.

Nach dem Schneiden wird empfohlen, alle übermäßig langen oder zu kurzen Audioclips zu entfernen.

Wenn Sie Whisper-PPG-Encoder für das Training verwenden, müssen die Audioclips kürzer als 30er Jahre.

1. REBLIETE auf 44100Hz und Mono

python resample.py

Vorsichtsmaßnahmen

Obwohl dieses Projekt res Beispiele. Dies kann die Klangqualität beschädigen. Während Pythons Lautstärkepaket Pyloudnorm den Niveau nicht einschränkt, kann dies zu Klangboom führen. Daher wird empfohlen, eine professionelle Software für Soundverarbeitungssoftware wie adobe audition für Lautstärkeanpassungen zu verwenden. Wenn Sie bereits eine andere Software für die Lautstärke verwenden, fügen Sie den Parameter -skip_loudnorm zum Befehl run hinzu:

python resample.py --skip_loudnorm

2. Teilen Sie den Datensatz automatisch in Trainings- und Validierungssätze auf und generieren Sie Konfigurationsdateien.

python preprocess_flist_config.py --speech_encoder vec768l12

real_encoder hat die folgenden Optionen

 vec768l12
vec256l9
hubertsoft
whisper-ppg
cnhubertlarge
dphubert
whisper-ppg-large
wavlmbase+

Wenn das Argument des Rede_Coder weggelassen wird, ist der Standardwert vec768l12

Verwenden Sie Lautstärke

Fügen Sie --vol_aug hinzu, wenn Sie Lautstärke einbetten möchten:

python preprocess_flist_config.py --speech_encoder vec768l12 --vol_aug

Nach der Einbettung der Lautstärke entspricht das geschulte Modell mit der Lautstärke der Eingangsquelle. Andernfalls entspricht es der Lautstärke des Trainingssatzes.

Sie können einige Parameter in der generierten config.json und diffusion.yaml ändern

keep_ckpts : Halten Sie die Anzahl der früheren Modelle während des Trainings. Setzen Sie auf 0 um sie alle zu halten. Standard ist 3 .
all_in_mem : Laden Sie den gesamten Datensatz in RAM. Es kann aktiviert werden, wenn die Festplatte einiger Plattformen zu niedrig ist und der Systemspeicher viel größer ist als Ihr Datensatz.
batch_size : Die Datenmenge, die für eine einzelne Trainingseinheit in die GPU geladen wird, kann auf eine Größe, die niedriger als die GPU -Speicherkapazität ist, angepasst werden.
vocoder_name : Wählen Sie einen Vocoder aus. Der Standard ist nsf-hifigan .

diffusion.yaml

cache_all_data : Laden Sie den gesamten Datensatz in RAM. Es kann aktiviert werden, wenn die Festplatte einiger Plattformen zu niedrig ist und der Systemspeicher viel größer ist als Ihr Datensatz.
duration : Die Dauer des Audioschneide während des Trainings kann gemäß der Größe des Videospeichers angepasst werden. Hinweis: Dieser Wert muss geringer sein als die Mindestzeit des Audio im Trainingssatz!
batch_size : Die Datenmenge, die für eine einzelne Trainingseinheit in die GPU geladen wird, kann auf eine Größe, die niedriger als die Videospeicherkapazität ist, angepasst werden.
timesteps : Die Gesamtzahl der Schritte im Diffusionsmodell, die auf 1000 standardmäßig sind.
k_step_max : Das Training kann nur k_step_max -Schrittdiffusion trainieren , um die Trainingszeit zu sparen. Beachten Sie, dass der Wert weniger als timesteps sein muss. nur_diffusion!

Liste der Vocoder

 nsf-hifigan
nsf-snake-hifigan

3. Erzeugen Sie Hubert und F0

python preprocess_hubert_f0.py --f0_predictor dio

F0_PREDICTOR hat die folgenden Optionen

 crepe
dio
pm
harvest
rmvpe
fcpe

Wenn das Trainingssatz zu laut ist, wird empfohlen, crepe für F0 zu verwenden

Wenn der Parameter f0_prredictor weggelassen wird, ist der Standardwert rmvpe

Wenn Sie eine flache Diffusion (optional) wünschen, müssen Sie den Parameter --use_diff hinzufügen, z. B.:

python preprocess_hubert_f0.py --f0_predictor dio --use_diff

Beschleunigen Sie die Vorverarbeitung

Wenn Ihr Datensatz ziemlich groß ist, können Sie den Param --num_processes wie diese erhöhen:

python preprocess_hubert_f0.py --f0_predictor dio --num_processes 8

Der gesamte Arbeiter wird verschiedenen GPU zugeordnet, wenn Sie mehr als einen GPUs haben.

Nach Abschluss der oben genannten Schritte enthält das Dataset -Verzeichnis die vorverarbeiteten Daten, und der Ordner Dataset_raw kann gelöscht werden.

? ️‍ Training

SOVITS -Modell

python train.py -c configs/config.json -m 44k

Diffusionsmodell (optional)

Wenn die flache Diffusionsfunktion benötigt wird, muss das Diffusionsmodell trainiert werden. Die Diffusionsmodell -Trainingsmethode lautet wie folgt:

python train_diff.py -c configs/diffusion.yaml

Während des Trainings werden die Modelldateien in logs/44k gespeichert, und das Diffusionsmodell wird auf logs/44k/diffusion gespeichert

? Schlussfolgerung

Verwenden Sie Inference_Main.py

 # Example
python inference_main.py -m " logs/44k/G_30400.pth " -c " configs/config.json " -n "君の知らない物語-src.wav " -t 0 -s " nen "

Erforderliche Parameter:

-m | --model_path : Pfad zum Modell.
-c | --config_path : Pfad zur Konfigurationsdatei.
-n | --clean_names : Eine Liste der WAV-Dateinamen im raw Ordner.
-t | --trans : Tonhöheverschiebung, unterstützt positive und negative (Semiton-) Werte.
-s | --spk_list : Wählen Sie die Lautsprecher-ID für die Konvertierung aus.
-cl | --clip : Erzwungenes Audio-Clipping, auf 0 gesetzt, um zu deaktivieren (Standard), um es auf einen Wert ungleich Null zu setzen (Dauer in Sekunden), um es zu aktivieren.

Optionale Parameter: Siehe den nächsten Abschnitt

-lg | --linear_gradient : Die Querverblassungslänge von zwei Audioscheiben in Sekunden. Wenn nach erzwungenem Schnitt eine diskontinuierliche Stimme vorliegt, können Sie diesen Wert anpassen. Andernfalls wird empfohlen, den Standardwert von 0 zu verwenden.
-f0p | --f0_predictor : Wählen Sie einen F0-Prädiktor aus, Optionen sind crepe , pm , dio , harvest , rmvpe , fcpe , Standardwert ist pm (Anmerkung: F0-Pooling wird bei Verwendung von crepe aktiviert)
-a | --auto_predict_f0 : Automatische Pitch-Vorhersage, aktivieren Sie dies nicht, wenn Sie Gesangsstimmen konvertieren, da dies schwerwiegende Pitch-Probleme verursachen kann.
-cm | --cluster_model_path : Clustermodell oder Feature-Abruf-Indexpfad, wenn es leer ist, wird es automatisch als Standardpfad dieser Modelle festgelegt. Wenn es keinen Trainingscluster oder Feature -Abruf gibt, füllen Sie nach Belieben aus.
-cr | --cluster_infer_ratio : Der Anteil des Clustering-Schemas oder der Abrufen von Features reicht von 0 bis 1. Wenn kein Trainingsclustering-Modell oder Feature-Abruf vorhanden ist, beträgt die Standardeinstellung 0.
-eh | --enhance : Ob Sie NSF_HIFIGAN-Enhancer verwenden möchten, hat diese Option einen gewissen Einfluss auf die Verbesserung der Schallqualität für einige Modelle mit wenigen Trainingssätzen, hat jedoch negative Auswirkungen auf gut ausgebildete Modelle, sodass sie standardmäßig deaktiviert ist.
-shd | --shallow_diffusion : Ob Sie eine flache Diffusion verwenden möchten, die nach der Verwendung einige elektrische Klangprobleme lösen kann. Diese Option ist standardmäßig deaktiviert. Wenn diese Option aktiviert ist, wird der NSF_HIFIGAN -Enhancer deaktiviert
-usm | --use_spk_mix : Ob Sie eine dynamische Sprachfusion verwenden möchten
-lea | --loudness_envelope_adjustment : Die Anpassung der Lautstärke der Eingangsquelle in Bezug auf das Fusionsverhältnis der Ausgabe-Lautstärkehülle. Je näher an 1, desto mehr wird die Ausgabelautstärke verwendet
-fr | --feature_retrieval : Ob Sie das Abrufen von Funktionen verwenden, wenn ein Clustering-Modell verwendet wird, es wird deaktiviert, und cm und cr -Parameter werden zum Indexpfad und Mischungsverhältnis des Abrufs von Features werden

Einstellungen der flachen Diffusion:

-dm | --diffusion_model_path : Diffusionsmodellpfad
-dc | --diffusion_config_path : Diffusion Config Datei Path
-ks | --k_step : Je größer die Anzahl der K_steps ist, desto näher ist es dem Ergebnis des Diffusionsmodells. Der Standard ist 100
-od | --only_diffusion : Ob Sie nur den Diffusionsmodus verwenden, wodurch das Sovits-Modell nicht geladen wird, um nur Diffusionsmodellinferenz zu verwenden
-se | --second_encoding : Bei der Anwendung einer zusätzlichen Codierung auf das ursprüngliche Audio vor der flachen Diffusion. Diese Option kann unterschiedliche Ergebnisse erzielen - manchmal positiv und manchmal negativ.

Vorsichtsmaßnahmen

Wenn die Inferenzung mit whisper-ppg -Sprachcodierer in --clip mit 25 und -lg auf 1 einstellen müssen. Andernfalls schließt es ansonsten nicht ordnungsgemäß ab.

? Optionale Einstellungen

Wenn Sie mit den vorherigen Ergebnissen zufrieden sind oder nicht das Gefühl haben, dass Sie verstehen, was folgt, können Sie es überspringen und es hat keinen Einfluss auf die Verwendung des Modells. Die Auswirkungen dieser erwähnten optionalen Einstellungen sind relativ gering, und obwohl sie sich auf bestimmte Datensätze auswirken können, ist der Unterschied in den meisten Fällen möglicherweise nicht signifikant.

Automatische F0 -Vorhersage

Während des Trainings des 4.0 -Modells wird auch ein F0 -Prädiktor trainiert, der die automatische Pitch -Vorhersage während der Sprachumwandlung ermöglicht. Wenn die Ergebnisse jedoch nicht zufriedenstellend sind, kann stattdessen manuelle Tonhöhenvorhersage verwendet werden. Bitte beachten Sie, dass bei der Konvertierung von Gesangsstimmen empfohlen wird, diese Funktion nicht zu aktivieren, da dies zu einem erheblichen Schaltwechsel führen kann.

Setzen Sie auto_predict_f0 auf true in inference_main.py .

Cluster-basierte Timbre-Leckageregelung

Einführung: Das in diesem Modell implementierte Clustering -Schema zielt darauf ab, die Leckage von Timbre zu reduzieren und die Ähnlichkeit des geschulten Modells mit dem Timbre des Ziels zu verbessern, obwohl der Effekt möglicherweise nicht sehr ausgeprägt ist. Wenn Sie sich jedoch ausschließlich auf Clustering verlassen, können Sie die Klarheit des Modells verringern und es weniger deutlich klingen. Daher wird in diesem Modell eine Fusionsmethode angewendet, um das Gleichgewicht zwischen den Clustering- und Nicht-Clustering-Ansätzen zu steuern. Dies ermöglicht die manuelle Einstellung des Kompromisses zwischen "klingt wie das Timbre des Ziels" und "klare Ausdrücke", um ein optimales Gleichgewicht zu finden.

In den vorhandenen Schritten sind keine Änderungen erforderlich. Trainieren Sie einfach ein zusätzliches Clustering -Modell, das relativ niedrige Schulungskosten verursacht.

Schulungsprozess:
- Trainieren Sie auf einer Maschine mit guter CPU -Leistung. Nach der vorhandenen Erfahrung dauert es ungefähr 4 Minuten, jeden Lautsprecher auf einem Tencent Cloud-Computer mit 6-Core-CPU zu trainieren.
- Führen Sie python cluster/train_cluster.py aus. Das Ausgabemodell wird in logs/44k/kmeans_10000.pt gespeichert.
- Das Clustering -Modell kann derzeit mit der GPU trainiert werden, indem python cluster/train_cluster.py --gpu ausführt
Inferenzprozess:
- Geben Sie cluster_model_path in inference_main.py an. Wenn nicht angegeben, ist der Standardprotokollen logs/44k/kmeans_10000.pt .
- Geben Sie cluster_infer_ratio in inference_main.py an, wobei 0 bedeutet, dass Clustering überhaupt nicht verwendet wird, 1 bedeutet nur die Verwendung von Clustering, und normalerweise ist 0.5 ausreichend.

Feature -Abruf

Einführung: Wie beim Clustering -Schema kann die Timbre -Leckage reduziert werden, die Auskürzung ist etwas besser als das Clustering, verringert jedoch die Inferenzgeschwindigkeit. Durch die Verwendung der Fusionsmethode wird es möglich, das Gleichgewicht zwischen Merkmalabruf und Nicht-Feature-Abruf linear zu steuern, wodurch die Feinabstimmung des gewünschten Anteils ermöglicht wird.

Schulungsprozess: Zunächst muss er nach der Generierung von Hubert und F0 ausgeführt werden:

python train_index.py -c configs/config.json

Die Ausgabe des Modells befindet sich in logs/44k/feature_and_index.pkl

Inferenzprozess:
- Die --feature_retrieval muss zuerst formuliert werden, und der Clustering -Modus wechselt automatisch in den Feature -Abrufmodus.
- Geben Sie cluster_model_path in inference_main.py an. Wenn nicht angegeben, ist der Standard logs/44k/feature_and_index.pkl .
- Geben Sie cluster_infer_ratio in inference_main.py an, wobei 0 bedeutet, dass die Feature -Abruf überhaupt nicht verwendet wird, 1 bedeutet nur, dass das Abrufen von Funktionen verwendet wird und normalerweise 0.5 ausreichend sind.

- Modellkomprimierung

Das generierte Modell enthält Daten, die für ein weiteres Training benötigt werden. Wenn Sie bestätigen, dass das Modell endgültig ist und nicht im weiteren Training verwendet wird, kann diese Daten sicher entfernen, um eine kleinere Dateigröße (ca. 1/3) zu erhalten.

 # Example
python compress_model.py -c= " configs/config.json " -i= " logs/44k/G_30400.pth " -o= " logs/44k/release.pth "

? ‍? Timbre -Mischen

Statische Tonmischung

Weitere Informationen zur stabilen Timbre -Mischung der Gadget/Lab -Funktion finden Sie in webUI.py -Datei.

Einführung: Diese Funktion kann mehrere Modelle in einem Modell (konvexe Kombination oder lineare Kombination mehrerer Modellparameter) kombinieren, um gemischte Sprache zu erstellen, die in der Realität nicht existieren

Notiz:

Diese Funktion wird nur für einzelne Sprechermodelle unterstützt
Wenn Sie ein Modell mit mehreren Lautsprechern erzwingen, ist es wichtig, sicherzustellen, dass in jedem Modell die gleiche Anzahl von Lautsprechern enthält. Dies stellt sicher, dass Geräusche mit demselben Lautsprecherid richtig gemischt werden können.
Stellen Sie sicher, dass die model in config.json aller Modelle gemischt werden
Das gemischte Modell kann jede Konfigurationsdatei aus den synthetisierten Modellen verwenden. Das Clustering -Modell ist jedoch nach gemischten Mischung nicht funktionsfähig.
Wenn Batch -Upload -Modelle hochgeladen werden, stellen Sie die Modelle am besten in einen Ordner ein und laden sie nach der Auswahl zusammen
Es wird vorgeschlagen, das Mischverhältnis zwischen 0 und 100 oder an andere Zahlen anzupassen, aber im linearen Kombinationsmodus treten unbekannte Effekte auf
Nach dem Mischen wird die Datei namens output.PTH im Stammverzeichnis des Projekts gespeichert
Der konvexe Kombinationsmodus führt Softmax durch, um das Mischungsverhältnis zu 1 hinzuzufügen, während der lineare Kombinationsmodus nicht der Fall ist

Dynamisches Timbre -Mischen

Eine Einführung in die dynamische Timbre -Mischung finden Sie in der Datei spkmix.py

Charaktermix -Track -Schreibregeln:

Rollen -ID: [Startzeit 1, Endzeit 1, Startwert 1, Startwert 1], [Startzeit 2, Endzeit 2, Startwert 2]]

Die Startzeit muss der Endzeit der vorherigen sein. Die erste Startzeit muss 0 betragen, und die letzte Endzeit muss 1 betragen (Zeitbereiche von 0 bis 1).

Alle Rollen müssen ausgefüllt werden. Für ungenutzte Rollen füllen [0., 1., 0., 0.]]

Der Fusionswert kann willkürlich und die lineare Änderung vom Startwert zum Endwert innerhalb des angegebenen Zeitraums ausgefüllt werden. Der

Die interne lineare Kombination wird automatisch 1 (konvexer Kombinationszustand) garantiert, sodass sie sicher verwendet werden kann

Verwenden Sie den Parameter --use_spk_mix beim Argumentieren, um das dynamische Timbre -Mischen zu aktivieren

? Exportieren nach ONNX

Verwenden Sie onnx_export.py

Erstellen Sie einen Ordner namens checkpoints und öffnen Sie ihn
Erstellen Sie einen Ordner im Ordner checkpoints als Projektordner und benennen Sie ihn nach Ihrem Projekt, z. B. aziplayer
Benennen Sie Ihr Modell als model.pth , die Konfigurationsdatei als config.json , um und aziplayer
Ändern Sie "NyaruTaffy" in path = "NyaruTaffy" in ontnx_export.py zu Ihrem Projektnamen, path = "aziplayer" （onnx_export_speaker_mix, bringt Sie dazu, die Stimme des Lautsprechers zu mischen）
Führen Sie onnx_export.py aus
Warten Sie, bis es das Laufen beendet. Ein model.onnx wird in Ihrem Projektordner generiert, das das exportierte Modell ist.

Hinweis: Verwenden Sie für Hubert -OnNX -Modelle bitte die von Moess bereitgestellten Modelle. Derzeit können sie nicht alleine exportiert werden (Hubert in Fairseq hat viele nicht unterstützte Betreiber und Dinge, an denen Konstanten beteiligt sind, die Fehler verursachen oder zu Problemen mit der Eingangs-/Ausgangsform und den Ergebnissen führen können, wenn sie exportiert werden.)

? Referenz

URL	Bezeichnung	Titel	Implementierungsquelle
2106.06103	Vits (Synthesizer)	Bedingter Variationskautocoder mit widersprüchlichen Lernen für End-to-End-Text-zu-Sprach	Jaywalnut310/vits
2111.02392	SoftVC (Sprachcodierer)	Ein Vergleich diskreter und weicher Spracheinheiten für eine verbesserte Sprachumwandlung	Bshall/Hubert
2204.09224	ContentVec (Sprachcodierer)	ContentVEC: Eine verbesserte selbstüberwachende Sprachdarstellung durch Entwirrung der Sprecher	Haltschnell3000/ContentVec
2212.04356	Flüster (Sprachcodierer)	Robuste Spracherkennung durch große schwache Überwachung	Openai/Whisper
2110.13900	Wavlm (Sprachcodierer)	WAVLM: groß angelegte Selbstüberwachung vor dem Training für die vollständige Sprachverarbeitung	Microsoft/Unilm/Wavlm
2305.17651	Dphubert (Sprachcodierer)	DPHUBERT: Joint Destillation und Beschneiden von selbst beträchtlichen Sprachmodellen	PYF98/DPHUBERT
Doi: 10.21437/interspeech.2017-68	Ernte (F0 -Prädiktor)	Ernte: Ein Hochleistungs-Grundfrequenzschätzer aus Sprachsignalen	Mmorise/Welt/Ernte
AES35-000039	DIO (F0 -Prädiktor)	Schnelle und zuverlässige F0 -Schätzmethode basierend auf der Periodenextraktion der Vokalfaltzibration von Gesangsstimme und Sprache	Mmorise/World/Dio
8461329	Crepe (F0 -Prädiktor)	Crepe: Eine Faltungsdarstellung für die Tonhöhenschätzung	Maxrmorrison/Torchcrepe
Doi: 10.1016/j.wocn.2018.07.001	Parselmouth (F0 -Prädiktor)	Einführung in Parselmouth: Eine Python -Schnittstelle zu Praat	Yannickjadoul/Parselmouth
2306.15412v2	RMVPE (F0 -Prädiktor)	RMVPE: Ein robustes Modell für die Schätzung der Vokal -Tonhöhe in der polyphonischen Musik	Traumhoch/RMVPE
2010.05646	HiFigan (Vocoder)	Hifi-Gan: Generative kontroverse Netzwerke für eine effiziente und High-Fidelity-Sprachsynthese	Jik876/Hifigan
1810.11946	NSF (Vocoder)	Neuronales Quellfilter-basierte Wellenformmodell für die statistische parametrische Sprachsynthese	OpenVPI/Diffsinger/Module/NSF_HIFIGAN
2006.08195	Schlange (Vocoder)	Neuronale Netzwerke lernen keine regelmäßigen Funktionen und wie man sie behebt	EdwardDixon/Snake
2105.02446v3	Flache Diffusion (Nachverarbeitung)	Diffsinger: Singen der Sprachsynthese über den flachen Diffusionsmechanismus singen	CNCHTU/Diffusion-SVC
K-Means	Feature K-Means Clustering (Vorverarbeitung)	Einige Methoden zur Klassifizierung und Analyse multivariater Beobachtungen	Dieses Repo
	Feature Topk Abruf (Vorverarbeitung)	Abrufbasierte Sprachkonvertierung	RVC-Project/Retrieval-basierte Voice-Conversion-Webui
	flüstere ppg	flüstere ppg	PlayVoice/Whisper_ppg
	Bigvgan	Bigvgan	PlayVoice/SO-Vits-SVC-5.0

☀️ frühere Mitwirkende

Aus irgendeinem Grund hat der Autor das ursprüngliche Repository gelöscht. Aufgrund der Fahrlässigkeit der Organisationsmitglieder wurde die Mitwirkungsliste gelöscht, da alle Dateien zu Beginn der Rekonstruktion dieses Repositorys direkt in dieses Repository aufgeladen wurden. Fügen Sie nun eine frühere Mitwirkungsliste zu Readme.md hinzu.

Einige Mitglieder haben nicht nach ihren persönlichen Wünschen aufgeführt.

_Mist

_Xiaomiku01

_しぐれ

_{Tomogasukunai}

_Plachtaa

_{Zd 小达}

_凍聲響世

Einige gesetzliche Bestimmungen als Referenz

Jedes Land, Region, Organisation oder Einzelperson, die dieses Projekt verwenden, müssen den folgenden Gesetzen einhalten.

《民法典》

第一千零一十九条

任何组织或者个人不得以丑化、污损，或者利用信息技术手段伪造等方式侵害他人的肖像权。未经肖像权人同意，不得制作、使用、公开肖像权人的肖像，但是法律另有规定的但是法律另有规定的除外。未经肖像权人同意，肖像作品权利人不得以发表、复制、发行、出租、展览等方式使用或者公开肖像权人的肖像。对自然人声音的保护，参照适用肖像权保护的有关规定。参照适用肖像权保护的有关规定。

第一千零二十四条

【名誉权】民事主体享有名誉权。任何组织或者个人不得以侮辱、诽谤等方式侵害他人的名誉权。

第一千零二十七条

【作品侵害名誉权】行为人发表的文学、艺术作品以真人真事或者特定人为描述对象，含有侮辱、诽谤内容，侵害他人名誉权的，受害人有权依法请求该行为人承担民事责任。行为受害人有权依法请求该行为人承担民事责任。行为人发表的文学、艺术作品不以特定人为描述对象，仅其中的情节与该特定人的情况相似的，不承担民事责任。不承担民事责任。

《中华人民和国宪法》和国宪法》和国宪法》

《中华人民和国刑法》和国刑法》和国刑法》

《中华人民和国民法典》和国民法典》和国民法典》

《中华人民和国合同法》和国合同法》和国合同法》

? Vielen Dank an alle Mitwirkenden für ihre Bemühungen

Expandieren

Zusätzliche Informationen

Version 1.0.0
Typ Anderer Quellcode
Aktualisierungszeit 2025-02-24
Größe 809.61KB
Kommt von Github

Ähnliche Anwendungen

Stern so

2024-07-22
WITZ

2024-02-26
Also Sprachanpassungssoftware

2023-10-12
Also welche App

2023-05-23
Panzerkorps: So

2022-08-17
Deutschland im Krieg: So

2022-08-08

so vits svc

Softvc Vits singen Sprachumwandlung

Bekanntmachung

Haftungsausschluss

? Nutzungsbedingungen

Modelleinführung

? 4.1-Stabile Version Aktualisieren Sie Inhalte

? Fragen zur Kompatibilität mit dem 4.0 -Modell

? Flache Verbreitung

Python -Version

? Vorausgebildete Modelldateien

Erforderlich

1. Wenn Sie ContentVEC als Sprachcodierer verwenden (empfohlen)

2. Wenn Hubertsoft als Sprachcodierer verwendet wird

3. Wenn flüstere PPG als Encoder

4. Wenn Cnhubertlarge als Encoder

5. Wenn dhubert als Encoder

6. Wenn Wavlm als Encoder verwendet wird

7. Wenn Onnxhubert/ContentVec als Encoder

Liste der Encoder

Optional (dringend empfehlen)

Optional (nach Bedarf auswählen)

NSF-HIFIGAN

Rmvpe

FCPE (Vorschau -Version)

Datensatzvorbereitung

Vorverarbeitung

0. Audio schneiden

1. REBLIETE auf 44100Hz und Mono

Vorsichtsmaßnahmen

2. Teilen Sie den Datensatz automatisch in Trainings- und Validierungssätze auf und generieren Sie Konfigurationsdateien.

Sie können einige Parameter in der generierten config.json und diffusion.yaml ändern

diffusion.yaml

Liste der Vocoder

3. Erzeugen Sie Hubert und F0

? ️‍ Training

SOVITS -Modell

Diffusionsmodell (optional)

? Schlussfolgerung

Vorsichtsmaßnahmen

? Optionale Einstellungen

Automatische F0 -Vorhersage

Cluster-basierte Timbre-Leckageregelung

Feature -Abruf

- Modellkomprimierung

? ‍? Timbre -Mischen

Statische Tonmischung

Dynamisches Timbre -Mischen

? Exportieren nach ONNX

? Referenz

☀️ frühere Mitwirkende

Einige gesetzliche Bestimmungen als Referenz

Jedes Land, Region, Organisation oder Einzelperson, die dieses Projekt verwenden, müssen den folgenden Gesetzen einhalten.

《民法典》

第一千零一十九条

第一千零二十四条

第一千零二十七条

《中华人民 和国宪法》 和国宪法》 和国宪法》

《中华人民 和国刑法》 和国刑法》 和国刑法》

《中华人民 和国民法典》 和国民法典》 和国民法典》

《中华人民 和国合同法》 和国合同法》 和国合同法》

? Vielen Dank an alle Mitwirkenden für ihre Bemühungen

《中华人民和国宪法》和国宪法》和国宪法》

《中华人民和国刑法》和国刑法》和国刑法》

《中华人民和国民法典》和国民法典》和国民法典》

《中华人民和国合同法》和国合同法》和国合同法》