vits simple api Download - vits simple api -Quellcode herunterladen

vits simple api

AI-Quellcode

v0.6.14

Herunterladen

Vits-Simple-api

Rufen Sie einfach die Vits API an

Englisch | 中文文档

Besonderheit

Online -Demo

Vielen Dank an das Gesicht!

Colab Notebook

Bitte beachten Sie, dass verschiedene IDs verschiedene Sprachen unterstützen können. Sprecher

https://artrajz-vits-simple-api.hf.space/voice/vits?text=你好,こんにちは&id=164
https://artrajz-vits-simple-api.hf.space/voice/vits?text=Difficult the first time, easy the second.&id=4
Aufgeregt: https://artrajz-vits-simple-api.hf.space/voice/w2v2-vits?text=こんにちは&id=3&emotion=111
Flüstert: https://artrajz-vits-simple-api.hf.space/w2v2-vits?text=こんにちは&id=3&emotion=2077

ssml.mov

Einsatz

Es stehen zwei Bereitstellungsoptionen zur Auswahl. Unabhängig von der Option, die Sie auswählen, müssen Sie das Modell nach der Bereitstellung zur Verwendung der Anwendung importieren.

Docker -Bereitstellung (für Linux empfohlen)

Schritt 1: Ziehen Sie das Docker -Bild ab

Führen Sie den folgenden Befehl aus, um das Docker -Bild zu ziehen. Befolgen Sie die Eingabeaufforderungen im Skript, um die erforderlichen Dateien zum Herunterladen und Ziehen des Bildes auszuwählen:

bash -c " $( wget -O- https://raw.githubusercontent.com/Artrajz/vits-simple-api/main/vits-simple-api-installer-latest.sh ) "

Die Standardpfade für Projektkonfigurationsdateien und Modellordner sind /usr/local/vits-simple-api/ .

Schritt 2: Start

Führen Sie den folgenden Befehl aus, um den Container zu starten:

docker-compose up -d

Bildaktualisierung

Um das Bild zu aktualisieren, führen Sie die folgenden Befehle aus:

docker-compose pull

Starten Sie dann den Behälter neu:

docker-compose up -d

Bereitstellung der virtuellen Umgebung

Schritt 1: Klonen Sie das Projekt

Klonen Sie das Projektrepository mit dem folgenden Befehl:

git clone https://github.com/Artrajz/vits-simple-api.git

Schritt 2: Installieren Sie Python -Abhängigkeiten

Für dieses Projekt wird empfohlen, eine virtuelle Umgebung mit Python Version 3.10 zu verwenden. Führen Sie den folgenden Befehl aus, um die für das Projekt erforderlichen Python -Abhängigkeiten zu installieren:

Wenn Sie auf Probleme stoßen, in denen bestimmte Abhängigkeiten installiert werden, finden Sie in den nachstehend beschriebenen häufigsten Problemen.

pip install -r requirements.txt

Schritt 3: Start

Führen Sie den folgenden Befehl aus, um das Programm zu starten:

python app.py

Windows Quick Deployment Paket

Schritt 1: Laden Sie das Bereitstellungspaket herunter und extrahieren Sie sie

Gehen Sie zur Releases -Seite und laden Sie das neueste Bereitstellungspaket herunter. Extrahieren Sie die heruntergeladenen Dateien.

Schritt 2: Start

start.bat ausführen, um das Programm zu starten.

Modellbelastung

Schritt 1: VITS -Modelle herunterladen

Laden Sie die Vits -Modelldateien herunter und platzieren Sie sie im Ordner data/models .

Schritt 2: Ladenmodelle

Automatische Modellbelastung

Ab Version 0.6.6 ist das Standardverhalten, alle Modelle automatisch im Ordner data/models zu laden, sodass Anfänger die Verwendung einfacher werden können.

Handbuchbelastung

Nach dem ersten Start wird eine Konfigurationskonfigurationsdatei generiert. Sie müssen tts_config.auto_load in false ändern, um den manuellen Ladenmodus zu aktivieren.

Sie können die tts_config.models in der config.yaml ändern oder Änderungen im Administratorbereich im Browser vornehmen.

Hinweis: Nach Version 0.6.6 wurde der Modellladepfad geändert. Bitte befolgen Sie die folgenden Schritte, um den Modellpfad erneut zu konfigurieren!

Der Pfad kann ein absoluter Weg oder ein relativer Weg sein. Wenn es sich um einen relativen Pfad handelt, startet es im data/models im Projektstammverzeichnis.

Wenn der data/models beispielsweise die folgenden Dateien enthält:

 ├─model1
│  │─G_1000.pth
│  └─config.json
└─model2
   │─G_1000.pth
   └─config.json

Füllen Sie die solche Konfiguration in der YAML -Datei ein:

 tts_config :
  auto_load : false
  models :
  - config_path : model1/config.json
    model_path : model1/G_1000.pth
  - config_path : model2/config.json
    model_path : model2/G_1000.pth
	# GPT-SoVITS
  - sovits_path : gpt_sovits1/model1_e8_s11536.pth
    gpt_path : gpt_sovits1/model1-e15.ckpt
  - sovits_path : gpt_sovits2/model2_e8_s11536.pth
    gpt_path : gpt_sovits2/model2-e15.ckpt

Das Laden von Modellen durch das Administratorfeld ist bequem. Wenn Sie jedoch Modelle außerhalb des data/models -Ordners laden möchten, können Sie dies nur tun, indem Sie die Konfigurationskonfigurationsdatei ändern. Die Methode besteht darin, den absoluten Pfad direkt bereitzustellen.

Absolutes Pfadbeispiel:

 tts_config :
  auto_load : false
  models :
  - config_path : D://model3/config.json
    model_path : D://model3/G_1000.pth

models_path: Dies ist der Modelsordner relativ zum Datenverzeichnis, wobei der Standardwert "Modelle" ist. Wenn auto_load auf true eingestellt ist, werden alle Modelle im Verzeichnis models_path geladen.

Andere Modelle

Nach dem Herunterladen des Bert -Modells und des Emotionsmodells in die data/bert bzw. data/emotional Ordner. Finden Sie die entsprechenden Namen und fügen Sie sie entsprechend ein.

GPU beschleunigt

Fenster

CUDA installieren

Überprüfen Sie die höchste Version von CUDA, die von Ihrer Grafikkarte unterstützt wird:

 nvidia-smi

Nehmen Sie Cuda 11.7 als Beispiel herunter, laden Sie es von der offiziellen Website herunter

Installieren Sie die GPU -Version von Pytorch

https://pytorch.org/

 pip install torch --index-url https://download.pytorch.org/whl/cu118

Linux

Der Installationsprozess ist ähnlich, aber ich habe nicht die Umgebung, um es zu testen.

Webui

Inferenzfrontend

http://127.0.0.1:23456

*Port ist unter der Standardeinstellung von Port 23456 verändert.

Admin -Backend

Die Standardadresse lautet http://127.0.0.1:23456/admin.

Der erste Benutzername und das Kennwort finden Sie nach dem ersten Start nach dem "Admin" in der Datei config.yaml.

Funktionsoptionen Erläuterung

Deaktivieren Sie das Administrator -Backend

Das Administrator -Backend ermöglicht das Laden und Entladen von Modellen. Obwohl sie eine Anmeldeauthentifizierung hat, können Sie das Administrator -Backend in der config.yaml deaktivieren. Yaml:

 ' IS_ADMIN_ENABLED ' : !!bool 'false'

Diese zusätzliche Maßnahme hilft, absolute Sicherheit zu gewährleisten, wenn das Administrator -Backend für das öffentliche Netzwerk unzugänglich macht.

Bert-Vits2-Konfiguration und Sprach-/Bert-Modellnutzung

Ausgehend von Bert-Vits2 V2.0 erfordert ein Modell das Laden von drei verschiedenen Sprachbert-Modellen. Wenn Sie nur ein oder zwei Sprachen verwenden müssen, können Sie den lang -Parameter in der Datei config.json des Datenabschnitts des Modells hinzufügen. Der Wert ["zh"] zeigt an, dass das Modell nur Chinesisch verwendet und chinesische Bert -Modelle lädt. Der Wert ["zh", "ja"] zeigt die Verwendung von chinesischen und japanischen zweisprachigen Modellen an, und nur chinesische und japanische Bert -Modelle werden geladen. In ähnlicher Weise setzt sich dieses Muster für andere Sprachkombinationen fort.

Beispiel:

 "data" : {
  "lang" : [ " zh " , " ja " ],
  "training_files" : " filelists/train.list " ,
  "validation_files" : " filelists/val.list " ,
  "max_wav_value" : 32768.0 ,
  ...

Benutzerdefinierte chinesische polyphonische Wörterbuch

Wenn Sie Probleme mit einer falschen Aussprache polyphonischer Zeichen stoßen, können Sie versuchen, sie mit der folgenden Methode aufzulösen.

Erstellen und öffnen Sie phrasen_dict.txt im data , um polyphonische Wörter hinzuzufügen.

{
"一骑当千" : [[ "yí" ], [ "jì" ], [ "dāng" ], [ "qiān" ]],
}

GPT-SoVits Referenz-Audio-Voreinstellungen

Suchen Sie die Konfiguration für GPT-SoVits in der Datei config.yaml. Fügen Sie Voreinstellungen im Abschnitt Voreinstellungen hinzu. Mehrere Voreinstellungen können hinzugefügt werden, wobei Schlüssel als voreingestellte Namen dienen. Im Folgenden finden Sie zwei Standardvoreinstellungen, Standard und Standard2:

 gpt_sovits_config:
  hz: 50
  is_half: false
  id: 0
  lang: auto
  format: wav
  segment_size: 50
  presets:
    default:
      refer_wav_path: null
      prompt_text: null
      prompt_lang: auto
    default2:
      refer_wav_path: null
      prompt_text: null
      prompt_lang: auto

API lesen

In Legado getestet

Mehrere Modelle können zum Lesen verwendet werden, einschließlich Vits, Bert-Vits2, GPT-SoVits. Parameter, beginnend in Konfiguration des Sprechers des Textes in Zitaten, während Parameter mit nr den Erzähler konfigurieren.

Um GPT-SoVits zu verwenden, müssen das Referenz-Audio im Abschnitt " presets der config.yaml " im Voraus konfiguriert und das Voreingang in der URL unten geändert werden.

Die IP in der URL kann nach Beginn der API gefunden werden, wobei im Allgemeinen ein lokales Netzwerk -IP -IP beginnt, beginnend mit 192.168.

Wählen Sie nach der Änderung den Lese -Engine aus, fügen Sie die Lesemaschine hinzu, fügen Sie die Quelle ein und aktivieren Sie die Lesemaschine.

 {
  "concurrentRate" : "1" ,
  "contentType" : "audio/wav" ,
  "enabledCookieJar" : false ,
  "header" : "" ,
  "id" : 1709643305070 ,
  "lastUpdateTime" : 1709821070082 ,
  "loginCheckJs" : "" ,
  "loginUi" : "" ,
  "loginUrl" : "" ,
  "name" : "vits-simple-api" ,
  "url" : "http://192.168.xxx.xxx:23456/voice/reading?text={{java.encodeURI(speakText)}}&in_model_type=GPT-SOVITS&in_id=0&in_preset=default&nr_model_type=BERT-VITS2&nr_id=0&nr_preset=default&format=wav&lang=zh"
}

Häufig gestellte Fragen

Bert-Vits2-Version Kompatibilität

Ändern Sie die Kompatibilität mit dem Bert-Vits2-Modell, ändern Sie die Datei config.json, indem Sie einen Versionsparameter "Version": "xxx" hinzufügen. Wenn beispielsweise die Modellversion 1.0.1 ist, sollte die Konfigurationsdatei als:

{
  "version" : " 1.0.1 " ,
  "train" : {
    "log_interval" : 10 ,
    "eval_interval" : 100 ,
    "seed" : 52 ,
    ...

Bitte beachten Sie, dass für die chinesische zusätzliche Version die Version in extra oder zh-clap geändert werden sollte, und für die zusätzliche Fixversion sollte die Version 2.4 oder extra-fix sein.

API

ERHALTEN

Lautsprecherliste

Holen Sie sich http://127.0.0.1:23456/voice/speakers
Gibt die Mapping -Tabelle der Rollen -IDs an Sprechernamen zurück.

Sprachvits

Holen Sie sich http://127.0.0.1:23456/voice/vits?text=Text
Standardwerte werden verwendet, wenn andere Parameter nicht angegeben werden.
Holen Sie sich http://127.0.0.1:23456/voice/vits?text=;zh weibliches text -text -text -text -
Wenn Lang = mix ist, muss der Text kommentiert werden.
Holen Sie sich http://127.0.0.1:23456/voice/vits?text=Text&id=142&format=wav&lang=zh&Length=1.4
Der Text ist "Text", die Rollen -ID ist 142, das Audio -Format ist WAV, die Textsprache ist ZH, die Sprachlänge 1,4 und die anderen Parameter standardmäßig.

überprüfen

Holen Sie sich http://127.0.0.1:23456/voice/check?id=0&model=vits

POST

Siehe api_test.py

API -Schlüssel

Setzen Sie api_key_enabled: true in config.yaml um die API -Schlüsselauthentifizierung zu aktivieren. Der API-Schlüssel ist api_key: api-key . Nachdem Sie es aktiviert haben, müssen Sie den Parameter api_key in GET-Anforderungen hinzufügen und den X-API-KEY Parameter in den Header für Postanforderungen hinzufügen.

Parameter

Vits

Name	Parameter	Ist Muss	Standard	Typ	Anweisung
Synthetisierter Text	Text	WAHR		str	Text benötigt für die Sprachsynthese.
Sprecher -ID	Ausweis	FALSCH	Von `config.yaml`	int	Die Lautsprecher -ID.
Audioformat	Format	FALSCH	Von `config.yaml`	str	Unterstützung für WAV, Ogg, Seide, MP3, Flac
Textsprache	Lang	FALSCH	Von `config.yaml`	str	Die Sprache des Textes zu synthetisiert werden. Zu den verfügbaren Optionen gehören Auto, ZH, JA und Mix. Wenn Lang = mix ist, sollte der Text in [zh] oder [Ja] eingewickelt werden. Der Standardmodus ist automatisch, was die Sprache des Textes automatisch erkennt
Audiolänge	Länge	FALSCH	Von `config.yaml`	schweben	Passt die Länge der synthetisierten Sprache an, die der Anpassung der Geschwindigkeit der Sprache entspricht. Je größer der Wert ist, desto langsamer die Geschwindigkeit.
Lärm	Lärm	FALSCH	Von `config.yaml`	schweben	Probenrauschen, die die Zufälligkeit der Synthese steuert.
SDP -Rauschen	Noisew	FALSCH	Von `config.yaml`	schweben	Stochastischer Dauer -Prädiktorrauschen und steuert die Länge der Phonemaussprache.
Segmentgröße	Segment_Size	FALSCH	Von `config.yaml`	int	Teilen Sie den Text in Absätze, die auf den Interpunktionsmarken basieren, und kombinieren Sie sie in einem Absatz, wenn die Länge Segment_Size überschreitet. Wenn Segment_Size <= 0, wird der Text nicht in Absätze unterteilt.
Streaming -Antwort	Streaming	FALSCH	FALSCH	bool	Streamed synthetisierte Sprache mit einer schnelleren anfänglichen Antwort.

Vits Voice Conversion

Name	Parameter	Ist Muss	Typ	Anweisung
Hochgeladene Audio	hochladen	WAHR	Datei	Die zugeladene Audiodatei. Es sollte in WAV oder OGG sein
Quellrollen -ID	original_id	WAHR	int	Die ID der Rolle, die zum Hochladen der Audiodatei verwendet wurde.
Zielrolle -ID	target_id	WAHR	int	Die ID der Zielrolle, um den Audio in zu konvertieren.

Hubert-Vits

Name	Parameter	Ist Muss	Typ	Anweisung
Hochgeladene Audio	hochladen	WAHR	Datei	Die zugeladene Audiodatei. Es sollte im WAV- oder OGG -Format sein.
Ziellautsprecher -ID	Ausweis	WAHR	int	Die Ziellautsprecher -ID.
Audioformat	Format	WAHR	str	Wav, Ogg, Seide
Audiolänge	Länge	WAHR	schweben	Passt die Länge der synthetisierten Sprache an, die der Anpassung der Geschwindigkeit der Sprache entspricht. Je größer der Wert ist, desto langsamer die Geschwindigkeit.
Lärm	Lärm	WAHR	schweben	Probenrauschen, die die Zufälligkeit der Synthese steuert.
SDP -Rauschen	Noisew	WAHR	schweben	Stochastischer Dauer -Prädiktorrauschen und steuert die Länge der Phonemaussprache.

W2v2-ivits

Name	Parameter	Ist Muss	Standard	Typ	Anweisung
Synthetisierter Text	Text	WAHR		str	Text benötigt für die Sprachsynthese.
Sprecher -ID	Ausweis	FALSCH	Von `config.yaml`	int	Die Lautsprecher -ID.
Audioformat	Format	FALSCH	Von `config.yaml`	str	Unterstützung für WAV, Ogg, Seide, MP3, Flac
Textsprache	Lang	FALSCH	Von `config.yaml`	str	Die Sprache des Textes zu synthetisiert werden. Zu den verfügbaren Optionen gehören Auto, ZH, JA und Mix. Wenn Lang = mix ist, sollte der Text in [zh] oder [Ja] eingewickelt werden. Der Standardmodus ist automatisch, was die Sprache des Textes automatisch erkennt
Audiolänge	Länge	FALSCH	Von `config.yaml`	schweben	Passt die Länge der synthetisierten Sprache an, die der Anpassung der Geschwindigkeit der Sprache entspricht. Je größer der Wert ist, desto langsamer die Geschwindigkeit.
Lärm	Lärm	FALSCH	Von `config.yaml`	schweben	Probenrauschen, die die Zufälligkeit der Synthese steuert.
SDP -Rauschen	Noisew	FALSCH	Von `config.yaml`	schweben	Stochastischer Dauer -Prädiktorrauschen und steuert die Länge der Phonemaussprache.
Segmentgröße	Segment_Size	FALSCH	Von `config.yaml`	int	Teilen Sie den Text in Absätze, die auf den Interpunktionsmarken basieren, und kombinieren Sie sie in einem Absatz, wenn die Länge Segment_Size überschreitet. Wenn Segment_Size <= 0, wird der Text nicht in Absätze unterteilt.
Dimensionale Emotion	Emotion	FALSCH	0	int	Der Bereich hängt von der Emotionsreferenzdatei im NPY-Format ab, z.

Dimensionale Emotion

Name	Parameter	Ist Muss	Standard	Typ	Anweisung
Hochgeladene Audio	hochladen	WAHR		Datei	Geben Sie die NPY -Datei zurück, die die dimensionalen Emotionsvektoren speichert.

Bert-vits2

Name	Parameter	Ist Muss	Standard	Typ	Anweisung
Synthetisierter Text	Text	WAHR		str	Text benötigt für die Sprachsynthese.
Sprecher -ID	Ausweis	FALSCH	Von `config.yaml`	int	Die Lautsprecher -ID.
Audioformat	Format	FALSCH	Von `config.yaml`	str	Unterstützung für WAV, Ogg, Seide, MP3, Flac
Textsprache	Lang	FALSCH	Von `config.yaml`	str	"Auto" ist ein Modus für die automatische Spracherkennung und auch der Standardmodus. Derzeit unterstützt es jedoch nur die Erkennung der Sprache einer gesamten Textpassage und kann Sprachen nicht pro Sentenzbasis unterscheiden. Die anderen verfügbaren Sprachoptionen sind "ZH" und "Ja".
Audiolänge	Länge	FALSCH	Von `config.yaml`	schweben	Passt die Länge der synthetisierten Sprache an, die der Anpassung der Geschwindigkeit der Sprache entspricht. Je größer der Wert ist, desto langsamer die Geschwindigkeit.
Lärm	Lärm	FALSCH	Von `config.yaml`	schweben	Probenrauschen, die die Zufälligkeit der Synthese steuert.
SDP -Rauschen	Noisew	FALSCH	Von `config.yaml`	schweben	Stochastischer Dauer -Prädiktorrauschen und steuert die Länge der Phonemaussprache.
Segmentgröße	Segment_Size	FALSCH	Von `config.yaml`	int	Teilen Sie den Text in Absätze, die auf den Interpunktionsmarken basieren, und kombinieren Sie sie in einem Absatz, wenn die Länge Segment_Size überschreitet. Wenn Segment_Size <= 0, wird der Text nicht in Absätze unterteilt.
SDP/DP -Mischungsverhältnis	sdp_ratio	FALSCH	Von `config.yaml`	int	Der theoretische Anteil von SDP während der Synthese, desto höher ist das Verhältnis, desto größer ist die Varianz des synthetisierten Sprachtons.
Emotion	Emotion	FALSCH	Von `config.yaml`	int	Verfügbar für Bert-Vits2 V2.1, von 0 bis 9 reichen
Emotionsreferenz Audio	Referenz_audio	FALSCH	Keiner		Bert-vits2 v2.1 verwendet Referenz-Audio, um die Emotionen des synthetisierten Audio zu steuern
Textaufforderung	text_prompt	FALSCH	Von `config.yaml`	str	Bert-vits2 V2.2 Textaufforderung zur Emotionskontrolle verwendet
Stiltext	style_text	FALSCH	Von `config.yaml`	str	Bert-vits2 V2.3 Textaufforderung zur Emotionskontrolle verwendet
Stil Textgewicht	style_gewicht	FALSCH	Von `config.yaml`	schweben	Bert-Vits2 V2.3 Textumforderungsgewicht zum schnellen Gewicht verwendet
Streaming -Antwort	Streaming	FALSCH	FALSCH	bool	Streamed synthetisierte Sprache mit einer schnelleren anfänglichen Antwort.

GPT-Sowits Sprachsynthese

Name	Parameter	Ist Muss	Standard	Typ	Anweisung
Synthetisierter Text	Text	WAHR		str	Text benötigt für die Sprachsynthese.
Sprecher -ID	Ausweis	FALSCH	Von `config.yaml`	int	Sprecher -ID. In GPT-SoVits dient jedes Modell als Lautsprecher-ID, und die Stimme wird durch Referenz-Audio-Voreinstellungen umgeschaltet.
Audioformat	Format	FALSCH	Von `config.yaml`	str	Unterstützung für WAV, Ogg, Seide, MP3, Flac
Textsprache	Lang	FALSCH	Von `config.yaml`	str	"Auto" ist der automatische Spracherkennungsmodus, der auch der Standardmodus ist. Derzeit wird jedoch nur die Erkennung der Sprache der gesamten Textpassage unterstützt und kann nicht jeden Satz unterscheiden.
Referenz Audio	Referenz_audio	FALSCH	Keiner		Referenz_audio ist erforderlich, kann aber durch Voreinstellung ersetzt werden.
Referenz -Audiotext	Eingabeaufforderung_Text	FALSCH	Von `config.yaml`	schweben	Müssen mit dem tatsächlichen Text des Referenz Audio übereinstimmen.
Referenz -Audiosprache	forderung_lang	FALSCH	Von `config.yaml`	str	Standard für automatische Textspracherkennung. Wenn die Anerkennung fehlschlägt, füllen Sie manuell aus, zh für Chinesisch, Ja für Japanisch, EN für Englisch.
Referenz Audio Preset	Voreinstellung	FALSCH	Standard	str	Ersetzen Sie das Referenz-Audio durch voreingestellte Voreinstellungen, mehrere Voreinstellungen können festgelegt werden.

SSML (Sprachsynthese -Markup -Sprache)

Unterstützte Elemente und Attribute

Element speak

Attribut	Anweisung	Ist Muss
Ausweis	Der Standardwert wird von `config.yaml` abgerufen	FALSCH
Lang	Der Standardwert wird von `config.yaml` abgerufen	FALSCH
Länge	Der Standardwert wird von `config.yaml` abgerufen	FALSCH
Lärm	Der Standardwert wird von `config.yaml` abgerufen	FALSCH
Noisew	Der Standardwert wird von `config.yaml` abgerufen	FALSCH
Segment_Size	Teilen Sie Text in Segmente auf, die auf den Interpunktionsmarken basieren. Wenn die Summe der Segmentlängen `segment_size` überschreitet, wird sie als ein Segment behandelt. `segment_size<=0` bedeutet keine Segmentierung. Der Standardwert ist 0.	FALSCH
model_type	Standard ist vits. Optionen: W2V2-Vits, Bert-Vits2	FALSCH
Emotion	Nur effektiv, wenn Sie W2V2-Vits verwenden. Der Bereich hängt von der NPY -Referenzdatei ab.	FALSCH
sdp_ratio	Nur wirksam bei der Verwendung von Bert-Vits2.	FALSCH

voice

Höhere Priorität als speak .

Attribut	Anweisung	Ist Muss
Ausweis	Der Standardwert wird von `config.yaml` abgerufen	FALSCH
Lang	Der Standardwert wird von `config.yaml` abgerufen	FALSCH
Länge	Der Standardwert wird von `config.yaml` abgerufen	FALSCH
Lärm	Der Standardwert wird von `config.yaml` abgerufen	FALSCH
Noisew	Der Standardwert wird von `config.yaml` abgerufen	FALSCH
Segment_Size	Teilen Sie Text in Segmente auf, die auf den Interpunktionsmarken basieren. Wenn die Summe der Segmentlängen `segment_size` überschreitet, wird sie als ein Segment behandelt. `segment_size<=0` bedeutet keine Segmentierung. Der Standardwert ist 0.	FALSCH
model_type	Standard ist vits. Optionen: W2V2-Vits, Bert-Vits2	FALSCH
Emotion	Nur effektiv, wenn Sie W2V2-Vits verwenden. Der Bereich hängt von der NPY -Referenzdatei ab.	FALSCH
sdp_ratio	Nur wirksam bei der Verwendung von Bert-Vits2.	FALSCH

break -Element

Attribut	Anweisung	Ist Muss
Stärke	x-weak, schwach, mittel (Standard), stark, x-ständig	FALSCH
Zeit	Die absolute Dauer einer Pause in Sekunden (wie `2s` ) oder Millisekunden (wie `500ms` ). Gültige Werte reichen von 0 bis 5000 Millisekunden. Wenn Sie einen Wert größer als das unterstützte Maximum festlegen, verwendet der Dienst `5000ms` . Wenn das `time` festgelegt ist, wird das `strength` ignoriert.	FALSCH

Stärke	Relative Dauer
X-Weak	250 ms
schwach	500 ms
Medium	750 ms
stark	1000 ms
X-Strong	1250 ms

Lektüre

Name	Parameter	Ist Muss	Standard	Typ	Anweisung
Synthesetext	Text	WAHR		str	Der Text soll in Sprache synthetisiert werden.
Gesprächspartnermodelltyp	in_model_type	FALSCH	Erhalten von `config.yaml`	str
Gesprächspartner ID	in_id	FALSCH	Erhalten von `config.yaml`	int
Gesprächspartner Audio -Voreinstellung	Voreinstellung	FALSCH	Standard	str	Ersetzen Sie das Referenz -Audio durch voreingestellte Einstellungen, die im Voraus auf mehrere Voreinstellungen eingestellt werden können.
Erzählermodelltyp	nr_model_type	FALSCH	Erhalten von `config.yaml`	str
Erzähler id	nr_id	FALSCH	Erhalten von `config.yaml`	int
Erzählerreferenz Audio Preset	Voreinstellung	FALSCH	Standard	str	Ersetzen Sie das Referenz -Audio durch voreingestellte Einstellungen, die im Voraus auf mehrere Voreinstellungen eingestellt werden können.
Audioformat	Format	FALSCH	Erhalten von `config.yaml`	str	Unterstützt WAV, Ogg, Seide, mp3, flac
Textsprache	Lang	FALSCH	Erhalten von `config.yaml`	str	'Auto' für den automatischen Spracherkennungsmodus, der auch der Standardmodus ist. Derzeit unterstützt es jedoch nur die Erkennung der Sprache des gesamten Textes und kann nicht jeden Satz unterscheiden.
Referenz Audio Preset	Voreinstellung	FALSCH	Standard	str	Ersetzen Sie das Referenz -Audio durch voreingestellte Einstellungen, die im Voraus auf mehrere Voreinstellungen eingestellt werden können.

Die anderen Parameter des Modells verwenden die Standardparameter des entsprechenden Modells in der Datei config.yaml.

Beispiel

Siehe api_test.py

Kommunikation

Lernen und Kommunikation gibt es jetzt nur die chinesische QQ -Gruppe

Anerkennung

vits: https: //github.com/jaywalnut310/vits
Moegoe: https: //github.com/cjangcjengh/moegoe
emotional-vits: https: //github.com/innnky/emotional-vits
vits-uma-genshin-honkai: https: //huggingface.co/spaces/zomehwh/vits-uma-genhin-honkai
vits_chinese: https: //github.com/playvoice/vits_chinese
BERT_VITS2: https: //github.com/fishaudio/bert-vits2
Gpt-sovits: https: //github.com/rvc-boss/gpt-sovits

Vielen Dank an alle Mitwirkenden

Expandieren

Zusätzliche Informationen

Version v0.6.14
Typ AI-Quellcode
Aktualisierungszeit 2025-08-24
Größe 10.33MB
Kommt von Github

Ähnliche Anwendungen

simple video downloader

2024-11-11
filament simple theme

2024-11-10
WITZ

2024-02-26
Einfacher PHP-Blog

2012-05-02
Einfache Groupware

2012-03-15
CMS leicht gemacht

2011-08-22