Vielen Dank an das Gesicht!
Colab Notebook
Bitte beachten Sie, dass verschiedene IDs verschiedene Sprachen unterstützen können. Sprecher
https://artrajz-vits-simple-api.hf.space/voice/vits?text=你好,こんにちは&id=164https://artrajz-vits-simple-api.hf.space/voice/vits?text=Difficult the first time, easy the second.&id=4https://artrajz-vits-simple-api.hf.space/voice/w2v2-vits?text=こんにちは&id=3&emotion=111https://artrajz-vits-simple-api.hf.space/w2v2-vits?text=こんにちは&id=3&emotion=2077Es stehen zwei Bereitstellungsoptionen zur Auswahl. Unabhängig von der Option, die Sie auswählen, müssen Sie das Modell nach der Bereitstellung zur Verwendung der Anwendung importieren.
Führen Sie den folgenden Befehl aus, um das Docker -Bild zu ziehen. Befolgen Sie die Eingabeaufforderungen im Skript, um die erforderlichen Dateien zum Herunterladen und Ziehen des Bildes auszuwählen:
bash -c " $( wget -O- https://raw.githubusercontent.com/Artrajz/vits-simple-api/main/vits-simple-api-installer-latest.sh ) " Die Standardpfade für Projektkonfigurationsdateien und Modellordner sind /usr/local/vits-simple-api/ .
Führen Sie den folgenden Befehl aus, um den Container zu starten:
docker-compose up -dUm das Bild zu aktualisieren, führen Sie die folgenden Befehle aus:
docker-compose pullStarten Sie dann den Behälter neu:
docker-compose up -dKlonen Sie das Projektrepository mit dem folgenden Befehl:
git clone https://github.com/Artrajz/vits-simple-api.gitFür dieses Projekt wird empfohlen, eine virtuelle Umgebung mit Python Version 3.10 zu verwenden. Führen Sie den folgenden Befehl aus, um die für das Projekt erforderlichen Python -Abhängigkeiten zu installieren:
Wenn Sie auf Probleme stoßen, in denen bestimmte Abhängigkeiten installiert werden, finden Sie in den nachstehend beschriebenen häufigsten Problemen.
pip install -r requirements.txtFühren Sie den folgenden Befehl aus, um das Programm zu starten:
python app.pyGehen Sie zur Releases -Seite und laden Sie das neueste Bereitstellungspaket herunter. Extrahieren Sie die heruntergeladenen Dateien.
start.bat ausführen, um das Programm zu starten.
Laden Sie die Vits -Modelldateien herunter und platzieren Sie sie im Ordner data/models .
Ab Version 0.6.6 ist das Standardverhalten, alle Modelle automatisch im Ordner data/models zu laden, sodass Anfänger die Verwendung einfacher werden können.
Nach dem ersten Start wird eine Konfigurationskonfigurationsdatei generiert. Sie müssen tts_config.auto_load in false ändern, um den manuellen Ladenmodus zu aktivieren.
Sie können die tts_config.models in der config.yaml ändern oder Änderungen im Administratorbereich im Browser vornehmen.
Hinweis: Nach Version 0.6.6 wurde der Modellladepfad geändert. Bitte befolgen Sie die folgenden Schritte, um den Modellpfad erneut zu konfigurieren!
Der Pfad kann ein absoluter Weg oder ein relativer Weg sein. Wenn es sich um einen relativen Pfad handelt, startet es im data/models im Projektstammverzeichnis.
Wenn der data/models beispielsweise die folgenden Dateien enthält:
├─model1
│ │─G_1000.pth
│ └─config.json
└─model2
│─G_1000.pth
└─config.json
Füllen Sie die solche Konfiguration in der YAML -Datei ein:
tts_config :
auto_load : false
models :
- config_path : model1/config.json
model_path : model1/G_1000.pth
- config_path : model2/config.json
model_path : model2/G_1000.pth
# GPT-SoVITS
- sovits_path : gpt_sovits1/model1_e8_s11536.pth
gpt_path : gpt_sovits1/model1-e15.ckpt
- sovits_path : gpt_sovits2/model2_e8_s11536.pth
gpt_path : gpt_sovits2/model2-e15.ckpt Das Laden von Modellen durch das Administratorfeld ist bequem. Wenn Sie jedoch Modelle außerhalb des data/models -Ordners laden möchten, können Sie dies nur tun, indem Sie die Konfigurationskonfigurationsdatei ändern. Die Methode besteht darin, den absoluten Pfad direkt bereitzustellen.
Absolutes Pfadbeispiel:
tts_config :
auto_load : false
models :
- config_path : D://model3/config.json
model_path : D://model3/G_1000.pth Nach dem Herunterladen des Bert -Modells und des Emotionsmodells in die data/bert bzw. data/emotional Ordner. Finden Sie die entsprechenden Namen und fügen Sie sie entsprechend ein.
Überprüfen Sie die höchste Version von CUDA, die von Ihrer Grafikkarte unterstützt wird:
nvidia-smi
Nehmen Sie Cuda 11.7 als Beispiel herunter, laden Sie es von der offiziellen Website herunter
https://pytorch.org/
pip install torch --index-url https://download.pytorch.org/whl/cu118
Der Installationsprozess ist ähnlich, aber ich habe nicht die Umgebung, um es zu testen.
http://127.0.0.1:23456
*Port ist unter der Standardeinstellung von Port 23456 verändert.
Die Standardadresse lautet http://127.0.0.1:23456/admin.
Der erste Benutzername und das Kennwort finden Sie nach dem ersten Start nach dem "Admin" in der Datei config.yaml.
Das Administrator -Backend ermöglicht das Laden und Entladen von Modellen. Obwohl sie eine Anmeldeauthentifizierung hat, können Sie das Administrator -Backend in der config.yaml deaktivieren. Yaml:
' IS_ADMIN_ENABLED ' : !!bool 'false'Diese zusätzliche Maßnahme hilft, absolute Sicherheit zu gewährleisten, wenn das Administrator -Backend für das öffentliche Netzwerk unzugänglich macht.
Ausgehend von Bert-Vits2 V2.0 erfordert ein Modell das Laden von drei verschiedenen Sprachbert-Modellen. Wenn Sie nur ein oder zwei Sprachen verwenden müssen, können Sie den lang -Parameter in der Datei config.json des Datenabschnitts des Modells hinzufügen. Der Wert ["zh"] zeigt an, dass das Modell nur Chinesisch verwendet und chinesische Bert -Modelle lädt. Der Wert ["zh", "ja"] zeigt die Verwendung von chinesischen und japanischen zweisprachigen Modellen an, und nur chinesische und japanische Bert -Modelle werden geladen. In ähnlicher Weise setzt sich dieses Muster für andere Sprachkombinationen fort.
Beispiel:
"data" : {
"lang" : [ " zh " , " ja " ],
"training_files" : " filelists/train.list " ,
"validation_files" : " filelists/val.list " ,
"max_wav_value" : 32768.0 ,
... Wenn Sie Probleme mit einer falschen Aussprache polyphonischer Zeichen stoßen, können Sie versuchen, sie mit der folgenden Methode aufzulösen.
Erstellen und öffnen Sie phrasen_dict.txt im data , um polyphonische Wörter hinzuzufügen.
{
"一骑当千" : [[ "yí" ], [ "jì" ], [ "dāng" ], [ "qiān" ]],
}Suchen Sie die Konfiguration für GPT-SoVits in der Datei config.yaml. Fügen Sie Voreinstellungen im Abschnitt Voreinstellungen hinzu. Mehrere Voreinstellungen können hinzugefügt werden, wobei Schlüssel als voreingestellte Namen dienen. Im Folgenden finden Sie zwei Standardvoreinstellungen, Standard und Standard2:
gpt_sovits_config:
hz: 50
is_half: false
id: 0
lang: auto
format: wav
segment_size: 50
presets:
default:
refer_wav_path: null
prompt_text: null
prompt_lang: auto
default2:
refer_wav_path: null
prompt_text: null
prompt_lang: auto
In Legado getestet
Mehrere Modelle können zum Lesen verwendet werden, einschließlich Vits, Bert-Vits2, GPT-SoVits. Parameter, beginnend in Konfiguration des Sprechers des Textes in Zitaten, während Parameter mit nr den Erzähler konfigurieren.
Um GPT-SoVits zu verwenden, müssen das Referenz-Audio im Abschnitt " presets der config.yaml " im Voraus konfiguriert und das Voreingang in der URL unten geändert werden.
Die IP in der URL kann nach Beginn der API gefunden werden, wobei im Allgemeinen ein lokales Netzwerk -IP -IP beginnt, beginnend mit 192.168.
Wählen Sie nach der Änderung den Lese -Engine aus, fügen Sie die Lesemaschine hinzu, fügen Sie die Quelle ein und aktivieren Sie die Lesemaschine.
{
"concurrentRate" : "1" ,
"contentType" : "audio/wav" ,
"enabledCookieJar" : false ,
"header" : "" ,
"id" : 1709643305070 ,
"lastUpdateTime" : 1709821070082 ,
"loginCheckJs" : "" ,
"loginUi" : "" ,
"loginUrl" : "" ,
"name" : "vits-simple-api" ,
"url" : "http://192.168.xxx.xxx:23456/voice/reading?text={{java.encodeURI(speakText)}}&in_model_type=GPT-SOVITS&in_id=0&in_preset=default&nr_model_type=BERT-VITS2&nr_id=0&nr_preset=default&format=wav&lang=zh"
}Ändern Sie die Kompatibilität mit dem Bert-Vits2-Modell, ändern Sie die Datei config.json, indem Sie einen Versionsparameter "Version": "xxx" hinzufügen. Wenn beispielsweise die Modellversion 1.0.1 ist, sollte die Konfigurationsdatei als:
{
"version" : " 1.0.1 " ,
"train" : {
"log_interval" : 10 ,
"eval_interval" : 100 ,
"seed" : 52 ,
... Bitte beachten Sie, dass für die chinesische zusätzliche Version die Version in extra oder zh-clap geändert werden sollte, und für die zusätzliche Fixversion sollte die Version 2.4 oder extra-fix sein.
Holen Sie sich http://127.0.0.1:23456/voice/speakers
Gibt die Mapping -Tabelle der Rollen -IDs an Sprechernamen zurück.
Holen Sie sich http://127.0.0.1:23456/voice/vits?text=Text
Standardwerte werden verwendet, wenn andere Parameter nicht angegeben werden.
Holen Sie sich http://127.0.0.1:23456/voice/vits?text=;zh weibliches text -text -text -text -
Wenn Lang = mix ist, muss der Text kommentiert werden.
Holen Sie sich http://127.0.0.1:23456/voice/vits?text=Text&id=142&format=wav&lang=zh&Length=1.4
Der Text ist "Text", die Rollen -ID ist 142, das Audio -Format ist WAV, die Textsprache ist ZH, die Sprachlänge 1,4 und die anderen Parameter standardmäßig.
api_test.py Setzen Sie api_key_enabled: true in config.yaml um die API -Schlüsselauthentifizierung zu aktivieren. Der API-Schlüssel ist api_key: api-key . Nachdem Sie es aktiviert haben, müssen Sie den Parameter api_key in GET-Anforderungen hinzufügen und den X-API-KEY Parameter in den Header für Postanforderungen hinzufügen.
| Name | Parameter | Ist Muss | Standard | Typ | Anweisung |
|---|---|---|---|---|---|
| Synthetisierter Text | Text | WAHR | str | Text benötigt für die Sprachsynthese. | |
| Sprecher -ID | Ausweis | FALSCH | Von config.yaml | int | Die Lautsprecher -ID. |
| Audioformat | Format | FALSCH | Von config.yaml | str | Unterstützung für WAV, Ogg, Seide, MP3, Flac |
| Textsprache | Lang | FALSCH | Von config.yaml | str | Die Sprache des Textes zu synthetisiert werden. Zu den verfügbaren Optionen gehören Auto, ZH, JA und Mix. Wenn Lang = mix ist, sollte der Text in [zh] oder [Ja] eingewickelt werden. Der Standardmodus ist automatisch, was die Sprache des Textes automatisch erkennt |
| Audiolänge | Länge | FALSCH | Von config.yaml | schweben | Passt die Länge der synthetisierten Sprache an, die der Anpassung der Geschwindigkeit der Sprache entspricht. Je größer der Wert ist, desto langsamer die Geschwindigkeit. |
| Lärm | Lärm | FALSCH | Von config.yaml | schweben | Probenrauschen, die die Zufälligkeit der Synthese steuert. |
| SDP -Rauschen | Noisew | FALSCH | Von config.yaml | schweben | Stochastischer Dauer -Prädiktorrauschen und steuert die Länge der Phonemaussprache. |
| Segmentgröße | Segment_Size | FALSCH | Von config.yaml | int | Teilen Sie den Text in Absätze, die auf den Interpunktionsmarken basieren, und kombinieren Sie sie in einem Absatz, wenn die Länge Segment_Size überschreitet. Wenn Segment_Size <= 0, wird der Text nicht in Absätze unterteilt. |
| Streaming -Antwort | Streaming | FALSCH | FALSCH | bool | Streamed synthetisierte Sprache mit einer schnelleren anfänglichen Antwort. |
| Name | Parameter | Ist Muss | Standard | Typ | Anweisung |
|---|---|---|---|---|---|
| Hochgeladene Audio | hochladen | WAHR | Datei | Die zugeladene Audiodatei. Es sollte in WAV oder OGG sein | |
| Quellrollen -ID | original_id | WAHR | int | Die ID der Rolle, die zum Hochladen der Audiodatei verwendet wurde. | |
| Zielrolle -ID | target_id | WAHR | int | Die ID der Zielrolle, um den Audio in zu konvertieren. |
| Name | Parameter | Ist Muss | Standard | Typ | Anweisung |
|---|---|---|---|---|---|
| Hochgeladene Audio | hochladen | WAHR | Datei | Die zugeladene Audiodatei. Es sollte im WAV- oder OGG -Format sein. | |
| Ziellautsprecher -ID | Ausweis | WAHR | int | Die Ziellautsprecher -ID. | |
| Audioformat | Format | WAHR | str | Wav, Ogg, Seide | |
| Audiolänge | Länge | WAHR | schweben | Passt die Länge der synthetisierten Sprache an, die der Anpassung der Geschwindigkeit der Sprache entspricht. Je größer der Wert ist, desto langsamer die Geschwindigkeit. | |
| Lärm | Lärm | WAHR | schweben | Probenrauschen, die die Zufälligkeit der Synthese steuert. | |
| SDP -Rauschen | Noisew | WAHR | schweben | Stochastischer Dauer -Prädiktorrauschen und steuert die Länge der Phonemaussprache. |
| Name | Parameter | Ist Muss | Standard | Typ | Anweisung |
|---|---|---|---|---|---|
| Synthetisierter Text | Text | WAHR | str | Text benötigt für die Sprachsynthese. | |
| Sprecher -ID | Ausweis | FALSCH | Von config.yaml | int | Die Lautsprecher -ID. |
| Audioformat | Format | FALSCH | Von config.yaml | str | Unterstützung für WAV, Ogg, Seide, MP3, Flac |
| Textsprache | Lang | FALSCH | Von config.yaml | str | Die Sprache des Textes zu synthetisiert werden. Zu den verfügbaren Optionen gehören Auto, ZH, JA und Mix. Wenn Lang = mix ist, sollte der Text in [zh] oder [Ja] eingewickelt werden. Der Standardmodus ist automatisch, was die Sprache des Textes automatisch erkennt |
| Audiolänge | Länge | FALSCH | Von config.yaml | schweben | Passt die Länge der synthetisierten Sprache an, die der Anpassung der Geschwindigkeit der Sprache entspricht. Je größer der Wert ist, desto langsamer die Geschwindigkeit. |
| Lärm | Lärm | FALSCH | Von config.yaml | schweben | Probenrauschen, die die Zufälligkeit der Synthese steuert. |
| SDP -Rauschen | Noisew | FALSCH | Von config.yaml | schweben | Stochastischer Dauer -Prädiktorrauschen und steuert die Länge der Phonemaussprache. |
| Segmentgröße | Segment_Size | FALSCH | Von config.yaml | int | Teilen Sie den Text in Absätze, die auf den Interpunktionsmarken basieren, und kombinieren Sie sie in einem Absatz, wenn die Länge Segment_Size überschreitet. Wenn Segment_Size <= 0, wird der Text nicht in Absätze unterteilt. |
| Dimensionale Emotion | Emotion | FALSCH | 0 | int | Der Bereich hängt von der Emotionsreferenzdatei im NPY-Format ab, z. |
| Name | Parameter | Ist Muss | Standard | Typ | Anweisung |
|---|---|---|---|---|---|
| Hochgeladene Audio | hochladen | WAHR | Datei | Geben Sie die NPY -Datei zurück, die die dimensionalen Emotionsvektoren speichert. |
| Name | Parameter | Ist Muss | Standard | Typ | Anweisung |
|---|---|---|---|---|---|
| Synthetisierter Text | Text | WAHR | str | Text benötigt für die Sprachsynthese. | |
| Sprecher -ID | Ausweis | FALSCH | Von config.yaml | int | Die Lautsprecher -ID. |
| Audioformat | Format | FALSCH | Von config.yaml | str | Unterstützung für WAV, Ogg, Seide, MP3, Flac |
| Textsprache | Lang | FALSCH | Von config.yaml | str | "Auto" ist ein Modus für die automatische Spracherkennung und auch der Standardmodus. Derzeit unterstützt es jedoch nur die Erkennung der Sprache einer gesamten Textpassage und kann Sprachen nicht pro Sentenzbasis unterscheiden. Die anderen verfügbaren Sprachoptionen sind "ZH" und "Ja". |
| Audiolänge | Länge | FALSCH | Von config.yaml | schweben | Passt die Länge der synthetisierten Sprache an, die der Anpassung der Geschwindigkeit der Sprache entspricht. Je größer der Wert ist, desto langsamer die Geschwindigkeit. |
| Lärm | Lärm | FALSCH | Von config.yaml | schweben | Probenrauschen, die die Zufälligkeit der Synthese steuert. |
| SDP -Rauschen | Noisew | FALSCH | Von config.yaml | schweben | Stochastischer Dauer -Prädiktorrauschen und steuert die Länge der Phonemaussprache. |
| Segmentgröße | Segment_Size | FALSCH | Von config.yaml | int | Teilen Sie den Text in Absätze, die auf den Interpunktionsmarken basieren, und kombinieren Sie sie in einem Absatz, wenn die Länge Segment_Size überschreitet. Wenn Segment_Size <= 0, wird der Text nicht in Absätze unterteilt. |
| SDP/DP -Mischungsverhältnis | sdp_ratio | FALSCH | Von config.yaml | int | Der theoretische Anteil von SDP während der Synthese, desto höher ist das Verhältnis, desto größer ist die Varianz des synthetisierten Sprachtons. |
| Emotion | Emotion | FALSCH | Von config.yaml | int | Verfügbar für Bert-Vits2 V2.1, von 0 bis 9 reichen |
| Emotionsreferenz Audio | Referenz_audio | FALSCH | Keiner | Bert-vits2 v2.1 verwendet Referenz-Audio, um die Emotionen des synthetisierten Audio zu steuern | |
| Textaufforderung | text_prompt | FALSCH | Von config.yaml | str | Bert-vits2 V2.2 Textaufforderung zur Emotionskontrolle verwendet |
| Stiltext | style_text | FALSCH | Von config.yaml | str | Bert-vits2 V2.3 Textaufforderung zur Emotionskontrolle verwendet |
| Stil Textgewicht | style_gewicht | FALSCH | Von config.yaml | schweben | Bert-Vits2 V2.3 Textumforderungsgewicht zum schnellen Gewicht verwendet |
| Streaming -Antwort | Streaming | FALSCH | FALSCH | bool | Streamed synthetisierte Sprache mit einer schnelleren anfänglichen Antwort. |
| Name | Parameter | Ist Muss | Standard | Typ | Anweisung |
|---|---|---|---|---|---|
| Synthetisierter Text | Text | WAHR | str | Text benötigt für die Sprachsynthese. | |
| Sprecher -ID | Ausweis | FALSCH | Von config.yaml | int | Sprecher -ID. In GPT-SoVits dient jedes Modell als Lautsprecher-ID, und die Stimme wird durch Referenz-Audio-Voreinstellungen umgeschaltet. |
| Audioformat | Format | FALSCH | Von config.yaml | str | Unterstützung für WAV, Ogg, Seide, MP3, Flac |
| Textsprache | Lang | FALSCH | Von config.yaml | str | "Auto" ist der automatische Spracherkennungsmodus, der auch der Standardmodus ist. Derzeit wird jedoch nur die Erkennung der Sprache der gesamten Textpassage unterstützt und kann nicht jeden Satz unterscheiden. |
| Referenz Audio | Referenz_audio | FALSCH | Keiner | Referenz_audio ist erforderlich, kann aber durch Voreinstellung ersetzt werden. | |
| Referenz -Audiotext | Eingabeaufforderung_Text | FALSCH | Von config.yaml | schweben | Müssen mit dem tatsächlichen Text des Referenz Audio übereinstimmen. |
| Referenz -Audiosprache | forderung_lang | FALSCH | Von config.yaml | str | Standard für automatische Textspracherkennung. Wenn die Anerkennung fehlschlägt, füllen Sie manuell aus, zh für Chinesisch, Ja für Japanisch, EN für Englisch. |
| Referenz Audio Preset | Voreinstellung | FALSCH | Standard | str | Ersetzen Sie das Referenz-Audio durch voreingestellte Voreinstellungen, mehrere Voreinstellungen können festgelegt werden. |
Unterstützte Elemente und Attribute
Element speak
| Attribut | Anweisung | Ist Muss |
|---|---|---|
| Ausweis | Der Standardwert wird von config.yaml abgerufen | FALSCH |
| Lang | Der Standardwert wird von config.yaml abgerufen | FALSCH |
| Länge | Der Standardwert wird von config.yaml abgerufen | FALSCH |
| Lärm | Der Standardwert wird von config.yaml abgerufen | FALSCH |
| Noisew | Der Standardwert wird von config.yaml abgerufen | FALSCH |
| Segment_Size | Teilen Sie Text in Segmente auf, die auf den Interpunktionsmarken basieren. Wenn die Summe der Segmentlängen segment_size überschreitet, wird sie als ein Segment behandelt. segment_size<=0 bedeutet keine Segmentierung. Der Standardwert ist 0. | FALSCH |
| model_type | Standard ist vits. Optionen: W2V2-Vits, Bert-Vits2 | FALSCH |
| Emotion | Nur effektiv, wenn Sie W2V2-Vits verwenden. Der Bereich hängt von der NPY -Referenzdatei ab. | FALSCH |
| sdp_ratio | Nur wirksam bei der Verwendung von Bert-Vits2. | FALSCH |
voice
Höhere Priorität als speak .
| Attribut | Anweisung | Ist Muss |
|---|---|---|
| Ausweis | Der Standardwert wird von config.yaml abgerufen | FALSCH |
| Lang | Der Standardwert wird von config.yaml abgerufen | FALSCH |
| Länge | Der Standardwert wird von config.yaml abgerufen | FALSCH |
| Lärm | Der Standardwert wird von config.yaml abgerufen | FALSCH |
| Noisew | Der Standardwert wird von config.yaml abgerufen | FALSCH |
| Segment_Size | Teilen Sie Text in Segmente auf, die auf den Interpunktionsmarken basieren. Wenn die Summe der Segmentlängen segment_size überschreitet, wird sie als ein Segment behandelt. segment_size<=0 bedeutet keine Segmentierung. Der Standardwert ist 0. | FALSCH |
| model_type | Standard ist vits. Optionen: W2V2-Vits, Bert-Vits2 | FALSCH |
| Emotion | Nur effektiv, wenn Sie W2V2-Vits verwenden. Der Bereich hängt von der NPY -Referenzdatei ab. | FALSCH |
| sdp_ratio | Nur wirksam bei der Verwendung von Bert-Vits2. | FALSCH |
break -Element
| Attribut | Anweisung | Ist Muss |
|---|---|---|
| Stärke | x-weak, schwach, mittel (Standard), stark, x-ständig | FALSCH |
| Zeit | Die absolute Dauer einer Pause in Sekunden (wie 2s ) oder Millisekunden (wie 500ms ). Gültige Werte reichen von 0 bis 5000 Millisekunden. Wenn Sie einen Wert größer als das unterstützte Maximum festlegen, verwendet der Dienst 5000ms . Wenn das time festgelegt ist, wird das strength ignoriert. | FALSCH |
| Stärke | Relative Dauer |
|---|---|
| X-Weak | 250 ms |
| schwach | 500 ms |
| Medium | 750 ms |
| stark | 1000 ms |
| X-Strong | 1250 ms |
| Name | Parameter | Ist Muss | Standard | Typ | Anweisung |
|---|---|---|---|---|---|
| Synthesetext | Text | WAHR | str | Der Text soll in Sprache synthetisiert werden. | |
| Gesprächspartnermodelltyp | in_model_type | FALSCH | Erhalten von config.yaml | str | |
| Gesprächspartner ID | in_id | FALSCH | Erhalten von config.yaml | int | |
| Gesprächspartner Audio -Voreinstellung | Voreinstellung | FALSCH | Standard | str | Ersetzen Sie das Referenz -Audio durch voreingestellte Einstellungen, die im Voraus auf mehrere Voreinstellungen eingestellt werden können. |
| Erzählermodelltyp | nr_model_type | FALSCH | Erhalten von config.yaml | str | |
| Erzähler id | nr_id | FALSCH | Erhalten von config.yaml | int | |
| Erzählerreferenz Audio Preset | Voreinstellung | FALSCH | Standard | str | Ersetzen Sie das Referenz -Audio durch voreingestellte Einstellungen, die im Voraus auf mehrere Voreinstellungen eingestellt werden können. |
| Audioformat | Format | FALSCH | Erhalten von config.yaml | str | Unterstützt WAV, Ogg, Seide, mp3, flac |
| Textsprache | Lang | FALSCH | Erhalten von config.yaml | str | 'Auto' für den automatischen Spracherkennungsmodus, der auch der Standardmodus ist. Derzeit unterstützt es jedoch nur die Erkennung der Sprache des gesamten Textes und kann nicht jeden Satz unterscheiden. |
| Referenz Audio Preset | Voreinstellung | FALSCH | Standard | str | Ersetzen Sie das Referenz -Audio durch voreingestellte Einstellungen, die im Voraus auf mehrere Voreinstellungen eingestellt werden können. |
Die anderen Parameter des Modells verwenden die Standardparameter des entsprechenden Modells in der Datei config.yaml.
Siehe api_test.py
Lernen und Kommunikation gibt es jetzt nur die chinesische QQ -Gruppe