Ganyutts ist ein Vits + SO-Vits-Tool zum Generieren von Sprache aus Text. Es wurde ursprünglich für das Spiel Elite gefährlich gemacht, aber ich habe es vom Hauptprojekt getrennt, so dass es jetzt als eigenständiges Inferenzwerkzeug oder als API fungieren kann. Edditts ist hier verfügbar.
Dies ist definitiv nur ein Spielzeugprojekt, erwarten Sie also nicht zu viel. Es gibt noch viele Dinge, die noch hartcodiert sind, und der Code ist nicht sehr sauber. Ich werde versuchen, es in Zukunft aufzuräumen.
Ich habe dieses Repo gerade zu meiner eigenen Bequemlichkeit gemacht, aber ich kann es gerne benutzen, wenn Sie möchten.
Ich schlage vor, eine virtuelle Umgebung dafür zu verwenden (Conda oder Venv). Ich empfehle auch, Python 3.9 oder höher zu verwenden. GPU ist nicht erforderlich, aber es beschleunigt die Schlussfolgerung.
pip install -r requirements.txtFür Phonemizer müssen ESPEAK installiert werden. Unter Windows können Sie es hier herunterladen. Unter Linux können Sie es mit Ihrem Paketmanager installieren.
Das Programm benötigt eine Konfigurationsdatei mit dem Namen config.json im Stammordner. Eine Beispieldatei wird bereitgestellt. Sie können die Pfade in die Modelle und die API -Schlüssel ändern. Phonemizer -Pfade sind nur für Windows -Benutzer relevant. Sie können hier bearbeiten, wenn ESPEAK an einem anderen Ort installiert ist. Wenn Sie den interaktiven Modus verwenden möchten, müssen Sie einen API -Schlüssel von OpenAI erhalten. Es ist super billig und die Qualität der Antworten wert.
Führen Sie den folgenden Befehl aus, um die API zu starten:
python main.pyDiese App bietet eine einfache Flask-API für Text-to-Speech. Sie können eine Postanforderung an den Server senden, sie wird die Audio -WAV -Datei zurückgeben.
Beispiel Anfragekörper:
{
"text" : " Hello, world! " ,
"sid1" : " 22 " , # speaker id in the multi-speaker VITS model
"sid2" : " ganyu " # speaker id in the SO-VITS model
}Antwort:
{
"audio" : " <audio wav> " # base64 encoded raw audio
}Eine api_client_example.py wird zum Testen der API bereitgestellt.
Es gibt zwei Inferenzskripte, eine für Vits und eine für die Vits + SO-Vits-Pipeline. Sie können sie verwenden, um Audio einfach aus CLI zu erstellen.
Nur für vits:
python inference_vits.py -t " Let's get started. I'll be your guide today. "Für vits + so-vits:
python inference_vits_sovits.py -t " Let's get started. I'll be your guide today " Verwenden Sie -h oder --help für weitere Informationen.
Alle Modelle sollten sich im Modelsordner befinden, Sie müssen es manuell von meinem Umarmungsface -Repo herunterladen. Vergessen Sie auch nicht, das Hubert-Modell herunterzuladen, es ist für SO-Vits erforderlich. Ich verwende "Checkpoint_Best_legacy_500.pt"