tts tortoise gradio Download - tts tortoise gradio Quellcode Download

tts tortoise gradio

AI-Quellcode

1.0.0

Herunterladen

Schildkröte

Tortoise ist ein Text-zu-Sprach-Programm, das mit den folgenden Prioritäten erstellt wurde:

Starke Multi-Voice-Funktionen.
Hochrealistische Prosodie und Intonation.

Dieses Repo enthält den gesamten Code, der für die Ausführung von TTs von Schildkröten im Inferenzmodus erforderlich ist.

Colab

Colab ist der einfachste Weg, dies auszuprobieren. Ich habe hier ein Notizbuch zusammengestellt

Lokale Installation

Wenn Sie dies auf Ihrem eigenen Computer verwenden möchten, müssen Sie eine NVIDIA -GPU haben.

Installieren Sie zunächst Pytorch mit diesen Anweisungen: https://pytorch.org/get-started/locally/. Unter Windows empfehle ich dringend , den Conda -Installationspfad zu verwenden. Mir wurde gesagt, dass Sie, wenn Sie dies nicht tun, viel Zeit damit verbringen, Abhängigkeitsprobleme zu verfolgen.

Installieren Sie als nächstes Schildkröte und seine Abhängigkeiten:

git clone https://github.com/neonbjb/tortoise-tts.git
cd tortoise-tts
python setup.py install

Wenn Sie unter Windows sind, müssen Sie auch PysoSoundFile installieren: conda install -c conda-forge pysoundfile

do_tts.py

Mit diesem Skript können Sie einen einzelnen Phrase mit einer oder mehreren Stimmen sprechen.

python tortoise/do_tts.py --text " I'm going to speak this " --voice random --preset fast

read.py

Dieses Skript bietet Tools zum Lesen großer Textmengen.

python tortoise/read.py --textfile < your text to be read > --voice random

Dadurch wird die Textdatei in Sätze aufgeteilt und sie dann einzeln in die Sprache umwandeln. Es wird eine Reihe von gesprochenen Clips ausgeben, sobald sie erzeugt werden. Sobald alle Clips generiert sind, kombiniert sie sie zu einer einzelnen Datei und gibt dies auch aus.

Manchmal verschraubt Schildkröte einen Ausgang. Sie können alle schlechten Clips neu generieren, indem read.py mit dem Argument-REVENATELATE AUSGABEN.

API

Schildkröte kann programmatisch verwendet werden, wie SO:

 reference_clips = [ utils . audio . load_audio ( p , 22050 ) for p in clips_paths ]
tts = api . TextToSpeech ()
pcm_audio = tts . tts_with_preset ( "your text here" , voice_samples = reference_clips , preset = 'fast' )

Sprachanpassungshandbuch

Schildkröte wurde speziell als Modell mit mehreren Sprechern ausgebildet. Dies erfüllt dies durch Beratung von Referenzclips.

Diese Referenzclips sind Aufzeichnungen eines Sprechers, den Sie zur Anleitung der Sprachgenerierung anbieten. Diese Clips werden verwendet, um viele Eigenschaften der Ausgabe zu bestimmen, wie z. Der Referenzclip wird auch verwendet, um nicht-voice-verwandte Aspekte der Audioausgabe wie Volumen, Hintergrundrauschen, Aufzeichnungsqualität und Hall zu bestimmen.

Zufällige Stimme

Ich habe eine Funktion beigefügt, die zufällig eine Stimme erzeugt. Diese Stimmen existieren eigentlich nicht und werden jedes Mal, wenn Sie sie ausführen, zufällig sein. Die Ergebnisse sind ziemlich faszinierend und ich empfehle, dass Sie damit herumspielen!

Sie können die zufällige Stimme verwenden, indem Sie "zufällig" als Sprachname bestehen. Schildkröte wird sich um den Rest kümmern.

Für diejenigen im ML -Raum: Dies wird erstellt, indem ein zufälliger Vektor auf den latenten Bereich der Sprachkonditionierung projiziert wird.

Stimmen bereitgestellt

Dieses Repo verfügt über mehrere vorverpackte Stimmen. Voices, die mit "Train_" vorbereitet wurden, stammten aus dem Trainingset und erzielten weitaus besser als die anderen. Wenn Ihr Ziel eine qualitativ hochwertige Rede ist, empfehle ich Ihnen, einen von ihnen auszuwählen. Wenn Sie sehen möchten, was Schildkröte für das Nachdenken von Zero-Shot tun kann, schauen Sie sich die anderen an.

Hinzufügen einer neuen Stimme

Um Schildkröten neue Stimmen hinzuzufügen, müssen Sie Folgendes tun:

Sammeln Sie Audioclips Ihrer Lautsprecher. Gute Quellen sind YouTube-Interviews (Sie können YouTube-DL verwenden, um das Audio abzurufen), Hörbücher oder Podcasts. Richtlinien für gute Clips finden Sie im nächsten Abschnitt.
Schneiden Sie Ihre Clips in ~ 10 Sekunden Segmente. Sie möchten mindestens 3 Clips. Mehr ist besser, aber ich habe nur mit bis zu 5 in meinen Tests experimentiert.
Speichern Sie die Clips als WAV -Datei mit schwimmender Punktformat und einer Probenrate von 22.050.
Erstellen Sie ein Unterverzeichnis in Stimmen/
Legen Sie Ihre Clips in dieses Unterverzeichnis.
Führen Sie Tortoise -Dienstprogramme mit -voice = <your_subdirectory_name> aus.

Auswahl guter Referenzklammern

Wie oben erwähnt, haben Ihre Referenzclips einen tiefgreifenden Einfluss auf die Ausgabe von Schildkröte. Im Folgenden finden Sie einige Tipps für die Auswahl guter Clips:

Vermeiden Sie Clips mit Hintergrundmusik, Rauschen oder Hall. Diese Clips wurden aus dem Trainingsdatensatz entfernt. Es ist unwahrscheinlich, dass Schildkröte mit ihnen gut abschneiden.
Reden vermeiden. Diese haben im Allgemeinen eine Verzerrung, die durch das Amplifikationssystem verursacht wird.
Vermeiden Sie Clips von Telefonanrufen.
Vermeiden Sie Clips mit übermäßigem Stottern, Stottern oder Wörtern wie "uh" oder "Gefällt mir".
Versuchen Sie, Clips zu finden, die so gesprochen werden, wie Sie möchten, dass Ihre Ausgabe so klingt. Wenn Sie beispielsweise hören möchten, dass Ihre Zielstimme ein Hörbuch lesen, versuchen Sie, Clips von ihnen zu finden, die ein Buch lesen.
Der in den Clips gesprochene Text spielt keine Rolle, aber vielfältiger Text scheint besser zu funktionieren.

Erweiterte Verwendung

Generationseinstellungen

Tortoise ist in erster Linie ein autoregressives Decodermodell, das mit einem Diffusionsmodell kombiniert wird. Beide haben viele Knöpfe, die gedreht werden können, die ich wegen einfacher Anwendung abstrahiert habe. Ich habe dies getan, indem ich Tausende von Clips mit verschiedenen Permutationen der Einstellungen generierte und eine Metrik für Sprachrealismus und Verständlichkeit zur Messung ihrer Auswirkungen verwendet habe. Ich habe die Standardeinstellungen auf die besten Gesamteinstellungen eingestellt, die ich finden konnte. Für bestimmte Anwendungsfälle ist es möglicherweise effektiv, mit diesen Einstellungen zu spielen (und es ist sehr wahrscheinlich, dass ich etwas verpasst habe!)

Diese Einstellungen sind in den normalen Skripten nicht mit Schildkröte verfügbar. Sie sind jedoch in der API verfügbar. Eine vollständige Liste finden Sie in api.tts .

Schnelltechnik

Einige Leute haben herausgefunden, dass es möglich ist, mit Schildkröte ein schnelles Ingenieurwesen zu machen! Zum Beispiel können Sie Emotionen hervorrufen, indem Sie Dinge wie "Ich bin wirklich traurig" vor Ihrem Text aufnehmen. Ich habe ein automatisiertes Redaktionssystem erstellt, mit dem Sie dies nutzen können. Es funktioniert, indem es versucht, einen Text in der Eingabeaufforderung zu reduzieren, die von Klammern umgeben ist. Zum Beispiel die Aufforderung "[ich bin wirklich traurig,] bitte füttere mich." Wird nur die Worte "Bitte füttern Sie mich" (mit einer traurigen Tonalität).

Mit der Stimme latent spielen

Schildkröte nimmt Referenzclips ein, indem sie sie durch ein kleines Submodel durch Fütterung durch einen Punkt latent durchführen und dann den Mittelwert aller produzierten Latenten einnehmen. Das Experimentieren, das ich durchgeführt habe, hat gezeigt, dass diese Punktleitungen ziemlich ausdrucksstark sind und alles von Ton über die Sprechrate bis hin zu Sprachanomalien beeinflussen.

Dies eignet sich für einige nette Tricks. Zum Beispiel können Sie Feed zwei verschiedene Stimmen zur Schildkröte kombinieren, und es wird so ausgegeben, wie es der "Durchschnitt" dieser beiden Stimmen hört.

Erzeugen von Konditionierungsbreiten aus Stimmen

Verwenden Sie das Skript get_conditioning_latents.py , um Konditionierungsleitungen für eine von Ihnen installierte Stimme zu extrahieren. In diesem Skript werden die Latenten in eine .PTH -Gurkendatei abgelegt. Die Datei enthält ein einzelnes Tupel (autoregressive_latent, diffusion_latent).

Verwenden Sie alternativ die API.TextTospeech.get_Conditioning_latents (), um die Leitungen zu holen.

Verwenden von Rohkonditionierungsbreiten, um Sprache zu generieren

Nachdem Sie mit ihnen gespielt haben, können Sie sie verwenden, um eine Sprache zu generieren, indem Sie ein Unterverzeichnis in Stimmen/ mit einer einzigen ".PTH" -Datei erstellen, die die eingelegten Konditionierungsleitungen als Tupel enthält (autoregressive_Latent, diffusion_latent).

Schildkrötedetekte

Aus Bedenken, dass dieses Modell missbraucht werden könnte, habe ich einen Klassifikator erstellt, der der Wahrscheinlichkeit sagt, dass ein Audioclip von Schildkröte stammt.

Dieser Klassifikator kann auf jedem Computer ausgeführt werden. Die Verwendung ist wie folgt:

 python tortoise/is_this_from_tortoise.py --clip=<path_to_suspicious_audio_file>

Dieses Modell hat eine 100% ige Genauigkeit auf den Inhalt der Ergebnisse/ und Stimmen/ Ordner in diesem Repo. Behandeln Sie diesen Klassifikator trotzdem als "starkes Signal". Klassifikatoren können täuschen werden und es ist für diesen Klassifizierer ebenfalls nicht unmöglich, falsch positive Ergebnisse zu zeigen.

Modellarchitektur

TTS TTS ist von OpenAs Dalle inspiriert, der auf Sprachdaten angewendet und einen besseren Decoder verwendet. Es besteht aus 5 separaten Modellen, die zusammenarbeiten: https://nonint.com/2022/04/25/tortoise-architectural-design-doc/

Expandieren

Zusätzliche Informationen