TTS dataset tools herunterladen - TTS dataset tools Quellcode herunterladen

TTS dataset tools

AI-Quellcode

1.0.0

Herunterladen

TTS-Datenet-Tools

Transkribieren Sie Audio über Google Speech in Text -API mit Sprechertrennung (Diarisierung). Generieren Sie automatisch TTS -Datensätze mithilfe von Audio und zugeordnetem Text. Verwendet die Google -API, um Schnitte zu transkribieren, die durch die maximale Stillespause aufgeteilt wurden (empfohlen). Oder verwenden Sie Aeneas, um den Text auf Audio auszurichten. Schnitte Korrekturlesen und Bearbeiten.

Für Google Speech in Text API benötigen Sie ein Google Cloud -Plattform -Konto. Ihre $ google_application_credentials env -Variable muss auf Ihre Anmeldeinformationen JSON -Dateipfad verweisen. Google bietet Service im Wert von 300 US -Dollar und 3 Monate kostenlos auf neuen Konten.

Führen Sie Tools.py für GUI -Tools aus.

Aktuelle Einschränkungen sind, dass Sie die Spaltenbreite des Korrekturlesens anpassen müssen. Wenn Sie Einträge navigieren, müssen Sie den Fokus der aktuellen und nächsten Eingabetxtfelder abnehmen oder das Textfeld wird nicht aktualisiert. Die nächste Version von Dearpy GUI wird diese Probleme lösen.

Die Verwendung eines VPN stört die lange Google -Sprache in Text -API -Anforderungen.

Datensatz -GUI

Mit der älteren Version von Dearpygui in der Momement werde ich irgendwann migrieren.

Windows -Setup

PIP Installieren Sie Numpy -Nutzer -

PIP Installieren Sie PyDub -Benutzerärzte

PIP Installation Dearpygui == 0,6.415 -Benutzerer

PIP Installieren Sie die Google-Cloud-Speech-Nutzer

PIP Installieren Sie Google-Cloud-Storage-Nutzer

PIP Installation SimpleAdio -Nutzer

*Wenn Sie SimpleAdio nicht erstellen können, stellen Sie sicher, dass Sie GCC installiert haben: sudo apt-Get-Update, sudo apt-Get Installieren Sie Build-Wesentials

PIP Installieren Sie Sox --user

Linux -Setup

Die Linux -Umgebung wird für die Aeneas -Option empfohlen. In Windows Aeneas kann es aufgrund von Speicherproblemen keine längeren Schnitte vornehmen.

wget https://raw.githubuSercontent.com/readbeyond/aeneas/master/install_dependencies.sh

bash install_dependencies.sh

PIP Installieren Sie Numpy -Nutzer -

PIP Installation Aeneas -Benutzer

Testinstallation: Python -m Aeneas.Diagnostics

PIP Installieren Sie PyDub -Benutzerärzte

PIP Installation Dearpygui == 0,6.415 -Benutzerer

PIP Installieren Sie die Google-Cloud-Speech-Nutzer

PIP Installieren Sie Google-Cloud-Storage-Nutzer

PIP Installation SimpleAdio -Nutzer

PIP Installieren Sie Sox --user

Wenn Sie einen Libpython -Fehler erhalten:

sudo apt installieren libasound2-dev

Bearbeiten Sie Ihre BASHRC -Datei durch Eingabe: sudo nano ~/.bashrc

Fügen Sie dann die Zeile am Ende mit Ihren Informationen hinzu, je nachdem, wo Ihr Paket installiert wurde:

Exportieren Sie ld_library_path = "/[yourHomePath]/anaconda3/envs/[yourenv]/lib/"

ODER

Exportieren Sie ld_library_path = "/[yourHomePath]/. conda/envs/[yourenv]/lib/"

Oder wenn Basisumgebung

exportieren ld_library_path = "/[yourHomePath]/anaconda3/lib/"

Drücken Sie Strg+O, um die aktualisierte Datei zu exportieren. Dann Strg+x zum Beenden.

Geben Sie Quelle ~/.bashrc ein, um den neuen Pfad zu aktivieren.

Verwendung

Video -Tutorial: https://www.youtube.com/watch?v=te7pui2xeje

Empfehlungen

Mehrere Dinge verbessern die Qualität Ihrer Schnitte, obwohl Sie sie vor dem Training immer Korrektur lesen sollten. Für andere Sprachen als Englisch können Sie die Aeneas-Befehlszeilen und den Charakterersatz nach Ihren Bedürfnissen problemlos bearbeiten und die Google En-Us-Sprachencodes durch Ihren Sprachcode (https://cloud.google.com/speech-to-text/docs/glanguages) ersetzen. Untersuchen Sie, ob Dinge wie Kapitel -Titel enthalten sind. Die Sprecher mit langsamer und sogar Tempo -Sprache machen die saubersten Schnitte, während schnelllebige Sprecher dazu neigen, Wörter zusammenzuführen und einige Wörter, Wörterstücke, in den nächsten Schnitt zu bringen, wo es bearbeitet werden muss. Entfernen Sie alle Musik, falls möglich.

Expandieren

Zusätzliche Informationen