Transkribieren Sie Audio über Google Speech in Text -API mit Sprechertrennung (Diarisierung). Generieren Sie automatisch TTS -Datensätze mithilfe von Audio und zugeordnetem Text. Verwendet die Google -API, um Schnitte zu transkribieren, die durch die maximale Stillespause aufgeteilt wurden (empfohlen). Oder verwenden Sie Aeneas, um den Text auf Audio auszurichten. Schnitte Korrekturlesen und Bearbeiten.
Für Google Speech in Text API benötigen Sie ein Google Cloud -Plattform -Konto. Ihre $ google_application_credentials env -Variable muss auf Ihre Anmeldeinformationen JSON -Dateipfad verweisen. Google bietet Service im Wert von 300 US -Dollar und 3 Monate kostenlos auf neuen Konten.
Führen Sie Tools.py für GUI -Tools aus.
Aktuelle Einschränkungen sind, dass Sie die Spaltenbreite des Korrekturlesens anpassen müssen. Wenn Sie Einträge navigieren, müssen Sie den Fokus der aktuellen und nächsten Eingabetxtfelder abnehmen oder das Textfeld wird nicht aktualisiert. Die nächste Version von Dearpy GUI wird diese Probleme lösen.
Die Verwendung eines VPN stört die lange Google -Sprache in Text -API -Anforderungen.


Mit der älteren Version von Dearpygui in der Momement werde ich irgendwann migrieren.
PIP Installieren Sie Numpy -Nutzer -
PIP Installieren Sie PyDub -Benutzerärzte
PIP Installation Dearpygui == 0,6.415 -Benutzerer
PIP Installieren Sie die Google-Cloud-Speech-Nutzer
PIP Installieren Sie Google-Cloud-Storage-Nutzer
PIP Installation SimpleAdio -Nutzer
*Wenn Sie SimpleAdio nicht erstellen können, stellen Sie sicher, dass Sie GCC installiert haben: sudo apt-Get-Update, sudo apt-Get Installieren Sie Build-Wesentials
PIP Installieren Sie Sox --user
Die Linux -Umgebung wird für die Aeneas -Option empfohlen. In Windows Aeneas kann es aufgrund von Speicherproblemen keine längeren Schnitte vornehmen.
wget https://raw.githubuSercontent.com/readbeyond/aeneas/master/install_dependencies.sh
bash install_dependencies.sh
PIP Installieren Sie Numpy -Nutzer -
PIP Installation Aeneas -Benutzer
Testinstallation: Python -m Aeneas.Diagnostics
PIP Installieren Sie PyDub -Benutzerärzte
PIP Installation Dearpygui == 0,6.415 -Benutzerer
PIP Installieren Sie die Google-Cloud-Speech-Nutzer
PIP Installieren Sie Google-Cloud-Storage-Nutzer
PIP Installation SimpleAdio -Nutzer
PIP Installieren Sie Sox --user
Wenn Sie einen Libpython -Fehler erhalten:
sudo apt installieren libasound2-dev
Bearbeiten Sie Ihre BASHRC -Datei durch Eingabe: sudo nano ~/.bashrc
Fügen Sie dann die Zeile am Ende mit Ihren Informationen hinzu, je nachdem, wo Ihr Paket installiert wurde:
Exportieren Sie ld_library_path = "/[yourHomePath]/anaconda3/envs/[yourenv]/lib/"
ODER
Exportieren Sie ld_library_path = "/[yourHomePath]/. conda/envs/[yourenv]/lib/"
Oder wenn Basisumgebung
exportieren ld_library_path = "/[yourHomePath]/anaconda3/lib/"
Drücken Sie Strg+O, um die aktualisierte Datei zu exportieren. Dann Strg+x zum Beenden.
Geben Sie Quelle ~/.bashrc ein, um den neuen Pfad zu aktivieren.
Video -Tutorial: https://www.youtube.com/watch?v=te7pui2xeje
Mehrere Dinge verbessern die Qualität Ihrer Schnitte, obwohl Sie sie vor dem Training immer Korrektur lesen sollten. Für andere Sprachen als Englisch können Sie die Aeneas-Befehlszeilen und den Charakterersatz nach Ihren Bedürfnissen problemlos bearbeiten und die Google En-Us-Sprachencodes durch Ihren Sprachcode (https://cloud.google.com/speech-to-text/docs/glanguages) ersetzen. Untersuchen Sie, ob Dinge wie Kapitel -Titel enthalten sind. Die Sprecher mit langsamer und sogar Tempo -Sprache machen die saubersten Schnitte, während schnelllebige Sprecher dazu neigen, Wörter zusammenzuführen und einige Wörter, Wörterstücke, in den nächsten Schnitt zu bringen, wo es bearbeitet werden muss. Entfernen Sie alle Musik, falls möglich.