Diese Python -Helfer -Skripte helfen Ihnen dabei, kleinere kommentierte Audiodateien aus einer großen Audio -enthaltenden Datei zu erhalten, um STT- oder TTS -Modelle zu trainieren. Wenn Ihr Audio mehrere Lautsprecher enthält, können Sie auch die Teile entfernen, die von den anderen (s) Lautsprechern (n) gesprochen werden. 2. (Optional) Erhalten Sie die Transkription für diese kleineren Audiodateien aus dem Google Cloud STT -Dienst. Dies erfordert ein GCP -Konto.
Schritt 1 erfordert, dass FFMPEG auf Ihrem System installiert ist.
Alle Skripte sind in Python 3.6+ geschrieben. Erforderliche Pakete können installiert werden mit:
pip install -r requirement.txt
Sie benötigen Pyaudio für Schritt 3.
Wenn Sie das STT von GCP verwenden möchten
pip install --upgrade google-cloud-speech
und konfigurieren Sie ein Projekt, wie hier gezeigt.
Die aktuelle Version dieses Skripts ist mit Google-Cloud-Speech 2.x kompatibel. Wenn Sie Version 1.x verwenden möchten, können Sie sich frühere Versionen dieses Repo ansehen, die diese Version auch verwendet haben.
python split.py --input big_file.wav --audio_folder audio --out_csv sentences.csv
Sätze.csv -Datei werden als "Datei; Satz" formiert.
Verwenden Sie die Argumente "--remove_bad_segments" und "-Speaker_segment", um nur von einem bestimmten Sprecher gesprochen zu halten.
python get_gcp_transcription.py --audio_folder audio --csv sentences.csv --language_code en-US
python annotate.py --audio_folder audio --csv sentences.csv
Für alle drei Skripte können Sie zusätzliche Argumente mit sehen
python FILE_NAME.py -h