Ces scripts Python Helper vous aident à obtenir des fichiers audio annotés plus petits, à partir d'un grand fichier audio, pour former des modèles STT ou TTS, par: 1. Divisez le grand fichier dans plusieurs fichiers WAV plus petits, séparés par silence. S'il y a plusieurs haut-parleurs dans votre audio, vous pouvez également supprimer les pièces parlées par les autres haut-parleurs (s). 2. (Facultatif) Obtenez une transcription pour ces petits fichiers audio à partir du service Google Cloud STT, cela nécessite un compte GCP 3. Annoter manuellement (ou annotations GCP correctes) Les fichiers audio plus petits
L'étape 1 nécessite d'installer FFMPEG sur votre système.
Tous les scripts sont écrits dans Python 3.6+, les packages requis peuvent être installés avec:
pip install -r requirement.txt
Vous aurez besoin de Pyaudio pour l'étape 3.
De plus, si vous souhaitez utiliser STT de GCP, vous devez installer son client Python avec
pip install --upgrade google-cloud-speech
et configurer un projet comme indiqué ici.
La version actuelle de ce script est compatible avec Google-Cloud-Speech 2.x, si vous souhaitez utiliser la version 1.x, vous pouvez consulter les versions précédentes de ce référentiel qui a également utilisé cette version.
python split.py --input big_file.wav --audio_folder audio --out_csv sentences.csv
Les phrases.csv seront formées en "fichier; phrase".
Pour garder uniquement les fichiers parlées par un haut-parleur particulier, utilisez les arguments "--remove_bad_segments" et "- speaker_segment".
python get_gcp_transcription.py --audio_folder audio --csv sentences.csv --language_code en-US
python annotate.py --audio_folder audio --csv sentences.csv
Pour les trois scripts, vous pouvez voir des arguments supplémentaires avec
python FILE_NAME.py -h