Estos scripts de Python Helper lo ayudan a obtener archivos de audio anotados más pequeños, desde un archivo grande que contiene audio, hasta modelos STT o TTS, por: 1. Divida el archivo grande en varios archivos WAV más pequeños, separados por el silencio. Si hay varios altavoces en su audio, también puede eliminar las piezas habladas por los otros (s) altavoz (s). 2. (Opcional) Obtenga una transcripción para estos archivos de audio más pequeños del servicio de Google Cloud STT, esto requiere una cuenta GCP 3. Anotar manualmente (o las anotaciones GCP correctas) los archivos de audio más pequeños
El paso 1 requiere que FFMPEG instale en su sistema.
Todos los scripts están escritos en Python 3.6+, los paquetes requeridos se pueden instalar con:
pip install -r requirement.txt
Necesitarás Pyaudio para el paso 3.
Además, si desea usar el STT de GCP, debe instalar su cliente Python con
pip install --upgrade google-cloud-speech
y configure un proyecto como se muestra aquí.
La versión actual de este script es compatible con Google-Cloud-speech 2.x, si desea usar la versión 1.x, puede echar un vistazo a las versiones anteriores de este repositorio que también usó esa versión.
python split.py --input big_file.wav --audio_folder audio --out_csv sentences.csv
El archivo Sentences.csv se formará como "archivo; oración".
Para mantener solo archivos hablados por un orador en particular, use los argumentos "---remove_bad_segments" y "--speaker_segment".
python get_gcp_transcription.py --audio_folder audio --csv sentences.csv --language_code en-US
python annotate.py --audio_folder audio --csv sentences.csv
Para los tres scripts, puede ver argumentos adicionales con
python FILE_NAME.py -h