Esses scripts auxiliares do Python ajudam você a obter arquivos de áudio anotados menores, de um grande arquivo de áudio contendo, para treinar modelos STT ou TTS, por: 1. Dividir o arquivo grande em vários arquivos WAV menores, separados por silêncio. Se houver vários alto -falantes no seu áudio, você também poderá remover as peças faladas pelo (s) alto (s) alto (s) alto (s). 2. (Opcional) Obtenha transcrição para esses arquivos de áudio menores do serviço do Google Cloud STT, isso requer uma conta GCP 3. Anotar manualmente (ou correto anotações do GCP) os arquivos de áudio menores
A etapa 1 exige que o FFMPEG seja instalado no seu sistema.
Todos os scripts estão escritos no Python 3.6+, os pacotes necessários podem ser instalados com:
pip install -r requirement.txt
Você precisará de Pyaudio para a Etapa 3.
Além disso, se você quiser usar o STT do GCP, deve instalar o cliente Python com
pip install --upgrade google-cloud-speech
e configure um projeto como mostrado aqui.
A versão atual deste script é compatível com o Google-Cloud -peech 2.x, se você deseja usar a versão 1.x, poderá dar uma olhada nas versões anteriores deste repositório que também usavam essa versão.
python split.py --input big_file.wav --audio_folder audio --out_csv sentences.csv
O arquivo sentenças.csv será formado como "FILE; sentença".
Para manter apenas os arquivos falados por um alto-falante em particular, use os argumentos "--remove_bad_segments" e "-speaker_segment".
python get_gcp_transcription.py --audio_folder audio --csv sentences.csv --language_code en-US
python annotate.py --audio_folder audio --csv sentences.csv
Para todos os três scripts, você pode ver argumentos adicionais com
python FILE_NAME.py -h