Эти сценарии Python Helper помогают вам получить меньшие аннотированные аудиофайлы из большого звука, содержащего файл, для обучения моделей STT или TTS, по: 1. Разделите большой файл в нескольких меньших файлах WAV, разделенных молчанием. Если в вашем аудио есть несколько динамиков, вы также можете удалить детали, произнесенные другими (-ами) динамиками. 2. (Необязательно) Получить транскрипцию для этих меньших аудиофайлов от службы Google Cloud STT, для этого требуется учетная запись GCP.
Шаг 1 требует, чтобы FFMPEG был установлен в вашей системе.
Все сценарии записаны в Python 3.6+, необходимые пакеты могут быть установлены с помощью:
pip install -r requirement.txt
Вам понадобится Pyaudio для шага 3.
Кроме того, если вы хотите использовать STT GCP, вы должны установить их клиент Python с
pip install --upgrade google-cloud-speech
и настроить проект, как показано здесь.
Текущая версия этого скрипта совместима с Google-Cloud-Speech 2.x, если вы хотите использовать версию 1.x, вы можете взглянуть на предыдущие версии этого репо, в которой также использовалась эта версия.
python split.py --input big_file.wav --audio_folder audio --out_csv sentences.csv
File.csv File будет формироваться как «файл; предложение».
Чтобы держать только файлы, говорящие конкретным динамиком, используйте аргументы «--remove_bad_segments» и «--speaker_segment».
python get_gcp_transcription.py --audio_folder audio --csv sentences.csv --language_code en-US
python annotate.py --audio_folder audio --csv sentences.csv
Для всех трех сценариев вы можете увидеть дополнительные аргументы с
python FILE_NAME.py -h