annotate_audio
1.0.0
这些python辅助脚本可帮助您获取较小的带注释的音频文件,从包含文件的大音频到训练stt或tts型号,作者:1。将大文件分成几个较小的wav文件,被静音隔开。如果您的音频中有几个扬声器,您也可以删除其他扬声器所说的零件。 2。(可选)从Google Cloud STT服务中获取这些较小音频文件的转录,这需要GCP帐户3。手动注释(或正确的GCP注释)较小的音频文件
步骤1需要在系统上安装FFMPEG。
所有脚本均以Python 3.6+编写,可以安装所需的包装:
pip install -r requirement.txt
您将需要Pyaudio在步骤3中。
此外,如果您想使用GCP的STT,则应将其Python客户端安装
pip install --upgrade google-cloud-speech
并配置一个项目,如下所示。
此脚本的当前版本与Google-cloud语音2.x兼容,如果要使用1.x版本,则可以查看此仓库的先前版本,该版本也使用该版本。
python split.py --input big_file.wav --audio_folder audio --out_csv sentences.csv
句子.csv文件将被形成为“文件;句子”。
要仅保留特定扬声器说的文件,请使用“ -Remove_bad_segments”和“ - speaker_segment”参数。
python get_gcp_transcription.py --audio_folder audio --csv sentences.csv --language_code en-US
python annotate.py --audio_folder audio --csv sentences.csv
对于所有三个脚本,您都可以看到其他参数
python FILE_NAME.py -h