annotate_audio
1.0.0
これらのPythonヘルパースクリプトは、大規模なオーディオを含むファイルから、STTまたはTTSモデルをトレーニングするために、より小さな注釈付きオーディオファイルを取得するのに役立ちます。オーディオにいくつかのスピーカーがある場合は、他のスピーカーによって話された部品を削除することもできます。 2。(オプション)Google Cloud STTサービスからこれらの小さなオーディオファイルの転写を取得すると、GCPアカウントが必要です。
ステップ1では、システムにFFMPEGをインストールする必要があります。
すべてのスクリプトはPython 3.6+で記述され、必要なパッケージは以下でインストールできます。
pip install -r requirement.txt
ステップ3にはpyaudioが必要です。
さらに、GCPのSTTを使用する場合は、Pythonクライアントをインストールする必要があります
pip install --upgrade google-cloud-speech
ここに示すようにプロジェクトを構成します。
このスクリプトの現在のバージョンは、Google-Cloud-Speech 2.xと互換性があります。バージョン1.xを使用する場合は、このバージョンを使用したこのレポの以前のバージョンを見ることができます。
python split.py --input big_file.wav --audio_folder audio --out_csv sentences.csv
sentences.csvファイルは、「ファイル;文」として形成されます。
特定のスピーカーによって話されたファイルのみを保持するには、「-remove_bad_segments」と「-peaker_segment」引数を使用します。
python get_gcp_transcription.py --audio_folder audio --csv sentences.csv --language_code en-US
python annotate.py --audio_folder audio --csv sentences.csv
3つのスクリプトすべてについて、追加の引数を見ることができます
python FILE_NAME.py -h