Kabooksは、「Kabooks AudioBooks Dataset Creator」の再帰的頭字語であり、テキストツースピーチ(TTS)とスピーチツーテキスト(STT)モデルのトレーニング用のデータセットを作成するプロセスを自動化するツールです。これは、Pansori [https://arxiv.org/abs/1812.09798]の作品に基づいています。
オーディオファイルと対応するテキストを入力として受信すると、Kabooksはテキストをクリーニングし、文章に分割し、各セグメントを転写し、完全なテキストブックでグラウンドトゥルーステキストを見つけます。
あなた自身の責任で使用してください。
必ずFFMPEGをインストールしてください。
$ apt-get update
$ apt install ffmpeg$ conda create -n kabooks python=3.9 pip
$ conda activate kabookspytorchをインストールします:
pip3 install torch torchvision torchaudioKabooks要件をインストールします。
$ pip install -r requirements.txtこのステップは、前のステップからJSONファイルを受信し、オーディオファイルのセグメンテーションを実行します。このスクリプトは、Keith Itoが提供したスクリプトに基づいています。KeithItoは、電子メールで親切に提供しました。このステップでは、セグメントの論理リストが最初に作成され、ファイル名、開始時間と終了時間を保存します。次に、この論理リストを使用して、元のオーディオを分割し、各セグメントをディスクに保存します。
この機能は、「audio_segmentation.py」という名前のスクリプトによって提供され、個別に使用できます。入力引数を使用してスクリプトを実行します。オーディオファイル(mp3)のパスをセグメント化します。
$ python segment_tools.py 入力はMP3ファイルである必要があり、入力フォルダー内にある必要があります。スクリプトを実行した後、オーディオセグメントはWAVSフォルダーで生成され、セグメントは元のファイルと同じ名前を持ちます。
ここに、WAV2VEC2を使用するスクリプトがあります。この機能は、「transcribe_audios.py」という名前のスクリプトによって提供され、個別に使用できます。 WAVSファイルの入力ディレクトリ、転写出力ファイルの入力引数として使用してスクリプトを実行します。例えば:
$ python transcription_tools.pyスクリプトのデフォルト入力は、WAVSフォルダーの内容です。結果は、WAVSフォルダーに存在する各オーディオファイルのトランスクリプトを含む.csv(transcription.csv)ファイルになります。
このステップでは、前のステップからの各トランスクリプトは、入力オーディオブックを参照する全文と比較されます。各トランスクリプトについて、スクリプトは、全文で見つかった最大の類似性を持つ文を返します。
結果は、WAVSフォルダに存在する各オーディオセグメントのトランスクリプト、元の文、類似性値を含む.CSV(result.CSV)になります。
$ python search_substring.pyこのスクリプトの同じバージョンを使用することもできますが、スレッドを使用することもできます。
$ python search_substring_with_threads.py --number_threads=16