kabooksダウンロードkabooksソースコードのダウンロード

kabooks

AI ソースコード

1.0.0

ダウンロード

Kabooks -Kabooksオーディオブックデータセット作成者

Kabooksは、「Kabooks AudioBooks Dataset Creator」の再帰的頭字語であり、テキストツースピーチ（TTS）とスピーチツーテキスト（STT）モデルのトレーニング用のデータセットを作成するプロセスを自動化するツールです。これは、Pansori [https://arxiv.org/abs/1812.09798]の作品に基づいています。

オーディオファイルと対応するテキストを入力として受信すると、Kabooksはテキストをクリーニングし、文章に分割し、各セグメントを転写し、完全なテキストブックでグラウンドトゥルーステキストを見つけます。

あなた自身の責任で使用してください。

インストール

必ずFFMPEGをインストールしてください。

$ apt-get update
$ apt install ffmpeg

$ conda create -n kabooks python=3.9 pip
$ conda activate kabooks

要件のインストール

pytorchをインストールします：

pip3 install torch torchvision torchaudio

Kabooks要件をインストールします。

$ pip install -r requirements.txt

オーディオセグメンテーション

このステップは、前のステップからJSONファイルを受信し、オーディオファイルのセグメンテーションを実行します。このスクリプトは、Keith Itoが提供したスクリプトに基づいています。KeithItoは、電子メールで親切に提供しました。このステップでは、セグメントの論理リストが最初に作成され、ファイル名、開始時間と終了時間を保存します。次に、この論理リストを使用して、元のオーディオを分割し、各セグメントをディスクに保存します。

この機能は、「audio_segmentation.py」という名前のスクリプトによって提供され、個別に使用できます。入力引数を使用してスクリプトを実行します。オーディオファイル（mp3）のパスをセグメント化します。

$ python segment_tools.py

入力はMP3ファイルである必要があり、入力フォルダー内にある必要があります。スクリプトを実行した後、オーディオセグメントはWAVSフォルダーで生成され、セグメントは元のファイルと同じ名前を持ちます。

転写します

ここに、WAV2VEC2を使用するスクリプトがあります。この機能は、「transcribe_audios.py」という名前のスクリプトによって提供され、個別に使用できます。 WAVSファイルの入力ディレクトリ、転写出力ファイルの入力引数として使用してスクリプトを実行します。例えば：

$ python transcription_tools.py

スクリプトのデフォルト入力は、WAVSフォルダーの内容です。結果は、WAVSフォルダーに存在する各オーディオファイルのトランスクリプトを含む.csv（transcription.csv）ファイルになります。

テキストを検索します

このステップでは、前のステップからの各トランスクリプトは、入力オーディオブックを参照する全文と比較されます。各トランスクリプトについて、スクリプトは、全文で見つかった最大の類似性を持つ文を返します。

結果は、WAVSフォルダに存在する各オーディオセグメントのトランスクリプト、元の文、類似性値を含む.CSV（result.CSV）になります。

$ python search_substring.py

このスクリプトの同じバージョンを使用することもできますが、スレッドを使用することもできます。

$ python search_substring_with_threads.py --number_threads=16

参考文献：

Pansori sourcecode
パンリ紙
同様のツールであるKatubeは、YouTubeからデータセットを作成するために使用されます。

ありがとう

キース・イト

拡大する

追加情報

バージョン 1.0.0
タイプ AI ソースコード
更新時間 2025-09-14
サイズ 161.75KB
から Github

kabooks

Kabooks -Kabooksオーディオブックデータセット作成者

インストール

要件のインストール

オーディオセグメンテーション

転写します

テキストを検索します

参考文献：

ありがとう

ML stack

awesome free chatgpt

pywin_contextmenu

promptl

tick.chat

FastLoRAChat

chat.petals.dev

GPT Prompt Templates

GPTyped

ML stack

awesome free chatgpt

pywin_contextmenu

Google Dorks

shepherd

mongo express