kabooks下載 - kabooks源代碼下載

下載

kabooks -kabooks有聲讀物數據集創建者

Kabooks是“ Kabooks Audiobooks DataSet Creator”的遞歸首字母縮寫詞，它是自動創建用於培訓文本到語音（TTS）和語音對文本（STT）模型數據集的工具。它基於Pansori [https://arxiv.org/abs/1812.09798]的工作。

Kabooks接收音頻文件和相應的文本，將文本清除，將其分為句子，抄錄每個段並在完整的教科書中找到地面真相文本。

自行使用。

確保安裝了FFMPEG：

$ apt-get update
$ apt install ffmpeg

$ conda create -n kabooks python=3.9 pip
$ conda activate kabooks

安裝Pytorch：

pip3 install torch torchvision torchaudio

安裝Kabooks要求：

$ pip install -r requirements.txt

此步驟從上一步接收JSON文件，並執行音頻文件的分割。該腳本基於基思·伊托（Keith Ito）提供的腳本，後者通過電子郵件提供了腳本。在此步驟中，首先創建了一個邏輯列表，並存儲文件名，開始和結束時間。然後，瀏覽此邏輯列表，將原始音頻劃分，將每個片段保存到磁盤。

此功能由名為“ audio_segentation.py”的腳本提供，可以單獨使用。使用AS INPUT參數運行腳本的音頻文件（MP3）的路徑要分割。

$ python segment_tools.py

輸入必須是一個MP3文件，該文件必須在輸入文件夾中。執行腳本後，將在WAVS文件夾中生成音頻段，並且該段將具有與原始文件相同的名稱。

這裡有一個使用wav2Vec2的腳本。此功能由名為“ Transcribe_audios.py”的腳本提供，可以單獨使用。使用WAVS文件的輸入目錄（轉錄輸出文件）的輸入目錄運行腳本。例如：

$ python transcription_tools.py

腳本的默認輸入是WAVS文件夾的內容。結果將是一個.CSV（Transcription.csv）文件，該文件包含WAVS文件夾中每個音頻文件的成績單。

在此步驟中，將將上一步的每個成績單與參考輸入有聲讀物的全文進行比較。對於每個成績單，腳本將返回具有最大相似性的句子，該句子在全文中找到。

結果將是一個.csv（result.csv），其中包含轉錄本，原始句子和相似性值，對於WAVS文件夾中的每個音頻段。

$ python search_substring.py

您也可以使用此腳本的相同版本，但使用線程：

$ python search_substring_with_threads.py --number_threads=16

展開

附加信息

相關應用

爲您推薦

相關資訊全部