Kabooks是“ Kabooks Audiobooks DataSet Creator”的遞歸首字母縮寫詞,它是自動創建用於培訓文本到語音(TTS)和語音對文本(STT)模型數據集的工具。它基於Pansori [https://arxiv.org/abs/1812.09798]的工作。
Kabooks接收音頻文件和相應的文本,將文本清除,將其分為句子,抄錄每個段並在完整的教科書中找到地面真相文本。
自行使用。
確保安裝了FFMPEG:
$ apt-get update
$ apt install ffmpeg$ conda create -n kabooks python=3.9 pip
$ conda activate kabooks安裝Pytorch:
pip3 install torch torchvision torchaudio安裝Kabooks要求:
$ pip install -r requirements.txt此步驟從上一步接收JSON文件,並執行音頻文件的分割。該腳本基於基思·伊托(Keith Ito)提供的腳本,後者通過電子郵件提供了腳本。在此步驟中,首先創建了一個邏輯列表,並存儲文件名,開始和結束時間。然後,瀏覽此邏輯列表,將原始音頻劃分,將每個片段保存到磁盤。
此功能由名為“ audio_segentation.py”的腳本提供,可以單獨使用。使用AS INPUT參數運行腳本的音頻文件(MP3)的路徑要分割。
$ python segment_tools.py 輸入必須是一個MP3文件,該文件必須在輸入文件夾中。執行腳本後,將在WAVS文件夾中生成音頻段,並且該段將具有與原始文件相同的名稱。
這裡有一個使用wav2Vec2的腳本。此功能由名為“ Transcribe_audios.py”的腳本提供,可以單獨使用。使用WAVS文件的輸入目錄(轉錄輸出文件)的輸入目錄運行腳本。例如:
$ python transcription_tools.py腳本的默認輸入是WAVS文件夾的內容。結果將是一個.CSV(Transcription.csv)文件,該文件包含WAVS文件夾中每個音頻文件的成績單。
在此步驟中,將將上一步的每個成績單與參考輸入有聲讀物的全文進行比較。對於每個成績單,腳本將返回具有最大相似性的句子,該句子在全文中找到。
結果將是一個.csv(result.csv),其中包含轉錄本,原始句子和相似性值,對於WAVS文件夾中的每個音頻段。
$ python search_substring.py您也可以使用此腳本的相同版本,但使用線程:
$ python search_substring_with_threads.py --number_threads=16