Kabooks是“ Kabooks Audiobooks DataSet Creator”的递归首字母缩写词,它是自动创建用于培训文本到语音(TTS)和语音对文本(STT)模型数据集的工具。它基于Pansori [https://arxiv.org/abs/1812.09798]的工作。
Kabooks接收音频文件和相应的文本,将文本清除,将其分为句子,抄录每个段并在完整的教科书中找到地面真相文本。
自行使用。
确保安装了FFMPEG:
$ apt-get update
$ apt install ffmpeg$ conda create -n kabooks python=3.9 pip
$ conda activate kabooks安装Pytorch:
pip3 install torch torchvision torchaudio安装Kabooks要求:
$ pip install -r requirements.txt此步骤从上一步接收JSON文件,并执行音频文件的分割。该脚本基于基思·伊托(Keith Ito)提供的脚本,后者通过电子邮件提供了脚本。在此步骤中,首先创建了一个逻辑列表,并存储文件名,开始和结束时间。然后,浏览此逻辑列表,将原始音频划分,将每个片段保存到磁盘。
此功能由名为“ audio_segentation.py”的脚本提供,可以单独使用。使用AS INPUT参数运行脚本的音频文件(MP3)的路径要分割。
$ python segment_tools.py 输入必须是一个MP3文件,该文件必须在输入文件夹中。执行脚本后,将在WAVS文件夹中生成音频段,并且该段将具有与原始文件相同的名称。
这里有一个使用wav2Vec2的脚本。此功能由名为“ Transcribe_audios.py”的脚本提供,可以单独使用。使用WAVS文件的输入目录(转录输出文件)的输入目录运行脚本。例如:
$ python transcription_tools.py脚本的默认输入是WAVS文件夹的内容。结果将是一个.CSV(Transcription.csv)文件,该文件包含WAVS文件夹中每个音频文件的成绩单。
在此步骤中,将将上一步的每个成绩单与参考输入有声读物的全文进行比较。对于每个成绩单,脚本将返回具有最大相似性的句子,该句子在全文中找到。
结果将是一个.csv(result.csv),其中包含转录本,原始句子和相似性值,对于WAVS文件夹中的每个音频段。
$ python search_substring.py您也可以使用此脚本的相同版本,但使用线程:
$ python search_substring_with_threads.py --number_threads=16