kabooks下载 - kabooks源代码下载

kabooks

Ai源码

1.0.0

下载

kabooks -kabooks有声读物数据集创建者

Kabooks是“ Kabooks Audiobooks DataSet Creator”的递归首字母缩写词，它是自动创建用于培训文本到语音（TTS）和语音对文本（STT）模型数据集的工具。它基于Pansori [https://arxiv.org/abs/1812.09798]的工作。

Kabooks接收音频文件和相应的文本，将文本清除，将其分为句子，抄录每个段并在完整的教科书中找到地面真相文本。

自行使用。

安装

确保安装了FFMPEG：

$ apt-get update
$ apt install ffmpeg

$ conda create -n kabooks python=3.9 pip
$ conda activate kabooks

要求安装

安装Pytorch：

pip3 install torch torchvision torchaudio

安装Kabooks要求：

$ pip install -r requirements.txt

音频细分

此步骤从上一步接收JSON文件，并执行音频文件的分割。该脚本基于基思·伊托（Keith Ito）提供的脚本，后者通过电子邮件提供了脚本。在此步骤中，首先创建了一个逻辑列表，并存储文件名，开始和结束时间。然后，浏览此逻辑列表，将原始音频划分，将每个片段保存到磁盘。

此功能由名为“ audio_segentation.py”的脚本提供，可以单独使用。使用AS INPUT参数运行脚本的音频文件（MP3）的路径要分割。

$ python segment_tools.py

输入必须是一个MP3文件，该文件必须在输入文件夹中。执行脚本后，将在WAVS文件夹中生成音频段，并且该段将具有与原始文件相同的名称。

录制

这里有一个使用wav2Vec2的脚本。此功能由名为“ Transcribe_audios.py”的脚本提供，可以单独使用。使用WAVS文件的输入目录（转录输出文件）的输入目录运行脚本。例如：

$ python transcription_tools.py

脚本的默认输入是WAVS文件夹的内容。结果将是一个.CSV（Transcription.csv）文件，该文件包含WAVS文件夹中每个音频文件的成绩单。

搜索文字

在此步骤中，将将上一步的每个成绩单与参考输入有声读物的全文进行比较。对于每个成绩单，脚本将返回具有最大相似性的句子，该句子在全文中找到。

结果将是一个.csv（result.csv），其中包含转录本，原始句子和相似性值，对于WAVS文件夹中的每个音频段。

$ python search_substring.py

您也可以使用此脚本的相同版本，但使用线程：

$ python search_substring_with_threads.py --number_threads=16

参考：

Pansori Sourcecode
Pansori纸
Katube，我们的类似工具，用于从YouTube创建数据集。

谢谢

基思·伊托

展开

附加信息

版本 1.0.0
类型 Ai源码
更新时间 2025-09-14
大小 161.75KB
来自于 Github

kabooks

kabooks -kabooks有声读物数据集创建者

安装

要求安装

音频细分

录制

搜索文字

参考：

谢谢

ML stack

awesome free chatgpt

pywin_contextmenu

promptl

tick.chat

FastLoRAChat

chat.petals.dev

GPT Prompt Templates

GPTyped

ML stack

awesome free chatgpt

pywin_contextmenu

Google Dorks

shepherd

mongo express