Download de kabooks - Download do código -fonte kabooks

kabooks

Código-Fonte de IA

1.0.0

Baixar

Kabooks - Kabooks Audiobooks DataSet Creator

Kabooks é um acrônimo recursivo para "Kabooks Audiobooks DataSet Creator", que é uma ferramenta para automatizar o processo de criação de conjuntos de dados para o treinamento de modelos de texto para fala (TTS) e STT (STT). É baseado no trabalho de pansori [https://arxiv.org/abs/1812.09798].

Recebendo um arquivo de áudio e o texto correspondente como entrada, os kabooks limparão o texto, dividindo -o em frases, transcrevem cada segmento e encontrarão o texto da verdade no solo no livro de texto completo.

Use por sua conta e risco.

Instalação

Certifique -se de instalar o FFMPEG:

$ apt-get update
$ apt install ffmpeg

$ conda create -n kabooks python=3.9 pip
$ conda activate kabooks

Instalação de requisitos

Instale Pytorch:

pip3 install torch torchvision torchaudio

Instale os requisitos de Kabooks:

$ pip install -r requirements.txt

Segmentação de áudio

Esta etapa recebe o arquivo JSON da etapa anterior e executa a segmentação do arquivo de áudio. Esse script é baseado no script fornecido por Keith Ito, que gentilmente o forneceu por e -mail. Nesta etapa, uma lista lógica de segmentos é criada pela primeira vez, armazenando o nome do arquivo, o horário de início e término. Em seguida, analise esta lista lógica, dividindo o áudio original, salvando cada segmento no disco.

Essa funcionalidade é fornecida pelo script denominada "audio_segmentation.py" e pode ser usada separadamente. Execute o script usando como argumento de entrada O caminho do arquivo de áudio (MP3) a ser segmentado.

$ python segment_tools.py

A entrada deve ser um arquivo MP3, que deve estar dentro da pasta de entrada. Após a execução do script, os segmentos de áudio serão gerados na pasta WAVS e os segmentos terão os mesmos nomes que o arquivo original.

Transcrever

Aqui há um script para usar wav2vec2. Essa funcionalidade é fornecida pelo script denominada "transcribe_audios.py" e pode ser usada separadamente. Execute o script usando o argumento de entrada do diretório de entrada dos arquivos wavs, o arquivo de saída de transcrição. Por exemplo:

$ python transcription_tools.py

A entrada padrão do script é o conteúdo da pasta WAVS. O resultado será um arquivo .csv (transcription.csv) que contém a transcrição de cada um dos arquivos de áudio presentes na pasta WAVS.

Pesquise texto

Nesta etapa, cada transcrição da etapa anterior será comparada com o texto completo referente ao audiolivro de entrada. Para cada transcrição, o script retornará uma frase com a maior semelhança, encontrada no texto completo.

O resultado será um .csv (resultado.csv) contendo a transcrição, a frase original e um valor de similaridade, para cada um dos segmentos de áudio presentes na pasta WAVS.

$ python search_substring.py

Você também pode usar a mesma versão deste script, mas usando threads:

$ python search_substring_with_threads.py --number_threads=16

Referências:

Pansori SourCecode
Papel pansori
Katube, nossa ferramenta semelhante, usada para criar o conjunto de dados do YouTube.

Obrigado

Keith Ito

Expandir

Informações adicionais

Versão 1.0.0
Tipo Código-Fonte de IA
Data da Última Atualização 2025-09-14
tamanho 161.75KB
Vindo de Github

Aplicativos Relacionados

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
ML stack

Código-Fonte de IA

1.0.0
awesome free chatgpt

Código-Fonte de IA

1.0.0
pywin_contextmenu

Código-Fonte de IA

Version update
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos