Kabooks é um acrônimo recursivo para "Kabooks Audiobooks DataSet Creator", que é uma ferramenta para automatizar o processo de criação de conjuntos de dados para o treinamento de modelos de texto para fala (TTS) e STT (STT). É baseado no trabalho de pansori [https://arxiv.org/abs/1812.09798].
Recebendo um arquivo de áudio e o texto correspondente como entrada, os kabooks limparão o texto, dividindo -o em frases, transcrevem cada segmento e encontrarão o texto da verdade no solo no livro de texto completo.
Use por sua conta e risco.
Certifique -se de instalar o FFMPEG:
$ apt-get update
$ apt install ffmpeg$ conda create -n kabooks python=3.9 pip
$ conda activate kabooksInstale Pytorch:
pip3 install torch torchvision torchaudioInstale os requisitos de Kabooks:
$ pip install -r requirements.txtEsta etapa recebe o arquivo JSON da etapa anterior e executa a segmentação do arquivo de áudio. Esse script é baseado no script fornecido por Keith Ito, que gentilmente o forneceu por e -mail. Nesta etapa, uma lista lógica de segmentos é criada pela primeira vez, armazenando o nome do arquivo, o horário de início e término. Em seguida, analise esta lista lógica, dividindo o áudio original, salvando cada segmento no disco.
Essa funcionalidade é fornecida pelo script denominada "audio_segmentation.py" e pode ser usada separadamente. Execute o script usando como argumento de entrada O caminho do arquivo de áudio (MP3) a ser segmentado.
$ python segment_tools.py A entrada deve ser um arquivo MP3, que deve estar dentro da pasta de entrada. Após a execução do script, os segmentos de áudio serão gerados na pasta WAVS e os segmentos terão os mesmos nomes que o arquivo original.
Aqui há um script para usar wav2vec2. Essa funcionalidade é fornecida pelo script denominada "transcribe_audios.py" e pode ser usada separadamente. Execute o script usando o argumento de entrada do diretório de entrada dos arquivos wavs, o arquivo de saída de transcrição. Por exemplo:
$ python transcription_tools.pyA entrada padrão do script é o conteúdo da pasta WAVS. O resultado será um arquivo .csv (transcription.csv) que contém a transcrição de cada um dos arquivos de áudio presentes na pasta WAVS.
Nesta etapa, cada transcrição da etapa anterior será comparada com o texto completo referente ao audiolivro de entrada. Para cada transcrição, o script retornará uma frase com a maior semelhança, encontrada no texto completo.
O resultado será um .csv (resultado.csv) contendo a transcrição, a frase original e um valor de similaridade, para cada um dos segmentos de áudio presentes na pasta WAVS.
$ python search_substring.pyVocê também pode usar a mesma versão deste script, mas usando threads:
$ python search_substring_with_threads.py --number_threads=16