Kabooks는 "Kabooks Audiobooks DataSet Creator"의 재귀 인 약어입니다.이 도구는 TTS (Training Text-Topeech) 및 STT (Speech-to-Text) 모델을위한 데이터 세트를 작성하는 프로세스를 자동화하는 도구입니다. 그것은 Pansori의 작품을 기반으로한다 [https://arxiv.org/abs/1812.09798].
Kabooks는 오디오 파일과 해당 텍스트를 입력으로 수신하여 텍스트를 청소하고 문장으로 나누고 각 세그먼트를 전사하며 전체 교과서에서 Ground Truth 텍스트를 찾습니다.
자신의 위험에 사용하십시오.
FFMPEG를 설치해야합니다.
$ apt-get update
$ apt install ffmpeg$ conda create -n kabooks python=3.9 pip
$ conda activate kabooksPytorch 설치 :
pip3 install torch torchvision torchaudioKabooks 요구 사항을 설치하십시오.
$ pip install -r requirements.txt이 단계는 이전 단계에서 JSON 파일을 수신하고 오디오 파일의 분할을 수행합니다. 이 스크립트는 Keith Ito가 제공 한 스크립트를 기반으로하며 이메일을 통해 친절하게 제공했습니다. 이 단계에서는 논리적 인 세그먼트 목록이 먼저 생성되어 파일 이름, 시작 및 종료 시간을 저장합니다. 그런 다음 원래 오디오를 나누고 각 세그먼트를 디스크에 저장 하여이 논리 목록을 살펴보십시오.
이 기능은 "audio_segmentation.py"라는 스크립트에서 제공되며 별도로 사용할 수 있습니다. 입력 인수를 사용하여 스크립트를 실행할 오디오 파일 (MP3)의 경로를 세그먼트로 작성하십시오.
$ python segment_tools.py 입력은 MP3 파일이어야하며 입력 폴더 내부에 있어야합니다. 스크립트를 실행하면 오디오 세그먼트가 WAVS 폴더에서 생성되며 세그먼트는 원본 파일과 동일한 이름을 갖습니다.
여기 Wav2Vec2를 사용하는 스크립트가 있습니다. 이 기능은 "Transcribe_audios.py"라는 스크립트에 의해 제공되며 별도로 사용할 수 있습니다. WAVS 파일의 입력 디렉토리 인 전사 출력 파일의 입력 인수를 사용하여 스크립트를 실행하십시오. 예를 들어:
$ python transcription_tools.py스크립트의 기본 입력은 WAVS 폴더의 내용입니다. 결과는 WAVS 폴더에있는 각 오디오 파일의 전사를 포함하는 .csv (transcription.csv) 파일이됩니다.
이 단계에서, 이전 단계의 각 사본은 입력 오디오 북을 참조하는 전문과 비교됩니다. 각 사본마다 스크립트는 전체 텍스트에서 발견 된 가장 큰 유사성으로 문장을 반환합니다.
결과는 wavs 폴더에 존재하는 각 오디오 세그먼트에 대해 전사, 원래 문장 및 유사성 값을 포함하는 .csv (result.csv)가됩니다.
$ python search_substring.py이 스크립트의 동일한 버전을 사용할 수도 있지만 스레드를 사용할 수도 있습니다.
$ python search_substring_with_threads.py --number_threads=16