Kokoro Speech Dataset 다운로드 -Kokoro Kokoro Speech Dataset 소스 코드 다운로드

Kokoro Speech Dataset

AI 소스 코드

Keep word separators in transcripts with '_'

다운로드

Kokoro 음성 데이터 세트

Kokoro Speech DataSet은 일본어 음성 데이터 세트입니다. 여기에는 14 개의 소설 책을 읽는 단일 스피커의 43,253 개의 짧은 오디오 클립이 포함되어 있습니다. 메타 데이터의 형식은 데이터 세트가 최신 음성 합성 시스템과 호환되도록 LJ 음성의 형식과 유사합니다.

텍스트는 공개 영역에있는 Aozora Bunko에서 나온 것입니다. 오디오 클립은 Librivox Project의 공개 도메인에도 있습니다. 판독 값은 Kanji-Kana 혼합 텍스트의 Mecab 및 Unidic Lite에 의해 추정됩니다. 독서는 로마 화되어 줄리어스가 사용하는 형식과 유사합니다.

오디오 클립을 분할하고 전 사체를 Kokoro-Align에 의해 자동으로 정렬했습니다.

샘플 데이터

브라우저에서 듣거나 무작위로 샘플링 된 100 개의 클립을 다운로드하십시오.

파일 형식

메타 데이터는 metadata.csv 에서 제공됩니다. 이 파일은 한 줄 당 한 레코드로 구성되며 파이프 문자 (0x7c)로 구분됩니다. 필드는 다음과 같습니다.

ID : 해당 .wav 파일의 이름입니다.
전사 : 독자가 사용하는 Kanji-kana 혼합 텍스트 (UTF-8)
독서 : 독자가 사용하는 로마 화 된 텍스트 (UTF-8)

각 오디오 파일은 샘플 속도가 22050Hz의 단일 채널 16 비트 PCM WAV입니다.

통계

데이터 세트는 다양한 크기, xlarge , large small tiny 로 제공됩니다. large small tiny 같은 클립을 공유하지 않습니다. xlarge large small tiny 것을 포함하여 사용 가능한 모든 클립이 포함되어 있습니다.

 X Large:
Total clips: 44788
Min duration: 3.007 secs
Max duration: 14.861 secs
Mean duration: 4.718 secs
Total duration: 58:41:39

Large:
Total clips: 23461
Min duration: 3.007 secs
Max duration: 14.861 secs
Mean duration: 4.742 secs
Total duration: 30:54:16

Small:
Total clips: 9199
Min duration: 3.007 secs
Max duration: 9.961 secs
Mean duration: 4.687 secs
Total duration: 11:58:31

Tiny:
Total clips: 308
Min duration: 3.030 secs
Max duration: 8.092 secs
Mean duration: 4.695 secs
Total duration: 00:24:05

데이터를 얻는 방법

데이터 세트의 데이터 크기가 크기 때문에이 리포지토리에는 오디오 파일이 포함되어 있지 않지만 메타 데이터가 포함되어 있습니다.

데이터 세트의 .wav 파일을 만들려면 실행하십시오

 $ bash download.sh

프로젝트 페이지에서 메타 데이터를 다운로드하려면 그런 다음 실행하십시오

 $ pip3 install torchaudio
$ python3 extract.py --size tiny

이 쉘 스크립트 예제를 인쇄하여 Archive.org에서 MP3 오디오 파일을 다운로드하고 아직 수행하지 않은 경우 추출합니다.

그렇게하면 명령을 다시 실행하십시오

 $ python3 extract.py --size tiny

./output 디렉토리 아래에 tiny 파일을 얻으려면

크기의 데이터 세트를 얻기 위해 --size 옵션에 다른 크기 이름을 제공 할 수 있습니다.

오디오 클립 형식을 --format 옵션에 지정할 수 있습니다.

사전 간 타코트론 모델

오디오 샘플
사방 모델

Kokoro Speech DataSet 및 오디오 샘플로 훈련 된 사전 예방 된 Tacotron 모델을 사용할 수 있습니다. 이 모델은 small 21k 단계로 훈련되었습니다. 위의 Repo에 따르면 LJ Speech DataSet과 함께 "음성은 20K 단계 정도의 음성이되기 시작했습니다". 오디오 샘플은 Gon Gitsune의 처음 몇 문장을 읽습니다 small