voice dataset creation 다운로드 - voice dataset creation 소스 코드 다운로드

voice dataset creation

AI 소스 코드

1.0.0

다운로드

음성 데이터 세트 생성

이 repo는 음성 모델을 훈련시키는 데 자신만의 텍스트 음성 정보 데이터 세트를 작성하는 데 필요한 단계와 스크립트를 간략하게 설명합니다. 최종 출력은 ljspeech 형식입니다.

흐름도

나만의 음성 녹음을 만듭니다

요구 사항

음성 녹음 소프트웨어
전 방향 헤드 장착 마이크
양질의 오디오 카드

문장의 텍스트 코퍼스를 만듭니다

말할 때 약 3-10 초가 될 문장을 만듭니다.
ljspeech 형식을 사용하십시오
- "|" 분리 된 값, WAV 파일 ID와 문장 텍스트
- 100|this is an example sentence

문장을 말하고 기록하십시오

각 문장을 쓰여진대로 말하십시오
샘플 속도는 22050 이상이어야합니다

문장 길이

스크립트/wavdurations2csv.sh를 실행하여 문장 길이를 차트로 작성하고 WAV 파일 길이가 양호한 지 확인하십시오.

합성 음성 데이터 세트를 만듭니다

요구 사항

Google 클라우드 플랫폼 컴퓨팅 엔진 인스턴스
- Cloud API access scopes 선택 Allow full access to all Cloud APIs
콘다

설치

GCP 인스턴스에서 콘다 환경을 만듭니다

conda create -n tts python=3.7
conda activate tts
pip install google-cloud-texttospeech==2.1.0 tqdm pandas

문장의 텍스트 코퍼스를 만듭니다

말할 때 약 3-10 초가 될 문장을 만듭니다.
ljspeech 형식을 사용하십시오
- "|" 분리 된 값, WAV 파일 ID와 문장 텍스트
- 100|this is an example sentence

합성 음성 데이터 세트를 생성합니다

python text_to_wav.py tts_generate

문장 길이

스크립트/wavdurations2csv.sh를 실행하여 문장 길이를 차트로 작성하고 WAV 파일 길이가 양호한 지 확인하십시오.

기존 음성 녹음에 대한 전사를 만듭니다

요구 사항

어도비 오디션 또는 대담
Google 클라우드 플랫폼 컴퓨팅 엔진 인스턴스
- Cloud API access scopes 선택 Allow full access to all Cloud APIs
콘다

설치

GCP 인스턴스에서 콘다 환경을 만듭니다

conda create -n stt python=3.7
conda activate stt
pip install google-cloud-speech tqdm pandas

음성 데이터 세트의 데이터 시트를 작성하십시오

Gebru et al.의 데이터 세트에 대한 데이터 시트 검토 : https://arxiv.org/pdf/1803.09010.pdf
Markdown Datasheet : https://github.com/jrmeyer/markdown-datasheet-for-datasets/blob/master/datasheet.md

연설을 표시하십시오

Adobe Audition 에서 오디오 파일을 엽니 다.

Diagnostics -> Mark Audio 선택하십시오
Mark the Speech 선택하십시오
Scan 클릭하십시오
Find Levels 클릭하십시오
Scan 다시 클릭하십시오
Mark All 클릭하십시오
클립이 3-10 초가 될 때까지 오디오 및 침묵 신호 DB 및 길이 조정

또는 Audacity 에서 오디오 파일을 엽니 다.

Analyze -> Sound Finder 선택하십시오
클립이 3-10 초가 될 때까지 오디오 및 침묵 신호 DB 및 길이 조정

마커 또는 레이블 경계를 조정하십시오

오디션 에서 :

오픈 Markers 탭
마커 조정, 침묵 및 노이즈를 제거하여 클립 길이 3 ~ 10 초 길이를 만듭니다.

오디션 에서 :

레이블 경계 조정, 침묵 및 노이즈 제거를 위해 클립 길이 3 ~ 10 초 길이를 만듭니다.

수출 마커/레이블 및 WAV

오디션 에서 :

목록에서 모든 마커를 선택하십시오
Export Selected Markers to CSV Markers.csv로 저장하십시오.
Preferences 선택 -> Media & Disk Cache 및 Save Peak Files 해제합니다.
다음 옵션으로 Export Audio of Selected Range Markers 선택하십시오.
- Use marker names in filenames 확인하십시오
- WAV PCM 으로 형식을 업데이트하십시오
- 샘플 유형 22050 Hz Mono, 16-bit 업데이트
- 폴더 wavs_export 를 사용하십시오

또는 대담한 :

Export multiple...
- 형식 : Wav
- 옵션 : 16 비트 PCM에 서명했습니다
- 레이블을 기반으로 파일을 분할합니다
- 레이블/트랙 이름을 사용하여 이름 파일
- 폴더 wavs_export 를 사용하십시오
Label Track.txt 에 대한 Export labels 선택하십시오

신호 대 노이즈 비율로 WAV를 분석하십시오

Colabs/Voice_dataset_snr.ipynb를 실행하십시오
시끄러운 파일을 청소하거나 제거하십시오

stt로 초기 전사를 만듭니다

오디션 의 경우 내보내기 Markers.csv 사용하여 CSV 및 WAVS 폴더가 실행됩니다.

 cd scripts
python wav_to_text.py audition

스크립트는 새 파일 인 Markers_STT.csv 생성합니다.

Audacity 의 경우 내보내는 Label Track.txt 및 WAVS 폴더 실행 :

 cd scripts
python wav_to_text.py audacity

스크립트는 새 파일, Label Track STT.csv 생성합니다.

미세 조정 전사

오디션 용 :

모든 마커를 삭제하십시오
Import Markers from File 선택하고 STT 전사가있는 파일을 선택하십시오 : Markers_stt.csv
마커의 설명 필드를 미세 조정하여 말한 단어와 정확히 일치하십시오.

대담함 :

텍스트 편집기에서 Label Track STT.txt 열 수 있습니다.
텍스트 파일의 레이블 필드를 미세 조정하여 말하는 단어와 정확히 일치합니다.

수출 마커 (오디션 만) 및 WAV

오디션 용 :

목록에서 모든 마커를 선택하십시오
Export Selected Markers to CSV Markers.csv로 저장하십시오.
다음 옵션으로 Export Audio of Selected Range Markers 선택하십시오.
- Use marker names in filenames 확인하십시오
- WAV PCM 으로 형식을 업데이트하십시오
- 샘플 유형 22050 Hz Mono, 16-bit 업데이트
- 폴더 wavs_export 를 사용하십시오

대담함 :

Export multiple...
- 형식 : Wav
- 옵션 : 16 비트 PCM에 서명했습니다
- 레이블을 기반으로 파일을 분할합니다
- 레이블/트랙 이름을 사용하여 이름 파일
- 폴더 wavs_export 를 사용하십시오

마커 (오디션) 또는 레이블 (Audacity)을 ljspeech 형식으로 변환하십시오

내보내기 Markers.csv (오디션) 또는 Label Track STT.txt (Audacity) 및 Wavs_export의 Wavs를 사용하여 Scripts/Markersfile_to_metadata.py를 Metadata.csv 및 폴더를 만들어 TTS 모델을 훈련시킵니다.

오디션 용 :

python markersfile_to_metadata.py audition

대담함 :

python markersfile_to_metadata.py audacity

문장 길이

스크립트/wavdurations2csv.sh를 실행하여 문장 길이를 차트로 작성하고 WAV 파일 길이가 양호한 지 확인하십시오.

다른 유틸리티

Upsample Wav 파일

ffmpeg : ffmpeg 재판매 : 16,000에서 22,050 Hz의 파일을 상승시키기 위해 세 가지 방법을 테스트했습니다. 스펙트로 그램을 검토 한 후, 우리는 재 샘플과 비교할 때 2 kHz의 고급 정보를 포함하므로 Upsampling을 위해 FFMPEG를 선택했습니다. 스크립트/리 샘플 wav.sh

 scripts/resamplewav.sh

참조

Mozilla TTS : https://github.com/mozilla/tts
자동화 정렬, Silence, Google Speech API 및 인식 정렬에 대한 세그먼트 오디오 포함 : https://github.com/carpedm20/multi-peaker-tacotron-tensorflow#2-2-generate-korean-datasets.
대형 합성 코퍼스에 대한 사전 조정 및 특정 것의 미세 조정 https://twitter.com/garygarywang
데이터 세트의 데이터 시트 https://arxiv.org/abs/1803.09010

확장하다

추가 정보