비 영어-타코 트론 -2- 트레이닝-노트 북
Tacotron 2 교육 노트북을 지원하는 노트북
개요
이 노트북은 영어 이외의 언어로 Tacotron 2 모델 교육에 쉽게 액세스 할 수 있도록하기위한 것입니다. 현재 일본어 (Talqu and Neutalk Phonetics), 프랑스어 및 만다린 사전 치료 모델이 포함되어 있지만,이 계획에는 독일어와 같은 미래에 더 많은 것이 포함됩니다. 일본인의 경우 Neutalk Phonetics 및 사전 치료 모델을 사용하는 것이 좋습니다.
지원되는 오디오
교육용 오디오는 16 비트 22050Hz 모노 웨이브 파일이어야합니다. 파일 이름에 공백을 포함하지 마십시오. 파일에는 영숫자 (반 넓음), 대시 및 밑줄 만 포함되어야합니다. 이것은 일본어 또는 중국의 파일 이름 또는 디아크리닉이 없음을 의미합니다. 학습을 용이하게하려면 오디오 클립이 10 초 이하입니다. 내 테스트를 기반으로 15 분 이상 오디오를 사용하는 것이 좋습니다.
전사
전사 파일은 각 줄에 다음 형식이있는 텍스트 문서 여야합니다. wavs/{name_of_file}.wav|{text} . 포함 된 G2P 중 하나를 사용하여 전사를 적절한 발음 입력으로 변환하십시오.
훈련
노트북의 단계는 다소 자기 설명이어야합니다. 교육을 시작하기 전에 오디오를 WAV/ 폴더에 업로드하십시오. 명심해야 할 몇 가지 메모는 다음과 같습니다.
- 배치 크기는 이상적으로 당신이 가진 wav의 양의 계수 여야합니다. 예를 들어, 15 마리의 WAV로 모델을 훈련 할 때 배치 크기를 5로 설정했습니다.
- Colab에 T4 GPU가있는 경우 배치 크기를 14보다 높게 설정하지 마십시오.
- 교육을위한 출력 디렉토리는 연결이 끊어지는 경우 Google 드라이브에 있어야합니다.
- 훈련 할 때 체크 포인트가 쌓입니다. 드라이브 스토리지를 사용할 수 있도록 오래된 것과 빈 쓰레기를 삭제하십시오.
- 적절한 검증 손실에 도달하면 훈련을 중단하십시오. 예를 들어, 내가하는 일은 : 30 파일 미만 = 0.07 미만; 30-100 파일 = 0.09 미만; 150+ 파일 = 0.1 미만; 30 분 이상의 데이터 = 0.14 미만
속성
- haruqa의 talqu 음성 시스템 (https://booth.pm/ja/items/2755336)
- Neutalk Japanese Conetic System의 Neutrogic (https://github.com/neutrogic/neutalk)
- haruqa (https://github.com/haruqa/tacotron2/releases)의 Talqu Pretrated Model
- Neutalk Japanese 및 Mandarin은 Neutrogic (https://github.com/neutrogic/neutalk)에 의한 사전 모델
- Mildemelwe가 만든 프랑스 사기 모델은 Neutrogic (https://github.com/neutrogic)에 의해 훈련되었습니다.
- Uberduck Tacotron 2 Training Notebook (https://colab.research.google.com/drive/1wtilmdm9vf79gzkeetbigan6iv3bg?usp=sharing)의 코드를 기반으로합니다.
- Nvidia의 Tacotron 2 구현 (https://github.com/nvidia/tacotron2)