TTS (Text-Steech) (TTS)는 최근 평행 TTS 시스템의 빠른 발전으로 인해 고품질의 음성을 합성하는 데 큰 진전을 보였지만 자연주의 적 프로 소스 변형, 말하기 스타일 및 정서적 톤으로 연설을하는 것은 여전히 어려운 일입니다. 더욱이, 지속 시간과 음성이 별도로 생성되기 때문에, 병렬 TTS 모델은 자연주의 음성 합성에 중요한 최상의 단조 적 정렬을 찾는 데 여전히 문제가 있습니다. 여기, 우리는 참조 언어 발화에서 자연스러운 프로디로 다양한 음성을 합성 할 수있는 평행 TT에 대한 스타일 기반 생성 모델 인 Styletts를 제안합니다. 새로운 전송 가능한 단조로운 정렬 (TMA) 및 지속 시간 불변 데이터 증강 체계를 통해, 우리의 방법은 음성 자연과 스피커 유사성의 주관적인 테스트에서 단일 및 멀티 스피커 데이터 세트 모두에서 최첨단 모델을 훨씬 능가합니다. 말하기 스타일에 대한 자체 감독 학습을 통해, 우리의 모델은 이러한 범주에 명시 적으로 라벨을 붙일 필요없이 주어진 참조 연설과 동일한 참조 및 정서적 톤으로 연설을 종합 할 수 있습니다.
종이 : https://arxiv.org/abs/2107.10394
오디오 샘플 : https://styletts.github.io/
git clone https://github.com/yl4579/StyleTTS.git
cd StyleTTSpip install SoundFile torchaudio munch torch pydub pyyaml librosa git+https://github.com/resemble-ai/monotonic_align.git첫 번째 단계 훈련 :
python train_first.py --config_path ./Configs/config.yml두 번째 단계 훈련 :
python train_second.py --config_path ./Configs/config.yml 연속적으로 실행할 수 있으며 첫 번째 단계와 두 번째 단계를 모두 훈련시킵니다. 이 모델은 "epoch_1st_%05d.pth"및 "epoch_2nd_%05d.pth"형식으로 저장됩니다. 체크 포인트 및 텐서 보드 로그는 log_dir 에 저장됩니다.
데이터 목록 형식은 filename.wav|transcription 이어야합니다. Val_List_Libritts.txt를 참조하십시오.
자세한 내용은 entresistion.ipynb를 참조하십시오.
24 kHz의 LJSpeech Corpus의 사전 간 Styletts와 Hifi-gan은 Styletts Link 및 Hifi-Gan Link에서 다운로드 할 수 있습니다.
사전 처리 된 Styletts와 Libritts Corpus의 Hifigan은 Styletts Link 및 Hifi-Gan Link에서 다운로드 할 수 있습니다. 또한 제로 샷 데모를 실행하려면 Libritts에서 Test-Clean을 다운로드해야합니다.
Models 과 Vocoder 에 대한 압축을 풀고 노트북에서 각 셀을 실행하십시오. 이 추론 데모를 실행하려면 음소 제조를 설치해야합니다.
사전 배치 된 텍스트 조정기 및 피치 추출기 모델은 Utils 폴더 아래에 제공됩니다. 텍스트 Aligner 및 피치 추출기 모델은 모두 meldataset.py를 사용하여 전처리 된 Melspectrograms로 훈련됩니다.
Meldataset.py를 자신의 Melspectrogram Preprocessing으로 편집 할 수 있지만, 제공된 사전화 된 모델은 더 이상 작동하지 않습니다. 새로운 전처리로 자신의 텍스트 조정기 및 피치 추출기를 훈련시켜야합니다.
새로운 텍스트 조정기 모델을 훈련하기위한 코드는 여기에서 사용할 수 있으며 새로운 피치 추출기 모델을 훈련하기위한 것입니다.
추가 시간이 있다면 공식 Hifigan 및 ESPNET의 것과 같은 기존 전처리와 더 많은 수용체를 제공 할 것입니다. 기꺼이 도와 주려면 ESPNET로 영수증을 자유롭게 만들 수 있습니다.