Chinese FastSpeech2 다운로드 - Chinese FastSpeech2 소스 코드 다운로드

Chinese FastSpeech2

AI 소스 코드

1.0.0

다운로드

중국-빠른 스피치 2

Biaobei Chinese의 표준 여성 음성 데이터를 기반으로 원래 논문의 Fastspeech2 모델이 개선되었으며 리듬 표현 및 리듬 예측 모듈이 도입되어 중국 발음을보다 생생하고 리듬을 만들었습니다.

20230402 업데이트

1. Bertprosody 디렉토리에서 리듬 모델 교육 코드 추가
2. Preprocessor/Biaobei.py 에서 리듬 모델 교육에 대한 전처리 코드 추가 (표준 쉘 데이터의 경우 코드가 정렬되지 않았으며, 첫 번째 릴리스)를 추가하십시오.

견본

샘플에서 생성 된 오디오를 참조하십시오

모델 파일

이 프로젝트의 주요 구조는 FastSpeech2+Hifigan 구조입니다. 또한, 중국어 텍스트의 리듬 벡터는 입력 단계에서 소개됩니다. 따라서 FastSpeech_Model, Hifigan_Model, Prosody_Model (Net Disk Link, Extraction Code : QGPI)의 세 가지 모델이 있습니다. 다운로드 후 모델 파일을 지정된 디렉토리에 넣습니다.

8000.pth.tar ---> 출력/ckpt/biaobei/
Generator_Universal.pth.tar ---> Hifigan/
best_model.pt ---> 변압기/프로디 _model/

예측하다

두 가지 예측 방법이 제공됩니다 : 1) Python synthesize_all.py; 2) HTTP 인터페이스 호출

첫 번째 방법은 대화식 입니다. 명령 줄에서 Python Synthesize_all.py를 실행 한 후 변환 해야하는 텍스트를 입력하십시오. 실행 후 TMP.WAV 파일은 현재 작업 디렉토리의 코드에서 생성됩니다.
두 번째 방법은 API를 호출하고 tts_server.py를 실행하는 것입니다. 이 인터페이스를 호출하면 testserver.py를 참조 할 수 있습니다. 동일한 생성 오디오 파일 (TMP.WAV)이 현재 작업 디렉토리에 저장됩니다.

기차

이 프로젝트는 FastSpeech2 프로젝트를 말하기 때문에 교육을 사용자 정의하려면이 프로젝트는 참조를위한보다 자세한 교육 방법을 제공합니다.
이 프로젝트는 원래 방법에 대한 최적화를 만들었습니다. 최적화 부분은 FastSpeech2 최적화를 기반으로 한 중국어 음성 합성 블로그를 참조하십시오.

이 프로젝트는 개인적인 관심사에서 음성 합성을 만들기위한 시도입니다. 모두가 나를 비판하고 수정하고 더 많은 의사 소통을 환영합니다!

확장하다

추가 정보