CTTS
1.0.0
Merlin Toolkit을 사용한 통계적 파라 메트릭 음성 합성을 기반으로 한 광동/중국어 텍스트
이 프로젝트는 MTTS의 영향을받습니다
파이썬 : Python3.6
시스템 : Linux (Ubuntu16.04에서 테스트)
sudo apt-get install libatlas3-base
bash tools/install_mtts.sh 실행하십시오
또는 직접 파일을 다운로드하십시오
데모를 실행하십시오
bash run_demo.sh
python src/mtts.py txtfile wav_directory_path output_directory_path (절대 경로 또는 상대 경로)를 실행하면 HTS 레이블이 있으면 HTS 레이블을 얻을 수 있습니다. Month Real-Forced-Aligner에 의해 자신의 음향 모델이 훈련 된 경우 -a your_acoustic_model.zip 을 추가합니다.txtfile 예제
A_01 这是一段文本
A_02 这是第二段文本
wav_directory 예제 (샘플링 속도는 16kHz보다 크면)
A_01.wav
A_02.wav
python src/mandarin_frontend.py txtfile output_directory_path 실행합니다 from mandarin_frontend import txt2label
result = txt2label('向香港特别行政区同胞澳门和台湾同胞海外侨胞')
[print(line) for line in result]
자세한 내용은 소스 코드를 참조하지만 정렬 파일 (SFS 파일)에주의를 기울이면 형식은 endtime phone_type start_time, phone_type (Speech Ocean의 데이터와 다름)입니다.
이 프로젝트는 Montreal-Forced-Aligner를 사용하여 강제 정렬을 수행합니다. 더 나은 정렬을 얻으려면 데이터를 사용하여 정렬 모델을 교육하십시오.
Prosody Mark없이 HTS 레이블을 생성 할 수 있습니다. 우리는 단어 세그먼트가 prosodic Word보다 작다고 가정합니다 (코드에서 조정 됨)