추천하다:
가입에 오신 것을 환영합니다
Merlin Toolkit을 사용한 통계 매개 변수 음성 합성을 기반으로 한 Mandarin/Chinese Text to Speech
이것은 발음 합성의 앞쪽 끝에있는 데모 일뿐입니다. 텍스트 정규화 및 리듬 예측 기능을 제공하지 않습니다. Pypinyin을 사용하여 텍스트를 Pinyin으로 변환하고 분사로 말더듬을 사용하십시오. 이 두 가지의 정확도는 상업 수준만큼 좋지 않습니다.
다른 음성 합성 프로젝트의 경우 포털 엔드 투 엔드는 좋은 방향이며 자연은 멀린의 것보다 낫습니다.
이것은 "텍스트 정규화"및 "프로디 예측"과 같은 일부 부품이 부족한 만다린 프론트 엔드의 데모 일 뿐이며 전화 세트 && 질문 세트이 프로젝트는 아직 완전히 테스트되지 않았습니다.
대략적인 문서 : 만다린으로 작성된 문서 초안
인터넷에 오픈 소스 만다린 음성 합성 데이터 세트가 없으며,이 Proj는 THCHS30 데이터 세트를 사용하여 음성 합성을 데모했습니다.
업데이트
Biaobei Company에 감사드립니다.
【데이터 다운로드】 https://weixinxcxdb.oss-cn-beijing.aliyuncs.com/gwyinpinku/bznsyp.rar 데이터 설명】 http://www.data-baker.com/open_source.html
https://jackiexiao.github.io/mtts/를 듣습니다.
파이썬 : Python3.6
시스템 : Linux (Ubuntu16.04에서 테스트)
pip install jieba pypinyin
sudo apt-get install libatlas3-base
bash tools/install_mtts.sh 실행하십시오
또는 직접 파일을 다운로드하십시오
데모를 실행하십시오
bash run_demo.sh
python src/mtts.py txtfile wav_directory_path output_directory_path (절대 경로 또는 상대 경로)를 실행하면 HTS 레이블이 있으면 HTS 레이블을 얻을 수 있습니다. Month Real-Forced-Aligner에 의해 자신의 음향 모델이 훈련 된 경우 -a your_acoustic_model.zip 을 추가합니다.txtfile 예제
A_01 这是一段文本
A_02 这是第二段文本
wav_directory 예제 (샘플링 속도는 16kHz보다 크면)
A_01.wav
A_02.wav
python src/mandarin_frontend.py txtfile output_directory_path 실행합니다 from mandarin_frontend import txt2label
result = txt2label('向香港特别行政区同胞澳门和台湾同胞海外侨胞')
[print(line) for line in result]
# with prosody mark and alignment file (sfs file)
# result = txt2label('向#1香港#2特别#1行政区#1同胞#4澳门#2和#1台湾#1同胞#4海外#1侨胞',
sfsfile='example_file/example.sfs')
자세한 내용은 소스 코드를 참조하지만 정렬 파일 (SFS 파일)에주의를 기울이면 형식은 endtime phone_type start_time, phone_type (Speech Ocean의 데이터와 다름)입니다.
이 프로젝트는 Montreal-Forced-Aligner를 사용하여 강제 정렬을 수행합니다. 더 나은 정렬을 얻으려면 데이터를 사용하여 정렬 모델을 교육하십시오.
misc/thchs30.zip , Mandarin_mtts.lexicon을 사용하는 사전을 참조하십시오. THCHS30보다 더 큰 데이터 세트를 사용하는 경우 더 나은 정렬을 얻을 수 있습니다.Prosody Mark없이 HTS 레이블을 생성 할 수 있습니다. 우리는 단어 세그먼트가 prosodic Word보다 작다고 가정합니다 (코드에서 조정 됨)
"#0", "#1", "#2", "#3"및 "#4"는 프로디 레이블 기호입니다.