MTTS 다운로드 MTTS 소스 코드 다운로드

MTTS

AI 소스 코드

1.0.0

다운로드

이 프로젝트는 중단되었고 꽤 오래되었습니다

추천하다:

https://github.com/paddlepdled/paddlespeech/tree/develop/paddlespeech/t2s/frontend
https://github.com/thuhcsi/crystal

가입에 오신 것을 환영합니다

음성 합성 통신 QQ 그룹 : 882726654

MTTS 만다린/중국어 텍스트에 대한 데모 연설 프론트 엔드

Merlin Toolkit을 사용한 통계 매개 변수 음성 합성을 기반으로 한 Mandarin/Chinese Text to Speech

이것은 발음 합성의 앞쪽 끝에있는 데모 일뿐입니다. 텍스트 정규화 및 리듬 예측 기능을 제공하지 않습니다. Pypinyin을 사용하여 텍스트를 Pinyin으로 변환하고 분사로 말더듬을 사용하십시오. 이 두 가지의 정확도는 상업 수준만큼 좋지 않습니다.

다른 음성 합성 프로젝트의 경우 포털 엔드 투 엔드는 좋은 방향이며 자연은 멀린의 것보다 낫습니다.

이것은 "텍스트 정규화"및 "프로디 예측"과 같은 일부 부품이 부족한 만다린 프론트 엔드의 데모 일 뿐이며 전화 세트 && 질문 세트이 프로젝트는 아직 완전히 테스트되지 않았습니다.

대략적인 문서 : 만다린으로 작성된 문서 초안

데이터

인터넷에 오픈 소스 만다린 음성 합성 데이터 세트가 없으며,이 Proj는 THCHS30 데이터 세트를 사용하여 음성 합성을 데모했습니다.

업데이트

Biaobei Company에 감사드립니다.

【데이터 다운로드】 https://weixinxcxdb.oss-cn-beijing.aliyuncs.com/gwyinpinku/bznsyp.rar 데이터 설명】 http://www.data-baker.com/open_source.html

생성 된 샘플

https://jackiexiao.github.io/mtts/를 듣습니다.

재생산하는 방법

먼저 데이터가 필요합니다.
둘째,이 프로젝트를 사용하여 HTS 레이블을 생성하십시오
Merlin/EGS/Mandarin_voice를 사용하여 만다린 목소리를 훈련하고 생성합니다

컨텍스트 관련 주석 및 질문 세트

컨텍스트 관련 주석
질문 세트
질문 세트 설계 규칙을 설계하는 규칙

설치하다

파이썬 : Python3.6
시스템 : Linux (Ubuntu16.04에서 테스트)

 pip install jieba pypinyin
sudo apt-get install libatlas3-base

bash tools/install_mtts.sh 실행하십시오
또는 직접 파일을 다운로드하십시오

Montreal-Forced-Aligner를 다운로드하고 디렉토리 도구로 압축을 풀어주십시오.
AcouStic_Model THCHS30.ZIP를 다운로드하고 디렉토리 MISC로 복사하십시오.

데모를 실행하십시오

 bash run_demo.sh

용법

1. Wav와 텍스트별로 HTS 레이블을 생성합니다

사용법 : python src/mtts.py txtfile wav_directory_path output_directory_path (절대 경로 또는 상대 경로)를 실행하면 HTS 레이블이 있으면 HTS 레이블을 얻을 수 있습니다. Month Real-Forced-Aligner에 의해 자신의 음향 모델이 훈련 된 경우 -a your_acoustic_model.zip 을 추가합니다.
주의 : 현재 중국어 만 지원하는 TXT는 아라비아 번호 나 영어 알파벳이 없어야합니다 (아랍어 숫자와 영어 문자를 포함 할 수 없음)

txtfile 예제

 A_01 这是一段文本
A_02 这是第二段文本

wav_directory 예제 (샘플링 속도는 16kHz보다 크면)

 A_01.wav  
A_02.wav

2. 정렬 파일이 있거나없는 텍스트별로 HTS 레이블 생성

사용법 : python src/mandarin_frontend.py txtfile output_directory_path 실행합니다
또는 Mandarin_frontend를 가져옵니다

 from mandarin_frontend import txt2label

result = txt2label('向香港特别行政区同胞澳门和台湾同胞海外侨胞')
[print(line) for line in result]

# with prosody mark and alignment file (sfs file)
# result = txt2label('向#1香港#2特别#1行政区#1同胞#4澳门#2和#1台湾#1同胞#4海外#1侨胞',
            sfsfile='example_file/example.sfs')

자세한 내용은 소스 코드를 참조하지만 정렬 파일 (SFS 파일)에주의를 기울이면 형식은 endtime phone_type start_time, phone_type (Speech Ocean의 데이터와 다름)입니다.

3. 강제 정렬

이 프로젝트는 Montreal-Forced-Aligner를 사용하여 강제 정렬을 수행합니다. 더 나은 정렬을 얻으려면 데이터를 사용하여 정렬 모델을 교육하십시오.

우리는 THCHS30 데이터 세트를 사용하여 음향 모델을 훈련 시켰으며 misc/thchs30.zip , Mandarin_mtts.lexicon을 사용하는 사전을 참조하십시오. THCHS30보다 더 큰 데이터 세트를 사용하는 경우 더 나은 정렬을 얻을 수 있습니다.
MFA (Montreal-Forced-Aligner) 미리 훈련 된 만다린 모델을 사용하려면, 이것은 만다린-몬트리올-포송-정리-훈련-모델 .lexicon이 필요한 사전입니다.