이것은 빠른 연구 및 제품 개발을 지원하기위한 모듈 식 텍스트 음성 프레임 워크입니다. 주요 기능은 포함됩니다
기부금을 환영합니다.
여기에서 데모를 체크 아웃하십시오 
git clone https://github.com/ranchlai/mandarin-tts.git
cd mandarin-tts
git submodule update --force --recursive --init --remote
pip install -e . f
여기에는 두 가지 예가 제공됩니다 : Biaobei와 Aishell3.
자신의 모델을 훈련 시키려면 먼저 기존 예제에서 복사 한 다음 Wav2Mel.py를 사용하여 Melspectrogram 기능을 준비하십시오.
cd examples
python wav2mel.py -c ./aishell3/config.yaml -w < aishell3_wav_folder > -m < mel_folder > -d cpu교육에 필요한 SCP 파일을 준비하고
cd examples/aishell3
python prepare.py --wav_folder < aishell3_wav_folder > --mel_folder < mel_folder > --dst_folder ./train/Config.yaml (데이터 세트/트레인 섹션)에 필요한 SCP 파일이 생성됩니다. 또한 구성 파일에서 모든 것이 정상인지 확인해야합니다. 일반적으로 코드를 변경할 필요가 없습니다.
이제 훈련을 시작할 수 있습니다
cd examples/aishell3
python ../../mtts/train.py -c config.yaml -d cudaBiaobei 데이터 세트의 경우 스피커 임베딩이 없지만 프로디 임베딩을 추가 할 수 있다는 점을 제외하고는 워크 플로가 동일합니다.
더 많은 예가 추가됩니다. 머물러주세요.
현재 두 가지 예제가 제공되며 해당 체크 포인트/구성이 다음과 같이 요약되어 있습니다.
| 데이터 세트 | 검문소 | 구성 |
|---|---|---|
| Aishell3 | 링크 | 링크 |
| 비아 에비 | 링크 | 링크 |
보코더는 melspectrograms를 파형으로 변환하는 역할을합니다. 그것들은 하위 모듈로 추가 되며이 프로젝트에서 훈련 될 것입니다. 따라서 합성하기 전에 체크 포인트를 다운로드해야합니다. 훈련시 생성 된 멜 스피어 그램과 손실 곡선에서 훈련 프로세스를 모니터링 할 수 있으므로 보코더는 필요하지 않습니다. 현재 우리는 다음과 같은 보코더를 지원합니다.
| 보코더 | 검문소 | github |
|---|---|---|
| 웨이브 글로우 | 링크 | 링크 |
| Hifi-gan | 링크 | 링크 |
| vocgan | 링크 링크 | 링크 |
| 멜간 | 링크 | 링크 |
git submodule update --force --recursive --init --remote 실행 한 후 모든 보코더가 준비됩니다. 그러나 체크 포인트를 수동으로 다운로드하고 config.yaml 파일에서 경로를 올바르게 설정해야합니다.
input.txt는 구성 파일, 즉 동일한 유형, 동일한 순서에서 EMB_TYPE1 ~ EMB_TYPE_N 설정과 일치해야합니다.
Hanzi의 Pinyin 전사를 용이하게하려면 다음을 시도 할 수 있습니다.
cd examples/aishell3/
python ../../mtts/text/gp2py.py -t "为适应新的网络传播方式和读者阅读习惯"
>> sil wei4 shi4 ying4 xin1 de5 wang3 luo4 chuan2 bo1 fang1 shi4 he2 du2 zhe3 yue4 du2 xi2 guan4 sil|sil 为 适 应 新 的 网 络 传 播 方 式 和 读 者 阅 读 习 惯 sil
텍스트를 input.txt에 복사 할 수 없으며 '|'로 분리 된 자체 정의 이름과 스피커 ID를 내려 놓는 것을 잊지 마십시오.
위의 체크 포인트와 텍스트가 준비된 상태에서 마지막으로 합성 프로세스를 실행할 수 있습니다.
python ../../mtts/synthesize.py -d cuda --c config.yaml --checkpoint ./checkpoints/checkpoint_1240000.pth.tar -i input.txt보코더 설정은 config.yaml 파일을 확인하십시오.
운이 좋으면 오디오 예제는 출력 폴더에서 찾을 수 있습니다.