Multi Tacotron Voice Cloning
1.0.0
이 저장소는 실시간 음성 클로닝을 기반으로 한 음성 다국어 (러시아어) 구현입니다. 4 단계 딥 러닝 프레임 워크로, 몇 초 동안 오디오에서 음성을 수치 적으로 표현하고 텍스트 음성 변환 모델을 조절할 수 있습니다. 영어 버전이 필요한 경우 원래 구현을 사용하십시오.
이 저장소는 실시간 음성 클로닝을 기반으로 한 다국어 (러시아-영어) 음성 구현입니다. 그것은 몇 초의 소리에서 음성을 수치 적으로 표현할 수있는 4 개의 신경망으로 구성되어 있으며이를 사용하여 텍스트를 음성으로 변환하기위한 모델을 만듭니다.
Colab 온라인 데모를 사용하십시오
도구 상자를 사용하여 모델을 재교육하기 위해 다음과 같은 Whather가 필요합니다.
≥Python 3.6 .
Pytorch (> = 1.0.1).
필요한 패키지를 설치하려면 pip install -r requirements.txt 실행합니다.
GPU는 필수이지만 도구 상자를 사용하려면 반드시 높은 계층 GPU가 필요합니다.
최신 Geere를 다운로드하십시오.
| 이름 | 언어 | 링크 | 의견 | 내 링크 | 의견 |
|---|---|---|---|---|---|
| 음소 사전 | ko, ru | ko, ru | 음소 사전 | 링크 | 러시아와 영어 음성 사전 결합 |
| librispeech | en | 링크 | 300 명의 스피커, 360H 깨끗한 연설 | ||
| Voxceleb | en | 링크 | 7000 명의 스피커, 많은 시간이 나쁜 연설 | ||
| m- 아일 랩 | ru | 링크 | 3 개의 스피커, 46H 깨끗한 연설 | ||
| Open_tts, Open_stt | ru | Open_tts, Open_stt | 많은 스피커, 많은 시간이 나쁘다 | 링크 | 한 스피커의 4 시간 연설을 청소했습니다. 부문을 수정하고, 최대 7 초의 세그먼트로 나뉩니다. |
| Voxforge+오디오 북 | ru | 링크 | 많은 스피커, 25 시간 다양한 품질 | 링크 | 좋은 파일을 선택했습니다. 세그먼트에 헤어졌다. 인터넷에서 오디오 북을 추가했습니다. 각각 몇 분에 200 명의 스피커가 나타났습니다. |
| 루슬란 | ru | 링크 | 하나의 스피커, 40h 좋은 연설 | 링크 | 16kHz에서 수정되었습니다 |
| 모질라 | ru | 링크 | 50 스피커, 30H 좋은 연설 | 링크 | 16kHz로 개척되어 폴더에 다른 사용자를 흩어 버렸습니다 |
| 러시아 싱글 | ru | 링크 | 한 스피커, 9H 좋은 연설 | 링크 | 16kHz에서 수정되었습니다 |
도구 상자를 시도 할 수 있습니다.
python demo_toolbox.py -d <datasets_root>
또는
python demo_toolbox.py
사전 예방 모델
훈련 (및 기타 언어)
훈련 (및 기타 언어)
질문이 있으시면 Mem에게 이메일을 보내주십시오
| URL | 지정 | 제목 | 구현 소스 |
|---|---|---|---|
| 1806.04558 | SV2TTS | 스피커 검증에서 멀티 스피커 텍스트 음성 연사 합성으로 학습을 전송합니다 | Corentinj |
| 1802.08435 | wavernn (보코더) | 효율적인 오디오 합성 | Fatchord/Wavernn |
| 1712.05884 | 타코트론 2 (신시사이저) | Mel Spectrogram 예측에 컨디셔닝 웨이브 넷에 의한 천연 TTS 합성 | Rayhane-Mamah/Tacotron-2 |
| 1710.10467 | GE2E (인코더) | 스피커 검증을위한 일반화 된 엔드 투 엔드 손실 | Corentinj |