최근 논문에서 우리는 Yourtts 모델을 제안합니다. Yourtts는 제로 샷 멀티 스피커 TTS의 작업에 다국어 접근의 힘을 제공합니다. 우리의 방법은 VITS 모델을 기반으로하며 제로 샷 멀티 스피커 및 다국어 교육에 대한 몇 가지 새로운 수정을 추가합니다. 우리는 최첨단 (SOTA) 결과를 제로 샷 멀티 스피커 TTS로 달성했으며 VCTK 데이터 세트의 제로 샷 음성 변환에서 SOTA와 비교할 수있는 결과를 달성했습니다. 또한, 우리의 접근 방식은 단일 스피커 데이터 세트를 사용하여 대상 언어를 유망한 결과로 달성하여 제로 샷 멀티 스피커 TTS 및 제로 샷 음성 변환 시스템의 가능성을 열망합니다. 마지막으로, 1 분 미만의 음성으로 YourTTS 모델을 미세 조정하고 성우 유사성과 합리적인 품질로 최첨단 결과를 달성 할 수 있습니다. 이것은 훈련 중에 보이는 것과는 매우 다른 음성 또는 녹음 특성을 가진 스피커의 합성을 허용하는 데 중요합니다.
Yourtts 논문의 2 장에서는 스피커 일관성 손실 (SCL) 기능을 정의했습니다. 또한, 우리는 섹션 3 및 4에서 4 개의 미세 조정 실험 (Exp. 1 + SCL, Exp. 2 + SCL, Exp. 3 + SCL 및 Exp. 4 + SCL) 에서이 손실 기능을 사용했습니다. 그러나 구현 실수로 인해이 손실 함수의 기울기는 교육 중 모델에 대해 전파되지 않았습니다. 이 손실을 사용한 미세 조정 실험은 스피커 일관성 손실없이 더 많은 단계를 위해 모델을 훈련하는 것과 같습니다. 이 버그는 Tomáš Nekvinda에 의해 발견되었으며 Coqui TTS 저장소의 2348 호에 대해보고했습니다. 이 버그는 Coqui TTS 저장소의 풀 요청 번호 2364에 고정되었습니다. 현재 Coqui TTS 버전 v0.12.0 이상에 고정되어 있습니다. 버그를 찾아보고 한 Tomáš Nekvinda에게 감사의 말씀을 전합니다.
최신의 가장 위대한 풀 밴드 영어 유일한 모델 https://coqui.ai/를 시도하십시오.
오디오 샘플은 웹 사이트를 방문하십시오.
우리의 모든 실험은 Coqui TTS Repo에서 구현되었습니다.
| 데모 | URL |
|---|---|
| 제로 샷 tts | 링크 |
| 제로 샷 VC | 링크 |
| Zero -Shot VC- 실험 1 (VCTK로 훈련) | 링크 |
출시 된 모든 체크 포인트는 CC By-NC-ND 4.0에 따라 라이센스가 부여됩니다.
| 모델 | URL |
|---|---|
| 스피커 인코더 | 링크 |
| Exp 1. Yourtts-en (VCTK) | 사용할 수 없습니다 |
| Exp 1. Yourtts-en (VCTK) + SCL | 링크 |
| Exp 2. Yourtts-en (vctk) -pt | 사용할 수 없습니다 |
| Exp 2. Yourtts-en (vctk) -pt + scl | 사용할 수 없습니다 |
| Exp 3. Yourtts-en (vctk) -pt-fr | 사용할 수 없습니다 |
| Exp 3. Yourtts-en (VCTK) -PT-FR SCL | 사용할 수 없습니다 |
| Exp 4. Yourtts-en (vctk+libritts) -pt-fr scl | 사용할 수 없습니다 |
사용하려면? TTS 버전 v0.7.0 텍스트 음성 연사용 Yourtts 모델 릴리스 다음 명령을 사용하십시오.
tts --text "This is an example!" --model_name tts_models/multilingual/multi-dataset/your_tts --speaker_wav target_speaker_wav.wav --language_idx "en"
대상 스피커의 "Target_speaker_wav.wav"를 고려합니다.
사용하려면? TTS는 음성 변환을위한 YourTts 모델을 출시했습니다. 다음 명령을 사용합니다.
tts --model_name tts_models/multilingual/multi-dataset/your_tts --speaker_wav target_speaker_wav.wav --reference_wav target_content_wav.wav --language_idx "en"
"target_content_wav.wav"를 참조 웨이브 파일로 고려하여 "target_speaker_wav.wav"스피커의 음성으로 변환합니다.
복제 성을 보장하기 위해 여기에서 사용 가능한 MOS를 생성하는 데 사용되는 오디오를 만듭니다. 또한 각 오디오에 대한 MOS를 제공합니다.
MOS 결과를 재생하려면 여기에서 지침을 따르십시오. 테스트 문장을 예측하고 SEC를 생성하려면 여기에서 사용 가능한 Jupyter 노트북을 사용하십시오.
Libritts (Test Clean) : 1188, 1995, 260, 1284, 2300, 237, 908, 1580, 121 및 1089
VCTK : p261, p225, p294, p347, p238, p234, p248, p335, p245, p326 및 p302
MLS 포르투갈어 : 12710, 5677, 12249, 12287, 9351, 11995, 7925, 3050, 4367 및 1306
실험 1을 완전히 복제하기 위해 우리는 공동 조리법을 제공합니다. 이 레시피 다운로드, 재 샘플, 스피커 임베딩을 추출하고 코드의 변경없이 모델을 훈련시킵니다.
이 기사는 다국적 다국어-토르 치오-세이의 Coqui tts 포크를 사용하여 만들어졌습니다.
최신 버전의 coqui tts를 사용하려면 Coqui 릴리스 모델에서 config.json을 얻을 수 있습니다.
config.json을 사용하면 먼저 "데이터 세트"구성을 데이터 세트로 변경해야합니다. Config.json을 사용하여 "DataSets"구성 조정 된 Config.json python3 TTS/bin/compute_embeddings.py --model_path model_se.pth.tar --config_path config_se.json --config_dataset_path config.json --output_path d_vector_file.json 사용하여 다음 명령을 사용하여 릴리스 된 스피커 인코더를 사용하여 스피커 임베드를 추출해야합니다. python3 TTS/bin/compute_embeddings.py --model_path model_se.pth.tar --config_path config_se.json --config_dataset_path config.json --output_path d_vector_file.json
"model_se.pth.tar"및 "config_se.json"은 Coqui 릴리스 모델에서 찾을 수 있으며 config.json은 경로를 설정 한 구성입니다.
변경 해야하는 다른 매개 변수는 "config.json"에 있습니다.
이제 config.json이 교육을 복제하도록 구성되어 있으므로 다음 명령을 사용할 수 있습니다 (좋아하는 경우 -restore_path {checkpoint_path}를 사용하여 체크 포인트에서 학습을 전송하고 교육 속도를 높일 수 있습니다 : python3 TTS/bin/train_tts.py --config_path config.json
@ARTICLE{2021arXiv211202418C,
author = {{Casanova}, Edresson and {Weber}, Julian and {Shulby}, Christopher and {Junior}, Arnaldo Candido and {G{"o}lge}, Eren and {Antonelli Ponti}, Moacir},
title = "{YourTTS: Towards Zero-Shot Multi-Speaker TTS and Zero-Shot Voice Conversion for everyone}",
journal = {arXiv e-prints},
keywords = {Computer Science - Sound, Computer Science - Computation and Language, Electrical Engineering and Systems Science - Audio and Speech Processing},
year = 2021,
month = dec,
eid = {arXiv:2112.02418},
pages = {arXiv:2112.02418},
archivePrefix = {arXiv},
eprint = {2112.02418},
primaryClass = {cs.SD},
adsurl = {https://ui.adsabs.harvard.edu/abs/2021arXiv211202418C},
adsnote = {Provided by the SAO/NASA Astrophysics Data System}
}
@inproceedings{casanova2022yourtts,
title={Yourtts: Towards zero-shot multi-speaker tts and zero-shot voice conversion for everyone},
author={Casanova, Edresson and Weber, Julian and Shulby, Christopher D and Junior, Arnaldo Candido and G{"o}lge, Eren and Ponti, Moacir A},
booktitle={International Conference on Machine Learning},
pages={2709--2720},
year={2022},
organization={PMLR}
}