YourTTS 다운로드 - YourTTS 소스 코드 다운로드

YourTTS

AI 소스 코드

MOS Samples

다운로드

Yourtts : 모든 사람을위한 제로 샷 멀티 스피커 TT 및 제로 샷 음성 변환으로

최근 논문에서 우리는 Yourtts 모델을 제안합니다. Yourtts는 제로 샷 멀티 스피커 TTS의 작업에 다국어 접근의 힘을 제공합니다. 우리의 방법은 VITS 모델을 기반으로하며 제로 샷 멀티 스피커 및 다국어 교육에 대한 몇 가지 새로운 수정을 추가합니다. 우리는 최첨단 (SOTA) 결과를 제로 샷 멀티 스피커 TTS로 달성했으며 VCTK 데이터 세트의 제로 샷 음성 변환에서 SOTA와 비교할 수있는 결과를 달성했습니다. 또한, 우리의 접근 방식은 단일 스피커 데이터 세트를 사용하여 대상 언어를 유망한 결과로 달성하여 제로 샷 멀티 스피커 TTS 및 제로 샷 음성 변환 시스템의 가능성을 열망합니다. 마지막으로, 1 분 미만의 음성으로 YourTTS 모델을 미세 조정하고 성우 유사성과 합리적인 품질로 최첨단 결과를 달성 할 수 있습니다. 이것은 훈련 중에 보이는 것과는 매우 다른 음성 또는 녹음 특성을 가진 스피커의 합성을 허용하는 데 중요합니다.

오자

Yourtts 논문의 2 장에서는 스피커 일관성 손실 (SCL) 기능을 정의했습니다. 또한, 우리는 섹션 3 및 4에서 4 개의 미세 조정 실험 (Exp. 1 + SCL, Exp. 2 + SCL, Exp. 3 + SCL 및 Exp. 4 + SCL) 에서이 손실 기능을 사용했습니다. 그러나 구현 실수로 인해이 손실 함수의 기울기는 교육 중 모델에 대해 전파되지 않았습니다. 이 손실을 사용한 미세 조정 실험은 스피커 일관성 손실없이 더 많은 단계를 위해 모델을 훈련하는 것과 같습니다. 이 버그는 Tomáš Nekvinda에 의해 발견되었으며 Coqui TTS 저장소의 2348 호에 대해보고했습니다. 이 버그는 Coqui TTS 저장소의 풀 요청 번호 2364에 고정되었습니다. 현재 Coqui TTS 버전 v0.12.0 이상에 고정되어 있습니다. 버그를 찾아보고 한 Tomáš Nekvinda에게 감사의 말씀을 전합니다.

생산 버전

최신의 가장 위대한 풀 밴드 영어 유일한 모델 https://coqui.ai/를 시도하십시오.

오디오 샘플

오디오 샘플은 웹 사이트를 방문하십시오.

구현

우리의 모든 실험은 Coqui TTS Repo에서 구현되었습니다.

콜랩 데모

데모	URL
제로 샷 tts	링크
제로 샷 VC	링크
Zero -Shot VC- 실험 1 (VCTK로 훈련)	링크

검문소

출시 된 모든 체크 포인트는 CC By-NC-ND 4.0에 따라 라이센스가 부여됩니다.

모델	URL
스피커 인코더	링크
Exp 1. Yourtts-en (VCTK)	사용할 수 없습니다
Exp 1. Yourtts-en (VCTK) + SCL	링크
Exp 2. Yourtts-en (vctk) -pt	사용할 수 없습니다
Exp 2. Yourtts-en (vctk) -pt + scl	사용할 수 없습니다
Exp 3. Yourtts-en (vctk) -pt-fr	사용할 수 없습니다
Exp 3. Yourtts-en (VCTK) -PT-FR SCL	사용할 수 없습니다
Exp 4. Yourtts-en (vctk+libritts) -pt-fr scl	사용할 수 없습니다

Coqui tts 릴리스 모델

TTS

사용하려면? TTS 버전 v0.7.0 텍스트 음성 연사용 Yourtts 모델 릴리스 다음 명령을 사용하십시오.

 tts  --text "This is an example!" --model_name tts_models/multilingual/multi-dataset/your_tts  --speaker_wav target_speaker_wav.wav --language_idx "en"

대상 스피커의 "Target_speaker_wav.wav"를 고려합니다.

음성 변환

사용하려면? TTS는 음성 변환을위한 YourTts 모델을 출시했습니다. 다음 명령을 사용합니다.

 tts --model_name tts_models/multilingual/multi-dataset/your_tts  --speaker_wav target_speaker_wav.wav --reference_wav  target_content_wav.wav --language_idx "en"

"target_content_wav.wav"를 참조 웨이브 파일로 고려하여 "target_speaker_wav.wav"스피커의 음성으로 변환합니다.

결과 복제 가능성

복제 성을 보장하기 위해 여기에서 사용 가능한 MOS를 생성하는 데 사용되는 오디오를 만듭니다. 또한 각 오디오에 대한 MOS를 제공합니다.

MOS 결과를 재생하려면 여기에서 지침을 따르십시오. 테스트 문장을 예측하고 SEC를 생성하려면 여기에서 사용 가능한 Jupyter 노트북을 사용하십시오.

테스트 스피커 :

Libritts (Test Clean) : 1188, 1995, 260, 1284, 2300, 237, 908, 1580, 121 및 1089

VCTK : p261, p225, p294, p347, p238, p234, p248, p335, p245, p326 및 p302

MLS 포르투갈어 : 12710, 5677, 12249, 12287, 9351, 11995, 7925, 3050, 4367 및 1306

재현성

실험 1을 완전히 복제하기 위해 우리는 공동 조리법을 제공합니다. 이 레시피 다운로드, 재 샘플, 스피커 임베딩을 추출하고 코드의 변경없이 모델을 훈련시킵니다.

이 기사는 다국적 다국어-토르 치오-세이의 Coqui tts 포크를 사용하여 만들어졌습니다.

최신 버전의 coqui tts를 사용하려면 Coqui 릴리스 모델에서 config.json을 얻을 수 있습니다.

config.json을 사용하면 먼저 "데이터 세트"구성을 데이터 세트로 변경해야합니다. Config.json을 사용하여 "DataSets"구성 조정 된 Config.json python3 TTS/bin/compute_embeddings.py --model_path model_se.pth.tar --config_path config_se.json --config_dataset_path config.json --output_path d_vector_file.json 사용하여 다음 명령을 사용하여 릴리스 된 스피커 인코더를 사용하여 스피커 임베드를 추출해야합니다. python3 TTS/bin/compute_embeddings.py --model_path model_se.pth.tar --config_path config_se.json --config_dataset_path config.json --output_path d_vector_file.json

"model_se.pth.tar"및 "config_se.json"은 Coqui 릴리스 모델에서 찾을 수 있으며 config.json은 경로를 설정 한 구성입니다.

변경 해야하는 다른 매개 변수는 "config.json"에 있습니다.

"d_vector_file": 이제 스피커 임베딩 파일 (d_vector_file.json)이 있으므로 구성 설정에서 "d_vector_file"매개 변수를 스피커 임베딩 파일의 경로로 조정하십시오.
"output_path": 체크 포인트 저장 및 교육 로그를위한 경로
"speaker_encoder_config_path": 스피커 코사인 유사성 손실/스피커 일관성 손실을 계산하는 데 사용하는 스피커 인코더 구성 (config_se.json 경로로 설정)
"speaker_encoder_model_path": 스피커 코사인 유사성 손실/스피커 일관성 손실을 계산하는 데 사용되는 스피커 인코더 체크 포인트 ( "config_se.json"경로로 설정)

이제 config.json이 교육을 복제하도록 구성되어 있으므로 다음 명령을 사용할 수 있습니다 (좋아하는 경우 -restore_path {checkpoint_path}를 사용하여 체크 포인트에서 학습을 전송하고 교육 속도를 높일 수 있습니다 : python3 TTS/bin/train_tts.py --config_path config.json

소환

프리 인쇄


@ARTICLE{2021arXiv211202418C,
  author = {{Casanova}, Edresson and {Weber}, Julian and {Shulby}, Christopher and {Junior}, Arnaldo Candido and {G{"o}lge}, Eren and {Antonelli Ponti}, Moacir},
  title = "{YourTTS: Towards Zero-Shot Multi-Speaker TTS and Zero-Shot Voice Conversion for everyone}",
  journal = {arXiv e-prints},
  keywords = {Computer Science - Sound, Computer Science - Computation and Language, Electrical Engineering and Systems Science - Audio and Speech Processing},
  year = 2021,
  month = dec,
  eid = {arXiv:2112.02418},
  pages = {arXiv:2112.02418},
  archivePrefix = {arXiv},
  eprint = {2112.02418},
  primaryClass = {cs.SD},
  adsurl = {https://ui.adsabs.harvard.edu/abs/2021arXiv211202418C},
  adsnote = {Provided by the SAO/NASA Astrophysics Data System}
}

ICML에 게시 된 논문

 @inproceedings{casanova2022yourtts,
  title={Yourtts: Towards zero-shot multi-speaker tts and zero-shot voice conversion for everyone},
  author={Casanova, Edresson and Weber, Julian and Shulby, Christopher D and Junior, Arnaldo Candido and G{"o}lge, Eren and Ponti, Moacir A},
  booktitle={International Conference on Machine Learning},
  pages={2709--2720},
  year={2022},
  organization={PMLR}
}

확장하다

추가 정보