e3 vits
1.0.0
샘플은 github 페이지로 제공됩니다 !!!
제목 : e3-vits : 교차 스피커 스타일 전송이있는 감정적 인 종단 tts (종이 링크)
초록 : 이전의 감정 TTS 모델은 2 단계 파이프 라인 또는 추가 레이블을 기반으로하기 때문에 교육 프로세스는 복잡하며 높은 라벨링 비용이 필요합니다. 이 문제를 해결하기 위해이 논문은 기존 모델의 한계를 다루는 엔드 투 엔드 감성 TTS 모델 인 E3-VIT를 제시합니다. E3-VITS는 다중 스피커 조건에 대한 고품질의 음성을 종합하고, 기준 음성 및 텍스트 설명 기반 감정적 음성 합성을 모두 지원하며, 분리 된 데이터 세트로 교차 스피커 감정 전달을 가능하게합니다. E3-Vits를 구현하기 위해, 우리는 배치 투사 스타일 섭동을 제안하는데, 이는 교차 스피커 감정 전달의 품질을 높이기 위해 짝을 이루지 않은 감정을 가진 오디오 샘플을 생성합니다. 결과에 따르면 E3-Vits는 자연성, 스피커 및 감정 유사성 및 추론 속도 측면에서 기준 모델보다 성능이 뛰어납니다.