sane tts
1.0.0
저자 : Hyunjae Cho, Wonbin Jung, Junhyeok Lee, Sang Hoon Woo @Mindslab Inc.
초록 : 이 논문에서는 안정적이고 자연스러운 엔드 투 엔드 다국어 TTS 모델 인 Sane-TTS를 제시합니다. 주어진 스피커를 위해 다국어 코퍼스를 얻는 데 어려움이 있기 때문에, 단일 언어 Corpora를 사용한 다국어 TTS 모델 교육은 피할 수 없습니다. 우리는 다른 다국어 TTS 모델에 적용되는 도메인 적대적 훈련뿐만 아니라 문구 간 합성 동안 음성 자연을 향상시키는 스피커 정규화 손실을 소개합니다. 또한, 스피커 정규화 손실을 추가함으로써, 기간 예측 변수에서 스피커 임베딩을 제로 벡터로 대체하면 교차 언어 추론을 안정화시킨다. 이 교체를 통해 우리의 모델은 교차 종합 합성에서 소스 스피커에 관계없이 적당한 리듬으로 음성을 생성합니다. MOS 평가에서, Sane-TTS는 지상 진실 점수가 3.99 인 Cross-LINGAL 및 Intralingual Synthesis에서 3.80 이상의 자연 점수를 달성합니다. 또한, Sane-TTS는 언어 간 추론에서도 지상 진실의 유사성에 가까운 화자 유사성을 유지합니다. 오디오 샘플은 웹 페이지에서 사용할 수 있습니다.
| 훈련 절차 | 추론 절차 |
|---|---|
![]() | ![]() |