daisy tts
1.0.0
Rendi Chevi , Alham Fikri Aji
MBZUAI
? 종이 링크 | ? 프로젝트 페이지 | ? 코드가 곧 나옵니다!
우리는 종종 다각적 인 방식으로 감정을 구두로 표현하며, 강도가 다를 수 있으며 단일뿐만 아니라 감정의 혼합으로 표현 될 수 있습니다. 이 광범위한 감정은 감정의 구조적 모델에서 잘 연구되며, 이는 다양한 감정을 다양한 정도의 강도를 가진 일차 감정의 파생 상품으로 나타냅니다. 이 논문에서는 구조적 모델에 근거한 더 넓은 감정을 시뮬레이션하기 위해 감정적 인 텍스트 음성 연설 설계를 제안합니다. 우리의 제안 된 디자인 인 Daisy-Tts는 감정을위한 프록시로 감정적으로 분리 할 수있는 프로디를 배울 수있는 프로디 인코더를 통합합니다. 이 감정 표현은 (1) 훈련 샘플에서 배운 1 차 감정, (2) 1 차 감정의 혼합, (3) 감정 임베딩을 스케일링함으로써 강도 수준의 혼합, (4) 감정을 부정함으로써 감정을 부정함으로써 일차 감정, (2) 2 차 감정, (3) 강도 수준의 일차 감정을 시뮬레이션 할 수있게한다. 일련의 지각 평가를 통해 Daisy-TTS는 기준선에 비해 전반적으로 높은 감정적 언어 자연과 감정 지각 성을 보여주었습니다.