멋진 tts 샘플
저자가 제공 한 오디오 샘플이있는 TTS 논문 목록. 각 용지의 마지막 행은 스펙트로 그램 반전 (보코더)을 사용합니다.
중요한 TTS 논문의보다 포괄적 인 목록을 보려면 Zhengxi Liu가 작성한 XCMYZ/Speech-Synthesis-Paper를 읽는 것이 좋습니다.
2020
- Fastpitch-Fastpitch : 피치 예측이있는 병렬 텍스트 음성
- https://fastpitch.github.io/
- 웨이브 글로우
- 식사-엔드 투 엔드 적대적 텍스트 음주
- https://deepmind.com/research/publications/end-to-end-adversarial-text-speech
- 엔드 투 엔드 모델
- GLOW-TTS-GLOW-TTS : 단조 정렬 검색을 통한 텍스트 음성 연설을위한 생성 흐름
- https://jaywalnut310.github.io/glow-tts-mo
- 웨이브 글로우
- FlowTron-Flowtron : 텍스트 음성 합성을위한 자동 회귀 유량 기반 생성 네트워크
- https://nv-adlr.github.io/flowtron
- 웨이브 글로우
2019
- Tacotron2+DCA- 강력한 긴 형태의 음성 합성을위한 위치 관련주의 메커니즘
- https://google.github.io/tacotron/publications/location_relative_attention
- Wavernn
- GAN -TTS- 대적 네트워크를 사용한 고 충실도 음성 합성
- https://storage.googleapis.com/deepmind-media/research/abstract.wav
- 엔드 투 엔드 모델 (200Hz 언어 및 로그 피치 기능 위에 구축)
- 다국적 타코트론 2- 외국어로 유창하게 말하는 법 : 다국어 연설 합성 및 교차 음성 복제
- https://google.github.io/tacotron/publications/multingular
- Wavernn
- Melnet -Melnet : 주파수 도메인의 오디오를위한 생성 모델
- https://audio-samples.github.io
- https://sjvasquez.github.io/blog/melnet
- 그라디언트 기반 스펙트로 그램 반전
- FastSpeech -Fastspeech : 빠르고 강력하며 통제 가능한 텍스트에 대한 텍스트
- https://speechresearch.github.io/fastspeech
- 웨이브 글로우
- Paranet- 병렬 신경 텍스트 음성
- https://parallel-neural-tts-demo.github.io
- Wavevae, Clarinet, Wavenet
2018
- 변압기 TTS- 변압기 네트워크를 통한 신경 음성 합성
- https://neuraltts.github.io/transformertts
- Wavenet
- 멀티 스피커 Tacotron2- 스피커 검증에서 멀티 스피커 텍스트 음성 연사 합성으로 전송 학습
- https://google.github.io/tacotron/publications/speaker_adaptation
- Wavenet
- Tacotron2+GST- 스타일 토큰 : 감독되지 않은 스타일 모델링, 제어 및 엔드 투 엔드 음성 합성 전송
- https://google.github.io/tacotron/publications/global_style_tokens
- 그리핀-림
2017
- Tacotron2- Mel Spectrogram 예측에서 조절 마수에 의한 천연 TTS 합성
- https://google.github.io/tacotron/publications/tacotron2
- Wavenet
- 타코트론-타코트론 : 엔드 투 엔드 음성 합성을 향해
- https://google.github.io/tacotron/publications/tacotron
- 그리핀-림
기여
TODO