최첨단 음성 합성 , TTS (Text-Steece) , 노래 음성 합성 (SVS) , 음성 변환 (VC ), 노래 음성 변환 (SVC) 및 관련 흥미로운 작품 (예 : 음악 합성 , 자동 음악 전사 , 자동 MOS 예측 , SSL 기반 ASR , 등)에 대한 종이 및 프로젝트 목록.
논문과 작품을 업데이트하려면 PR에 오신 것을 환영하거나 이메일 ([email protected])을 통해 저에게 연락하십시오.
IEEE/ACM TASLP, IEEE JSTSP, JSLHR, IEEE TPAMI
Neuraips, ICLR, ICML, IJAI, AAAI, ACL, NAACL, EMNLP, ISMIR, ACM MM, ICASSP, Interspeech, ICME
ASRU, SLT
[ 2022 ]
LEARN2SING 2.0 : 노래 교사로부터 배우는 확산 및 상호 정보 기반 목표 스피커 SV | Interspeech 2022 | ✔️ 코드 | 데모
원샷 노래 음성 변환을위한 계층 적 스피커 표현 프레임 워크 | Interspeech 2022 | 데모
고조파 신호로의 부적 파형 생성 기반 노래 음성 변환 개선 | ICASSP 2022 | 데모
[ 2021 ]
DIFFSVC : 노래 음성 변환을위한 확산 확률 모델 | ASRU 2021 | 데모
어셈블리 vc를 통한 제어 가능하고 해석 가능한 노래 음성 분해 | Neurips 2021 워크숍 | 데모
음향 참조 및 대조적 예측 코딩으로 고 충실도 노래 음성 변환을 향해 | 2021/10 | 데모
FASTSVC : 기능 별 선형 변조로 패스트 크로스 도메인 노래 음성 변환 | ICME 2021 | 데모
피치 확대 및 2 상 접근을 사용한 감독되지 않은 Wavenet 기반 노래 음성 변환 | 2021/07 | ✔️ 코드 | 데모
[ 2020 ]
제로 샷 노래 음성 변환 | ISMIR 2020 | 데모
적대적인 훈련을 통한 다수의 노래 음성 변환에 기반한 발음 후방 그램 | 2020/12 | 데모 | 비공식 코드
Durian-SC : 기간 정보주의 네트워크 기반 노래 음성 변환 시스템 | Interspeech 2020 | 데모
감독되지 않은 크로스 도메인 노래 음성 변환 | Interspeech 2020 | 데모
피치 넷 : 피치 적대적 네트워크로 감독되지 않은 노래 음성 변환 | ICASSP 2020 | 데모
비 평면 훈련 데이터로 음성 변환을 노래하기위한 VAW-GAN | APSIPA 2020 | ✔️ 코드 | 데모
M4SINGER : 멀티 스타일, 멀티 스싱싱 및 악보가 Mandarin 노래 코퍼스를 제공했습니다 | Neurips 2022 | ? 적용 및 다운로드 | 데모
NUS-48E 가사 코퍼스 | ? 적용 및 다운로드
NHSS : 연설 및 노래 평행 데이터베이스 | ? 적용 및 다운로드
[ 2022 ]
[ 2021 ]
노래 기술 분류에서 오디오 기능 추출에 대한 시간 주파수 표현 조사 | APSIPA 2021
제로 샷 노래 기술 변환 | CMMR 2021
[ 2022 ]
시끄러운 대상 스피커에 대한 고품질 음성 변환에 대한 소음 독립적 인 음성 표현 학습 | Interspeech 2022 | 데모
Glow-Wavegan 2 : 고품질의 제로 샷 텍스트 음성 연사 합성 및 모든 대음 음성 변환 | Interspeech 2022 | 데모
빠른 최대 가능성 샘플링 방식으로 확산 기반 음성 변환 | ICLR 2022 | ✔️ 코드 | 데모
Yourtts : 모든 사람을위한 제로 샷 멀티 스피커 TT 및 제로 샷 음성 변환으로 | ICML 2022 | ✔️ 코드 | 데모 | 데모 | 블로그
자기 감독 된 음성 표현 기반 음성 변환에 대한 비교 연구 | IEEE JSTSP 2022/07
S3PRL-VC : 자체 감독 음성 표현을 갖춘 오픈 소스 음성 변환 프레임 워크 | ICASSP 2022 | code
개선 된 음성 변환을위한 개별적이고 부드러운 음성 유닛의 비교 | ICASSP 2022 | ✔️ 코드 | 데모
어셈블리 -VC : 현대의 음성 합성 기술을 조립하여 현실적인 음성 변환 | ICASSP 2022 | ✔️ 코드 | 데모
NVC-NET : 엔드 투 엔드 대적 음성 변환 | ICASSP 2022 | ✔️ 코드 | 데모
제로 샷 음성 변환에 대한 강력한 분리 된 변형 음성 표현 학습 | ICASSP 2022 | 데모
자체 감독 기능을 갖춘 강력한 제로 샷 음성 변환 모델 교육 | ICASSP 2022 | 데모
퇴화 로버스 음성 변환을 향해 | ICASSP 2022
DGC 벡터 : 제로 샷 음성 변환을위한 새로운 스피커 임베딩 | ICASSP 2022 | 데모
위치 변수 컨볼 루션이있는 엔드 투 엔드 제로 샷 음성 스타일 전송 | 2022/05 | 데모
[ 2021 ]
ASR+TTS 기반 음성 변환에 대한 프로디 모델링 | ASRU 2021 | 데모
신경 분석 및 합성 : 자기 감독 된 표현에서 말하기 | Neurips 2021 | 데모 | 비공식 코드
MediumVC : 중개 기능으로 합성 별 말 음성을 사용한 모든 대형 음성 변환 | 2021/10 | ✔️ 코드 | 데모
Starganv2-VC : 자연스러운 소리를내는 음성 변환을위한 다양하고 감독되지 않은 비 평란드 프레임 워크 | Interspeech 2021 최고의 종이 상 | ✔️ 코드 | 데모
S2VC : 자체 감독 된 사전 예방 표현으로 모든 목소리 변환을위한 프레임 워크 | Interspeech 2021 | ✔️ 코드 | 데모
Variational Autoencoder를 사용한 다수의 음성 변환 기반 기능 분리 | Interspeech 2021 | ✔️ 코드 | 데모
불연속 분해 된 자기 감독 표현으로부터의 음성 재현 | Interspeech 2021 | 데모
분리 된 표현 학습을 통한 제로 샷 음성 스타일 전송 개선 | ICLR 2021
텍스트 전사가없는 글로벌 리듬 스타일 전송 | ICML 2021 | code
Again-VC : 활성화 안내 및 적응 인스턴스 정규화를 사용한 원샷 음성 변환 | ICASSP 2021 | ✔️ 코드 | 데모
위치 관계 시퀀스-시퀀스 모델링을 사용한 모든 대형 음성 변환 | IEEE/ACM TASLP 2021/05 | ✔️ 코드 | 데모
[ 2020 ]
음성 변환 및 그 과제에 대한 개요 : 통계 모델링에서 딥 러닝에 이르기까지 | IEEE/ACM TASLP 2020/11
트리플 정보 병목 현상을 통한 감독되지 않은 음성 분해 | ICML 2020 | code
[ 2019 ]
스피커 및 컨텐츠 표현을 인스턴스 정규화로 분리하여 원샷 음성 변환 | Interspeech 2019 | code
AUTOVC : Autoencoder 손실 만있는 제로 샷 음성 스타일 전송 | ICML 2019 | ✔️ 코드 | 데모
CSTR VCTK 코퍼스 : CSTR 음성 클로닝 툴킷을위한 영어 멀티 스피커 코퍼스 | 2019 | ? 적용 및 다운로드
AISHELL-3 : 멀티 스피커 만다린 TTS 코퍼스 및 기준선 | 2020 | ? 적용 및 다운로드 | 데모
AISHELL-2 : 산업 규모로의 만다린 ASR 연구 변환 | 2018 | ? 적용 및 다운로드
Aishell-1 : 오픈 소스 만다린 연설 코퍼스 및 음성 인식 기준 | 2017 | ? 적용 및 다운로드
[ 2022 ]
표현적인 음성 변환을위한 감정적 스타일과 스피커 정체성의 분리 | Interspeech 2022 | 데모
엔드 투 엔드 언어 합성에 대한 프로디 보상에 기반한 교차 스피커 감정 전달 | Interspeech 2022 | 데모
감정 강도와 감정 목소리 전환에 대한 통제 | 정서적 컴퓨팅에 대한 IEEE 거래 2022/07 | ✔️ 코드 | 데모
개별적이고 분해 된 표현을 사용한 텍스트없는 음성 감정 전환 | 202202 | 데모
[ 2021 ]
[ 2020 ]
다른 사람의 감정 전환 : 화자 독립적 인 감정적 목소리 전환으로 | Interspeech 2020 | ✔️ 코드 | 데모
비 평행 훈련 데이터로 감정적 인 음성 전환을위한 스펙트럼과 번영 | 오디세이 2020 | ✔️ 코드 | 데모
[ 2022 ]
Muskits : 음성 합성 노래를위한 엔드 투 엔드 음악 처리 툴킷 | Interspeech 2022 | code
SINAUG :주기 일관성 훈련 전략으로 음성 합성 노래를위한 데이터 증강 | Interspeech 2022 | code
Wesinger : 보조 손실로 데이터를 사용하는 노래 음성 합성 | Interspeech 2022 | 데모
Wesinger 2 : 다중 스싱싱 조건부 적대 훈련을 통한 완전히 평행 한 노래 음성 합성 | 2022/08 | 데모
노래 정보 처리 주제에서 딥 러닝 접근법 | IEEE/ACM TASLP 2022/07
노래의 아름다움 배우기 : 신경 노래 목소리 미용사 | ACL 2022 | ✔️ 코드 | 데모
Diffsinger : 얕은 확산 메커니즘을 통한 노래 음성 합성 노래 | AAAI 2022 | ✔️ 코드 | 데모
[ 2021 ]
[ 2020 ]
M4SINGER : 멀티 스타일, 멀티 스싱싱 및 악보가 Mandarin 노래 코퍼스를 제공했습니다 | Neurips 2022 | ? 적용 및 다운로드 | 데모
POPCS | AAAI 2022 | ? 적용 및 다운로드
Opencpop : 노래 음성 합성을위한 고품질 오픈 소스 중국어 인기 노래 코퍼스 | Interspeech 2022 | ? 적용 및 다운로드
[ 2022 ]
프로디 프 : 고품질 텍스트 음성 연설을위한 점진적인 빠른 확산 모델 | ACM MM 2022 | ✔️ 코드 | 데모
BDDM : 빠르고 고품질의 음성 합성을위한 양자 거부 확산 모델 | ICLR 2022 | ✔️ 코드 | 데모
FASTDIFF : 고품질 음성 합성을위한 빠른 조건부 확산 모델 | IJCAI 2022 | ✔️ 코드 | 데모
[ 2022 ]
DDSP 기반 노래 보코더 : 새로운 빼기 기반 신디사이저 및 포괄적 인 평가 | ISMIR 2022 | ✔️ 코드 | 데모
FASTDIFF : 고품질 음성 합성을위한 빠른 조건부 확산 모델 | IJCAI 2022 | ✔️ 코드 | 데모
바 이노 러브 그레이드 : 바이노 럴 오디오 합성을위한 2 단계 조건부 확산 확률 모델 | 2022/05 | 데모
[ 2021 ]
멀티 스싱싱 : 대규모 코퍼스와 함께 빠른 멀티 스싱 어 노래하는 음성 보코더 | ACM MM 2021 | ? 적용 및 다운로드 | ✔️ 코드 | 데모
Wavegrad 2 : 텍스트 음성성 합성을위한 반복 정제 | Interspeech 2021 | 데모
Diffwave : 오디오 합성을위한 다목적 확산 모델 | ICLR 2021 | ✔️ 코드 | 데모
파도 작전 : 파형 생성에 대한 기울기 추정 | ICLR 2021 | 데모
[ 2020 ]
Hifi-Gan : 효율적이고 고 충실도 음성 합성을위한 생성 적대적 네트워크 | Neurips 2020 | ✔️ 코드 | 데모
멀티 밴드 멜간 : 고품질 텍스트 음성 연사를위한 더 빠른 파형 생성 | Interspeech 2020 | 데모
병렬 파간 : 다중 해상도 스펙트로 그램이있는 생성 적대 네트워크를 기반으로 한 빠른 파형 생성 모델 | ICASSP 2020 | 데모 | 비공식 코드
[ 2019 ]
Melgan : 조건부 파형 합성을위한 생성 적대 네트워크 | Neurips 2019 | ✔️ 코드 | 데모
강력한 보편적 신경 보구를 달성하기 위해 | Interspeech 2019 | ✔️ 코드 | 데모 | 비공식 코드
[ 2022 ]
스펙트로 그램 확산으로 다중 계통 음악 합성 | ISMIR 2022 | ✔️ 코드 | 데모
무시카! 빠른 무한 파형 음악 생성 | ISMIR 2022 | ✔️ 코드 | 데모
[ 2022 ]
[ 2021 ]
[ 2022 ]
Unispeech-Sat : 화자와의 보편적 인 음성 표현 학습 사전 훈련 | ICASSP 2022 | ✔️ 코드 | code
음성 인식을위한 감독되지 않은 사전 훈련의 성과 효율 상충 | ICASSP 2022 | ✔️ 코드 | code
대규모 다국어 음성 인식을위한 의사 표시 | ICASSP 2022 | ✔️ 코드 | code
WAVLM : 풀 스택 음성 처리를위한 대규모 자체 감독 사전 훈련 | IEEE JSTSP 2022/06 | ✔️ 코드 | code
[ 2021 ]
XLS-R : 자체 감독 간의 언어 연설 표현 학습 | 2021/12 | ✔️ 코드 | code
간단하고 효과적인 제로 샷 교차 음소 인식 | 2021/09 | ✔️ 코드 | code
Tera : 스피치에 대한 변압기 인코더 표현의 자체 감독 학습 | IEEE/ACM TASLP 2021/08 | code
Unispeech : 라벨이 붙지 않고 표지되지 않은 데이터를 가진 통일 된 음성 표현 학습 | ICML 2021 | ✔️ 코드 | ✔️ 코드 | code
Hubert : 숨겨진 단위의 가면이있는 예측에 의한 자기 감독 연설 표현 학습 | IEEE/ACM TASLP 2021/06 | ✔️ 코드 | code
[ 2020 ]
WAV2VEC 2.0 : 언어 표현에 대한 자기 감독 학습을위한 프레임 워크 | Neurips 2020 | ✔️ 코드 | code
VQ-WAV2VEC : 개별 언어 표현에 대한 자체 감독 학습 | ICLR 2020 | ✔️ 코드 | code
Mockingjay : 깊은 양방향 변압기 인코더를 사용한 감독되지 않은 음성 표현 학습 | ICASSP 2020 | code
음성 인식을위한 감독되지 않은 교차 대표 학습 | 2020/06 | ✔️ 코드 | code
FairSeq S2T : FairSeq |를 사용한 빠른 음성 텍스트 모델링 | AACL 2020 | ✔️ 코드 | code
[ 2019 ]
[ 2022 ]
[ 2021 ]
[ 2021 ]
[ 2022 ]
[ 2022 ]
[ 2021 ]
[ 2022 ]
[ 2021 ]
[ 2021 ]
음성 변환 챌린지 2020 | ? 적용 및 다운로드 | code
블리자드 챌린지