연설에 관한 모든 것
이 저장소는 논문, 학습 자료, 연설을 이해하기위한 코드를 구성합니다. 기계/딥 러닝을위한 또 다른 저장소가 있습니다.
DOS :
- 별을 조직하십시오
- 더 많은 논문을 추가하십시오
- 읽을 논문 :
- Speech = T : TTS 및 그 이상의 트랜스 듀서
TTS
TTS
- DC-TTS [[논문]] [Pytorch] [Tensorflow]
- Microsoft 's Lightspeech [[paper]] [코드]
- SpeechFormer [[논문]] [코드]
- 비 엔트리 성 타코 트론 [종이] [Pytorch]
- 병렬 타코트론 2 [[논문]] [코드]
- FCL-TACO2 : Tacotron2의 빠르고 제어 가능하며 가벼운 버전 [[논문]] [코드]
- 변압기 TTS : 변압기 네트워크를 통한 신경 음성 합성 [[논문]] [코드]
- VITS : 엔드 투 엔드 텍스트 음성 연사를위한 적대적 학습을 가진 조건부 변형 자동 인코더 [[논문]] [코드]
- 개혁자 TTS (TTS에 개혁자의 적응) [코드]
프롬프트 기반 TTS ([Link] 참조)
음성 변환 / 음성 클로닝 / 스피커 임베딩
- Stargan-VC : 스타 생성 적대적 네트워크와의 비 임금 다수의 음성 변환 [[Paper]] [Code]
- 오디오 샘플이 거의없는 신경 음성 복제 (Baidu) [[논문]] [코드]
- 어셈블리 VC : 현대적인 음성 합성 기술을 조립하여 현실적인 음성 변환 [[논문]] [코드]
- UNET-TTS : 원샷 음성 복제에서 보이지 않는 스피커 및 스타일 전송 개선 [종이] [코드]
- FRAGMENTVC : 엔드 투 엔드 투-엔드-엔드-엔드-퓨즈 퓨즈에 의한 모든 음성 변환 [[논문]] [코드]
- VectorQuantizedCPC : 음향 단위 발견 및 음성 변환을위한 벡터 용량 대비 예측 코딩 [[Paper]] [코드]
- Cotatron : 병렬 데이터없이 모든 대형 음성 변환을위한 전사 유도 음성 인코더 [[논문]] [코드]
- Again-VC : 활성화 안내 및 적응 인스턴스 정규화를 사용한 원샷 음성 변환 [[논문]] [코드]
- AUTOVC : Autoencoder 손실 만있는 제로 샷 음성 스타일 전송 [[Paper]] [Code]
- SC-Glowtts : 효율적인 제로 샷 멀티 스피커 텍스트 음성 연설 모델 [코드]
- 딥 스피커 : 엔드 투 엔드 신경 스피커 임베딩 시스템 [[논문]] [코드]
- vqmivc : 원샷 (모든 것에서) 음성 변환 [[논문]] [코드]
스타일 (감정, 번영)
- Smart-TTS 단일 감정 TTS [코드]
- 크로스 스피커 감정 전달 [[논문]] [코드]
- Autopst : 텍스트 전사가없는 글로벌 리듬 스타일 전송 [[Paper]] [Code]
- 비 평행 훈련 데이터와의 정서적 음성 전환을위한 스펙트럼과 번영 전환 [[논문]] [코드]
- 대적 사이클 일관성을 갖는 다중 참조 신경 TTS 스타일 [[논문] [코드]
- 엔드 투 엔드 음성 합성에서 스타일 제어 및 전송에 대한 잠재적 표현 학습 (Tacotron-VAE) [[논문]] [코드]
- 시간 도메인 신경 오디오 스타일 전송 (NIPS 2017) [[논문]] [코드]
- 메타 스타일 스피치 및 스타일 스피치 [[논문]] [코드]
- 스피커 Conditino 계층 정규화 및 텍스트 음성 연설에서의 반 감독 훈련을 기반으로하는 교차 스피커 감정 전달 [[논문]] [코드]
교차-언어
- 언어 교차 언어 모델을 사용한 엔드 투 엔드 코드 전환 TT
- 만다린과 영어
- 교차 언어 및 멀티 스피커
- 기준선 : "단일 언어 데이터 만 갖춘 혼합-언어 신경 TTS 시스템 구축"
- 단일 언어 데이터만으로 혼합-언어 신경 TTS 시스템 구축
- 저수고 자원 언어에 대한 제로 샷 다국어 멀티 스피커 텍스트-음성에 대한 전송 학습, 스타일 제어 및 스피커 재구성 손실
- 다국어 및 단일 언어 VQ-VAE와의 분리 탐색 [논문] [코드]
음악 관련
- 노래의 아름다움 배우기 : 신경 노래 목소리 미용사 (ACL 2022) [[논문]] [코드]
- 노래 연설 (Interspeech 2020) [[논문]] [코드]
- Diffsinger : 얕은 확산 메커니즘을 통한 노래 음성 합성 (AAAI 2022) [[논문]] [코드]
- 보편적 인 음악 번역 네트워크 (ICLR 2019)
- Jukebox : 음악을위한 생성 모델 (OpenAi) [종이] [코드]
툴킷
- IMS Toucan 음성 합성 툴킷 [논문] [코드]
- 크레페 피치 추적기 [코드]
- SpeechBrain- 음성 연구를 용이하게하는 유용한 도구 [코드]
보코더
주목
ASR
음성 분류, 탐지, 필터 등
- HTS-AT : 사운드 분류 및 탐지를위한 계층 토큰-남성 오디오 변압기 [[논문]] [코드]
- Google AI의 VoiceFilter System [[Paper]] [Code]
- 자기주의 메커니즘 및 멀티 태스킹 학습을 사용한 엔드 투 엔드 음성 감정 인식 개선 (Interspeech 2019) [[논문]] [코드]
- Tranformer 기반 자체 감독 기능 Fusion을 사용한 멀티 모달 감정 인식 [[Paper]] [Code]
- WAV2VEC 2.0 임베딩 (InterSpeech 2021) [[논문]] [코드]
- WAV2VEC 2.0 음성 감정 인식 개선을위한 미세 조정 [[논문]] [코드]
- 오디오 분류를위한 CNN 모델을 다시 생각합니다 [[논문]] [코드]
- Sincnet을 사용한 EEG 기반 감정 인식 [[논문]] [코드]
스피커 확인
- 스피커 검증을위한 세심한 풀링 (IEEE SLT 2021) [[논문]] [코드]
언어학
데이터 세트
- vggsound : 대규모 시청각 데이터 세트 [[논문]] [코드]
- CSS10 : 10 Langauges에 대한 단일 스피커 음성 Datsets 모음 [코드]
- IEMOCAP : 10 명의 남성 및 여성 배우와 함께 12 시간의 시청각 데이터 [웹 사이트]
- Voxceleb [Repo]
데이터 확대
- 시청각 (Pytorch의 빠른 오디오 데이터 확대) [코드]
조정기
- 몬트리올 강제 조정기
데이터 (사전) 처리 / 증강
- Wiktionary Ko-Pron Lua 모듈에 근거한 한국 발음 및 로마 화 [코드]
- 오디오 신호 처리 [코드]
- 음운 학적 특징 (논문 "0- 다국어 연설 합성을위한 음운 특징") [[논문]] [코드]
- Smart-G2P (한국 선고로 한국 발음으로 영어 및 칸지 표현 변경) [코드]
- "Mandarin"[Code]에 대한 Kakao Grapheme to Phoneme 변환 패키지
- Webaverse Speech Tool [코드]
확인
- MCD [Repo]
- 코드는 작동하지만 그것이 옳은지 확실하지 않습니다. MCD 번호는 비슷한 오디오 쌍의 경우에도 너무 높습니다.
도움이 될 수있는 다른 연구
- 이미지 합성에 대한 텍스트
- Audiomae (듣는 가면 된 자동 인코더) [코드]
조직
- Deepmind [Repo]
- Openai [repo]
- 클럽 하우스 : Weeklyarxivtalk [Repo]
참조 할 다른 저장소 - 음성 포함/관련
- 연설 연구원 목록 [Repo]
- Jackson-kang [Repo]
- Rosinality의 ML [Repo]
- Ivallesp의 [Repo]
- ddlbojack의 연설 사전 여지
- 텍스트에서의 Fuzhenxin의 스타일 전송 [Repo]
학습 자료
- 디지털 신호 처리 강의 [링크]
- Ratsgo의 SpeechBook [Link]
- 음성 처리의 YSDA 과정 [코드]
- Nhn Forward YouTube 비디오 [링크]