Audiolm : 오디오 생성에 대한 언어 모델링 접근법 (2022), Zalán Borsos et al. [PDF]
Audioldm : 잠복 확산 모델 (2023), Haohe Liu et al. [PDF]
Musiclm : Text (2023)에서 음악 생성 , Andrea Agostinelli et al. [PDF]
Moûsai : 장기 텍스트 잠재 확산 (2023), Flavio Schneider et al. [PDF]
Noise2Music : 확산 모델을 사용한 텍스트 조건 음악 생성 (2023), Qingqing Huang et al. [PDF]
Markov 프로세스의 확률 론적 기능 이론의 적용에 대한 소개 자동 음성 인식 (1982), Se Levinson et al. [PDF]
지속적인 음성 인식에 대한 최대 가능성 접근법 (1983), Lalit R. Bahl et al. [PDF]
음성 인식을위한 이기종 음향 측정 및 다중 분류기 (1986), Andrew K. Halberstadt. [PDF]
음성 인식을위한 숨겨진 Markov 모델 매개 변수의 최대 상호 정보 추정 (1986), Lalit R. Bahi et al. [PDF]
숨겨진 Markov 모델 및 Speech Recelition (1989), Lawrence R Rabiner에 대한 선택된 응용 프로그램에 대한 튜토리얼 . [PDF]
Time Delay Neural Networks (1989), Alexander H. Waibel et al. [PDF]
숨겨진 Markov Models (1989), Kai-Fu Lee et al. [PDF]
음성 인식을위한 숨겨진 Markov 모델 (1991), Bh Juang et al. [PDF]
음성 인식을위한 TDNN (시간 지연 신경 네트워크) 아키텍처 검토 (2014), Masahide Sugiyamat et al. [PDF]
연결주의 음성 인식 : 하이브리드 접근법 (1994), Herve Bourlard et al. [PDF]
단어 오류율 감소를 얻기위한 사후 처리 시스템 : 인식기 출력 투표 오류 감소 (Rover) (1997), JG FISCUS. [PDF]
가중 유한 상태 변환기 (2001), M Mohri et al. [PDF]
양방향 LSTM 및 기타 신경 네트워크 아키텍처를 통한 Framewise Phoneme 분류 (2005), Alex Graves et al. [PDF]
연결주의 시간적 분류 : 반복 신경 네트워크 (2006), Alex Graves et al. [PDF]
Kaldi Speech Recognition Toolkit (2011), Daniel Povey et al. [PDF]
음성 인식을위한 하이브리드 NN-HMM 모델에 Convolutional Neural Network 개념을 적용 (2012), Ossama Abdel-Hamid et al. [PDF]
대규모 위abulary 음성 인식을위한 맥락 의존적 미리 훈련 된 심해 네트워크 (2012), George E. Dahl et al. [PDF]
음성 인식의 음향 모델링을위한 심층 신경망 (2012), Geoffrey Hinton et al. [PDF]
재발 신경 네트워크와의 서열 형질 도입 (2012), Alex Graves et al. [PDF]
LVCSR (2013), Tara N. Sainath et al. [PDF]
정류 된 선형 단위 및 드롭 아웃 (2013)을 사용하여 LVCSR의 심층 신경망을 개선 , George E. Dahl et al. [PDF]
드롭 아웃 및 다국어 DNN 교육을 사용하여 저주적 CD-DNN-HMM 개선 (2013), Yajie Miao et al. [PDF]
LVCSR (2013), Tara N. Sainath et al. [PDF]
음성 인식을위한 기계 학습 패러다임 : 개요 (2013), Li Deng et al. [PDF]
최근 Microsoft (2013), Li Deng et al. [PDF]
깊은 재발 신경 네트워크와의 음성 인식 (2013), Alex Graves et al. [PDF]
전화 인식을위한 Convolutional Deep Maxout 네트워크 (2014), László Tóth et al. [PDF]
음성 인식을위한 컨볼 루션 신경 네트워크 (2014), Ossama Abdel-Hamid et al. [PDF]
Convolutional Neural Network 기반 전화 인식 (2014), László Tóth의 시간과 주파수 도메인 컨볼 루션 결합 . [PDF]
깊은 연설 : 엔드 투 엔드 연설 인식 확장 (2014), Awni Y. Hannun et al. [PDF]
주의 기반 재발 NN : 첫 번째 결과 (2014), Jan Chorowski et al. [PDF]
양방향 반복 DNNS (2014), Andrew L. Maas et al. [PDF]
대규모 음향 모델링을위한 긴 단기 메모리 재발 신경 네트워크 아키텍처 (2014), Hasim Sak et al. [PDF]
Gabor 필터 커널을 사용한 강력한 CNN 기반 음성 인식 (2014), Shuo-Yiin Chang et al. [PDF]
저주적 소스 음성 인식을위한 확률 론적 풀링 Maxout 네트워크 (2014), Meng Cai et al. [PDF]
재발 신경 네트워크를 통한 엔드 투 엔드 음성 인식 (2014), Alex Graves et al. [PDF]
신경 변환기 (2015), N Jaitly et al. [PDF]
음성 인식을위한주의 기반 모델 (2015), Jan Chorowski et al. [PDF]
입력 AS AS Input (2015), Dimitri Palaz 등을 사용한 CNN 기반 음성 인식 시스템의 분석 . [PDF]
컨볼 루션, 긴 단기 기억, 완전히 연결된 깊은 신경망 (2015), Tara N. Sainath et al. [PDF]
낮은 자원 언어의 음향 모델링을위한 심층 컨볼 루션 신경망 (2015), William Chan et al. [PDF]
단일 채널 멀티-토커 음성 인식을위한 깊은 신경망 (2015), Chao Weng et al. [PDF]
Eesen : 심층 RNN 모델 및 WFST 기반 디코딩 (2015)을 사용한 엔드 투 엔드 음성 인식 , Y Miao et al. [PDF]
음성 인식을위한 빠르고 정확한 반복 신경 네트워크 음향 모델 (2015), Hasim Sak et al. [PDF]
Neural Networks (2015), Andrew L. Maas et al. [PDF]
Connectionist Temporal Classification (2015), Kyuyeon Hwang et al. [PDF]
모든 신경 연설 인식의 발전 (2016), Geoffrey Zweig et al. [PDF]
LVCSR (2016)에 대한 매우 깊은 컨볼 루션 신경망의 발전 , Tom Sercu et al. [PDF]
엔드 투 엔드주의 기반 대형 어휘 인식 (2016), Dzmitry Bahdanau et al. [PDF]
계층 간의 컨텍스트 확장 및주의를 가진 깊은 컨볼 루션 신경 네트워크 (2016), Dong Yu et al. [PDF]
Deep Speech 2 : 영어와 만다린의 엔드 투 엔드 음성 인식 (2016), Dario Amodei et al. [PDF]
고속도로 LSTM (2016), Hassan Taherian과의 엔드 투 엔드주의 기반 먼 음성 인식 . [PDF]
멀티 태스킹 학습 (2016)을 이용한 공동 CTC- 내역 기반 엔드 투 엔드 음성 인식 , Suyoun Kim et al. [PDF]
듣고 참석하고 철자 : 대규모 어휘 대화 연설 인식을위한 신경망 (2016), William Chan et al. [PDF]
잠재 서열 분해 (2016), William Chan et al. [PDF]
LSTM과 LVCSR 작업을위한 컨볼 루션 아키텍처 (2016), Tara N. Sainath et al. [PDF]
멀티 미크로 폰 거리 음성 인식에서 청각 관심을위한 재발 성 모델 (2016), Suyoun Kim et al. [PDF]
엔드 투 엔드 음성 인식을위한 세그먼트 재발 성 신경망 (2016), Liang Lu et al. [PDF]
시퀀스 모델 (2016)에 순서대로 더 나은 디코딩 및 언어 모델 통합을 향해 , Jan Chorowski et al. [PDF]
소음 강력한 음성 인식을위한 매우 깊은 컨볼 루션 신경 네트워크 (2016), Yanmin Qian et al. [PDF]
엔드 투 엔드 음성 인식을위한 매우 깊은 컨볼 루션 네트워크 (2016), Yu Zhang et al. [PDF]
LVCSR (2016), Tom Sercu et al. [PDF]
WAV2LETTER : 엔드 투 엔드 Convnet 기반 음성 인식 시스템 (2016), Ronan Collobert et al. [PDF]
세심한 컨볼 루션 신경 네트워크 기반 음성 감정 인식 : 입력 기능, 신호 길이 및 연기 연설의 영향에 대한 연구 (2017), Michael Neumann et al. [PDF]
아랍어를위한 향상된 자동 음성 인식 시스템 (2017), Mohamed Amine Menacer et al. [PDF]
심층 CNN 인코더 및 RNN-LM (2017), Takaaki Hori et al. [PDF]
먼 음성 인식을위한 심층 신경망 네트워크 (2017), Mirco Ravanelli et al. [PDF]
시끄러운 음성 인식을위한 온라인 시퀀스-시퀀스 모델 (2017), Chung-Cheng Chiu et al. [PDF]
SOM 및 I-VECTORS for Speech 인식 시스템 (2017), Hany Ahmed et al. [PDF]
만다린 (2017)의주의 기반 엔드 투 엔드 음성 인식 , C Shan et al. [PDF]
대규모 어휘 발언 인식을위한 DNN 음향 모델 구축 (2017), Andrew L. Maas et al. [PDF]
영어 대화 연설 인식 (2017), Kartik Audhkhasi et al. [PDF]
환경 강력한 음성 인식을위한 딥 러닝 : 최근 개발 개요 (2017), Zixing Zhang et al. [PDF]
인간과 기계의 영어 대화 전화 연설 인식 (2017), George Saon et al. [PDF]
ESE : FPGA (2017)의 Sparse LSTM이있는 효율적인 음성 인식 엔진 , Song Han et al. [PDF]
Chris Donahue et al . [PDF]
대규모 어휘 연속 음성 인식을위한 DEEP LSTM (2017), Xu Tian et al. [PDF]
음성 인식에서 적응 신경 음향 모델링을위한 동적 층 정규화 (2017), Taesup Kim et al. [PDF]
그람 -CTC : 서열 라벨링 (2017)에 대한 자동 단위 선택 및 표적 분해 , Hairong Liu et al. [PDF]
온라인 신경 트랜스 듀서 모델의 성능 향상 (2017), Tara N. Sainath et al. [PDF]
전화 인식을위한 원시 연설에서 필터 뱅크 학습 (2017), Neil Zeghidour et al. [PDF]
멀티 채널 엔드 투 엔드 스피치 인식 (2017), Tsubasa Ochiai et al. [PDF]
음성 인식을위한 CTC 및 세그먼트 CRF를 통한 멀티 태스킹 학습 (2017), Liang Lu et al. [PDF]
자동 음성 인식을위한 심층 신경망을 통한 다 채널 신호 처리 (2017), Tara N. Sainath et al. [PDF]
단일 엔드 투 엔드 모델 (2017)을 사용한 다국어 음성 인식 , Shubham Toshniwal et al. [PDF]
음성 인식을위한 샘플링 (2017), Matt Shannon을 통해 예상되는 단어 오류율 최적화 . [PDF]
자동 음성 인식을위한 잔류 컨볼 루션 CTC 네트워크 (2017), Yisen Wang et al. [PDF]
잔류 LSTM : 먼 음성 인식을위한 깊은 재발 아키텍처 설계 (2017), Jaeyoung Kim et al. [PDF]
멀티 미크로 폰 거리 음성 인식에서 청각 관심을위한 재발 성 모델 (2017), Suyoun Kim et al. [PDF]
생산 음성 모델의 편견 감소 (2017), Eric Battenberg et al. [PDF]
생성 적대적 네트워크 (2017), Anuroop Sriram et al. [PDF]
시퀀스-시퀀스 모델 (2017)을 통한 최첨단 음성 인식 (Chung-Cheng Chiu et al. [PDF]
언어-우주 끝에서 끝날 연설 인식 (2017), Suyoun Kim et al. [PDF]
재발 성 신경망 언어 모델 기반 온라인 음성 인식 시스템 (2018), K Lee et al. [PDF]
음성 인식을위한 개선 된 하이브리드 CTC- 내역 모델 (2018), Zhe Yuan et al. [PDF]
하이브리드 CTC- 내역 기반 서브 워드 단위 (2018), Zhangyu Xiao et al. [PDF]
Specaugment : 자동 음성 인식을위한 간단한 데이터 확대 방법 (2019), Daniel S. Park et al. [PDF]
VQ-WAV2VEC : 개별 언어 표현에 대한 자체 감독 학습 (2019), Alexei Baevski et al. [PDF]
음성 인식을위한 자체 감독 전 훈련의 효과 (2020), Alexei Baevski et al. [PDF]
자동 음성 인식을위한 시끄러운 학생 교육 (2020), Daniel S. Park, et al. [PDF]
ContextNet : Global Context (2020), Wei Han, et al. [PDF]
CONFORMER : 음성 인식을위한 Convolution-Augmented Transformer (2020), Anmol Gulati, et al. [PDF]
대규모 음성 인식 (2020)에 대한 인기있는 엔드 투 엔드 모델의 비교에서 , Jinyu Li et al. [PDF]
오디오 불변 표현에 대한 대조적 인 자기 감독 학습 (2021), Melikasadat Emami et al. [PDF]
패치 아웃 (2021)을 사용한 오디오 변압기의 효율적인 교육 , Khaled Koutini et al. [PDF]
MixSpeech : 저주적 자동 음성 인식에 대한 데이터 증강 (2021), Linghui Meng et al. [PDF]
변압기 기반 엔드 투 엔드 자동 음성 인식 (2021)을위한 다중 코더 학습 및 스트림 퓨전 , Timo Lohrenz et al. [PDF]
Specaugment ++ : 음향 장면 분류를위한 숨겨진 공간 데이터 증강 방법 (2021), Helin Wang et al. [PDF]
SpecMix : 시간 주파수 영역 기능을 갖는 훈련을위한 혼합 샘플 데이터 증강 방법 (2021), Gwantae Kim et al. [PDF]
2030 년 (2021), Awni Hannun et al. [PDF]
음성 변환은 매우 낮은 자원 설정에서 ASR을 향상시킬 수 있습니다 (2021), Matthew Baas et al. [PDF]
CTC가 피크 동작을 초래하는 이유는 무엇입니까? (2021), Albert Zeyer et al. [PDF]
E2E 세그먼테르 : 장형 ASR (2022)에 대한 조인트 세그먼트 및 디코딩 , W. Ronny Huang et al. [PDF]
생성 흐름을 통한 음악 소스 분리 (2022), Ge Zhu et al. [PDF]
스피커를 분리하여 자체 감독 음성 표현을 개선 (2022), Kaizhi Qian et al. [PDF]
대규모 약한 감독 (2022)을 통한 강력한 음성 인식 , Alec Radford et al. [PDF]
Speech-to-Text 및 대형 언어 모델 통합을위한 디코더 전용 아키텍처 (2023), Jian Wu et al. [PDF]
적응 된 가우스 혼합물 모델을 사용한 화자 검증 (2000), Douglas A.Reynolds et al. [PDF]
텍스트 독립적 인 스피커 검증 (2004), Frédéric Bimbot et al. [PDF]
작은 풋 프린트 텍스트 의존적 스피커 검증 (2014), E Variani et al. [PDF]
반 텍스트 독립적 인 스피커 검증을위한 깊은 스피커 벡터 (2015), Lantian Li et al. [PDF]
딥 스피커 : 엔드 투 엔드 신경 화자 임베딩 시스템 (2017), Chao Li et al. [PDF]
텍스트 독립적 인 스피커 검증 (2017), Lantian Li et al. [PDF]
깊은 스피커 검증 : 끝에서 끝이 필요합니까? (2017), Dong Wang et al. [PDF]
LSTM (2017), Quan Wang et al. [PDF]
3D Convolutional Neural Networks (2017)를 사용한 텍스트 독립적 스피커 검증 ( Amirsina Torfi et al. [PDF]
짧은 발언에서 삼중 항 손실을 가진 엔드 투 엔드 텍스트 독립적 스피커 검증 (2017), Chunlei Zhang et al. [PDF]
텍스트 독립적 스피커 검증을위한 깊은 신경망 임베딩 (2017), David Snyder et al. [PDF]
지속 시간에 대한 깊은 차별적 임베딩 강력한 스피커 검증 (2018), Na Li et al. [PDF]
화자 식별 및 검증을위한 차별적 특징 학습 (2018), Sarthak Yadav et al. [PDF]
스피커 검증을위한 큰 마진 SoftMax 손실 (2019), Yi Liu et al. [PDF]
스피커 검증을위한 감독되지 않은 기능 향상 (2019), Phani Sankar Nidadavolu et al. [PDF]
스피커 검증을위한 깊은 기능 손실 (2019), Saurabh Kataria et al. [PDF]
스피커 검증을위한 일반화 된 End2end 손실 (2019), Li Wan et al. [PDF]
텍스트 독립 스피커 검증을위한 볼록 길이 정규화 (2019), Youngmoon Jung et al. [PDF]
Voxsrc 2019 : 최초의 Voxceleb 스피커 인식 도전 (2019), Son Chung et al. [PDF]
그러나 Voxceleb 스피커 인식 도전 2019 (2019), Hossein Zeinali et al. [PDF]
단기 스피커 검증 챌린지 2021 (2021)에 대한 ID R & D 시스템 설명 , Alenin et al. [PDF]
깊은 양방향 장거리 단기 메모리 기반 재발 신경 네트워크 (2015), Lifa Sun et al. [PDF]
병렬 데이터 훈련없이 다중 하나의 음성 변환을위한 음성 사후 그램 (2016), Lifa Sun et al. [PDF]
Stargan-VC : Star Generative Adversarial Networks (2018), Hirokazu Kameoka et al. [PDF]
AUTOVC : Autoencoder 손실 (2019), Kaizhi Qian et al. [PDF]
Stargan-VC2 : Stargan 기반 음성 변환을위한 조건부 방법을 다시 생각합니다 (2019), Takuhiro Kaneko et al. [PDF]
음성 변환을위한 개별 언어 단위의 감독되지 않은 엔드 투 엔드 학습 (2019), Andy T. Liu et al. [PDF]
원샷 음성 변환을위한주의 기반 스피커 임베딩 (2020), Tatsuma Ishihara et al. [PDF]
조건부 자동 인코더 (2020), Kaizhi Qian et al. [PDF]
Adversarial Learning (2020)을 통한 인식-합성 기반 비 평란드 음성 변환 , Jing-Xuan Zhang et al. [PDF]
정서적 음성 변환을위한 개선 된 스타건 : 음성 품질 및 데이터 확대 향상 (2021), Xiangheng HE et al. [PDF]
CRANK : 벡터-정량 변형 autoencoder (2021), Kazuhiro Kobayashi et al. [PDF]
CVC : 비 평행 음성 변환에 대한 대조 학습 (2021), Tingle Li et al. [PDF]
NoiseVC : 고품질 제로 샷 음성 변환 (2021), Shijun Wang et al. [PDF]
ASR+TTS 기반 음성 변환 (2021)에 대한 프로디 모델링에서 Wen-Chin Huang et al. [PDF]
StarGanv2-VC : 자연스러운 소리를내는 음성 변환 (2021), Yinghao Aaron Li et al. [PDF]
자체 감독 프로디 표현 학습을 통한 제로 샷 음성 변환 (2021), Shijun Wang et al. [PDF]
변형 된 단기 푸리에 변환 (1993), Daniel W. Griffin et al. [PDF]
Text-To-Steech Synthesis (2009), Paul Taylor et al. [PDF]
빠른 그리핀-림 알고리즘 (2013), Nathanael Perraudin et al. [PDF]
양방향 LSTM 기반 반복 신경 네트워크 (2014), Yuchen Fan et al. [PDF]
엔드 투 엔드 파라 메트릭 TTS 합성을 향한 첫 번째 단계 : 신경주의를 가진 스펙트럼 파라미터 생성 (2016), Wenfu Wang et al. [PDF]
Google의 최근 발전 실시간 HMM 구동 장치 선택 신디사이저 (2016), Xavi Gonzalvo et al. [PDF]
Samplernn : 무조건 엔드 투 엔드 신경 오디오 생성 모델 (2016), Soroush Mehri et al. [PDF]
Wavenet : Raw Audio (2016)의 생성 모델 , Aäron van Den Oord et al. [PDF]
Char2wav : 엔드 투 엔드 스피치 합성 (2017), J Sotelo et al. [PDF]
Deep Voice : 실시간 신경 텍스트 음성 연사 (2017), Sercan O. Arik et al. [PDF]
Deep Voice 2 : 멀티 스피커 신경 텍스트 음성 연사 (2017), Sercan Arik et al. [PDF]
Deep Voice 3 : 2000-Speaker Neural Text-Steece (2017), Wei Ping et al. [PDF]
Mel Spectrogram Predictions (2017), Jonathan Shen et al. [PDF]
병렬 Wavenet : 빠른 고전성 음성 합성 (2017), Aaron van Den Oord et al. [PDF]
다중 작업 학습 프레임 워크 (2017) 하에서 생성 적대성 네트워크를 사용한 통계적 파라 메트릭 음성 합성 , S Yang et al. [PDF]
타코트론 : 엔드 투 엔드 스피치 합성 (2017), Yuxuan Wang et al. [PDF]
표현성 음성 합성에 대한 잠재 스타일 요인을 밝혀 냈습니다 (2017), Yuxuan Wang et al. [PDF]
Voiceloop : 음운 론적 루프를 통한 음성 피팅 및 합성 (2017), Yaniv Taigman et al. [PDF]
클라리넷 : 엔드 투 엔드 텍스트 음성 연사 (2018), Wei Ping et al. [PDF]
음성 합성을위한 깊은 피드 포워드 순차 메모리 네트워크 (2018), Mengxiao Bi et al. [PDF]
LPCNET : 선형 예측을 통한 신경 음성 합성 개선 (2018), Jean-Marc Valin et al. [PDF]
End-to-End Speech Synthesis (2018)에서 스타일 제어 및 전송에 대한 잠재적 표현 학습 , Ya-Jie Zhang et al. [PDF]
몇 가지 샘플 (2018), Sercan O. Arık et al. [PDF]
엔드 투 엔드 스피치 합성 (2018)의 텍스트에서 표현성 말하기 스타일 예측 , Daisy Stanton et al. [PDF]
스타일 토큰 : 감독되지 않은 스타일 모델링, 컨트롤 및 엔드 투 엔드 스피치 합성 (2018), Y Wang et al. [PDF]
Tacotron (2018)을 사용한 표현성 음성 합성을위한 엔드 투 엔드 번영 전달을 향해 , RJ Skerry-Lyan et al. [PDF]
DURIAN : Multimodal Synthesis (2019), Chengzhu Yu et al. [PDF]
다중 헤드 컨볼 루션 신경망을 사용한 빠른 스펙트로 그램 역전 (2019), Sö Arık et al. [PDF]
FASTSPEECH : FAST, 강력하며 제어 가능한 텍스트 to Speech (2019), Yi Ren et al. [PDF]
외국어로 유창하게 말하는 법을 배우기 : 다국어 연설 합성 및 교차 음성 복제 (2019), Yu Zhang et al. [PDF]
Melnet : 주파수 도메인 (2019)의 오디오에 대한 생성 모델 , Sean Vasquez et al. [PDF]
멀티 스피커 엔드 투 엔드 스피치 합성 (2019), Jihyun Park et al. [PDF]
Melgan : 조건부 파형 합성을위한 생성 적대적 네트워크 (2019), Kundan Kumar et al. [PDF]
Transformer Network (2019), Naihan Li et al. [PDF]
병렬 신경 텍스트-음성 (2019), Kainan Peng et al. [PDF]
만다린 텍스트 음성 연설 합성 (2019), Bing Yang et al. [PDF]에서 프론트 엔드 텍스트 처리를 개선하기위한 미리 훈련 된 텍스트 표현
병렬 파간 : 다중 해상도 스펙트로 그램 (2019), Ryuichi Yamamoto et al. [PDF] Melgan과 같은시기에 나오는 반면, 아무도 서로를 언급하지 않습니다 ... 게다가, 나는 가우스 소음이 불필요하다고 생각합니다. Melspec은 매우 강력한 정보를 가지고 있기 때문입니다.
Samplernn (2019)과의 다중 스피커 텍스트 음성 연설에 대한 문제 공인 연설 임베드 , David Alvarez et al. [PDF]
신경 TTS (2019), Mutian HE et al. [PDF]
심도있는 미리 훈련 된 언어 모델 (2019)에서 끝날 연설 합성을위한 전이 학습을 향해 Wei Fang et al. [PDF]
스피커 검증에서 멀티 스피커 텍스트 음성 연사 합성 (2019), Ye Jia et al. [PDF]
WaveFlow : Raw Audio (2019) 용 소형 흐름 기반 모델 , Wei Ping et al. [PDF]
Waveglow : 음성 합성을위한 흐름 기반 생성 네트워크 (2019), R Prenger et al. [PDF]
ALIGNTTS : 명시 적 ALIGNMEN (2020)이없는 효율적인 피드 포워드 텍스트 음성 음성 시스템 , Zhen Zeng et al. [PDF]
Boffin TTS : 베이지안 최적화 (2020), Henry B. Moss et al. [PDF]
Bunched LPCNET : 저비용 신경 텍스트 음성 연사 시스템을위한 보코더 (2020), Ravichander Vipperla et al. [PDF]
COPYCAT : 신경 텍스트 음성 연사 (2020), Sri Karlapati et al. [PDF]
효율적인 TT : 효율적이고 고품질 텍스트 음성 연설 아키텍처 (2020), Chenfeng Miao et al. [PDF]
엔드 투 엔드 적대적 텍스트-음성 (2020), Jeff Donahue et al. [PDF]
FASTSPEECH 2 : FAST 및 고품질 엔드 투 엔드-엔드 투 엔드 텍스트 to Speech (2020), Yi Ren et al. [PDF]
Flowtron : 텍스트 음성 합성을위한 자동 회귀 유량 기반 생성 네트워크 (2020), Rafael Valle et al. [PDF]
Flow-TTS : 흐름 (2020), Chenfeng Miao et al. [PDF]
해석 가능한 음성 합성을위한 완전히 계층 적 미세 입자 프로디 모델링 (2020), Guangzhi Sun et al. [PDF]
양자화 된 미세 입자 VAE 및 자동 임시 프로디 이전 (2020)을 사용하여 다양하고 자연스럽고 자연스러운 텍스트 음성 샘플을 생성하는 Guangzhi Sun et al. [PDF]
GLOW-TTS : 단조 론적 정렬 검색 (2020), Jaehyeon Kim et al. [PDF]
Hifigan : 효율적이고 고 충실도 음성 합성을위한 생성 적대성 네트워크 (2020), Jungil Kong et al. [PDF]
강력한 장형 음성 Synthesi (2020)에 대한 위치 관련주의 메커니즘 , Eric Battenberg et al. [PDF]
멀티 스피치 : 변압기 (2020)와의 연설에서 멀티 스피커 텍스트 , Mingjian Chen et al. [PDF]
병렬 타코트론 : 비 유사성 및 제어 가능한 TTS (2020), Isaac Elias et al. [PDF]
Robutrans : 강력한 변압기 기반 텍스트 음성 연설 모델 (2020), Naihan Li et al. [PDF]
이중주의 네트워크 (2020)를 통한 텍스트 독립적 스피커 검증 , Jingyu Li et al. [PDF]
파도그 : 파형 생성에 대한 기울기 추정 (2020), Nanxin Chen et al. [PDF]
Adaspeech : 사용자 정의 음성 연설에 대한 적응 텍스트 (2021), Mingjian Chen et al. [PDF]
신경 언어 합성에 대한 조사 (2021), Xu Tan et al. [PDF]
매우 낮은 비트 속도 (2021)에서 광대역 음성 코딩을위한 스트림 gan 보코더 , Ahmed Mustafa et al. [PDF]
엔드 투 엔드 언어 합성을위한 제어 가능한 교차 스피커 감정 전달 (2021), Tao Li et al. [PDF]
Wild (2021)에서 매우 제한된 데이터를 사용하여 자신의 목소리를 복제 , Dongyang Dai et al. [PDF]
엔드 투 엔드 텍스트 음성 연사 (2021)에 대한 대적 학습을 갖는 조건부 변동 자동 인코더 , Jaehyeon Kim et al. [PDF]
Diffwave : 오디오 합성을위한 다목적 확산 모델 (2021), Zhifeng Kong et al. [PDF]
diff-tts : 텍스트 음성 연사 (2021), Myeonghun Jeong et al. [PDF]
Delightfultts : 블리자드 챌린지 2021 (2021), Yanqing Liu et al. [PDF]
FRE-GAN : 적대 주파수 일관성 오디오 합성 (2021), Ji-Hoon Kim et al. [PDF]
풀 밴드 LPCNET : CPU (2021), Keisuke Matsubara et al. [PDF]
GRAD-TTS : 텍스트 음성 연사 (2021)에 대한 확산 확률 모델 , Vadim Popov et al. [PDF]
GLOW-WAVEGAN : 고 충실도 흐름 기반 음성 합성을위한 GAN 기반 변형 자동 인코더의 학습 음성 표현 (2021), Jian Cong et al. [PDF]
불연속 파형 모델링 (2021), Patrick Lumban Tobing et al. [PDF]
비유로 인한 음성 합성에 대한 계층 적 번영 모델링 (2021), Chung-Ming Chien et al. [PDF]
Itoˆtts 및 ito vave : 선형 확률 론적 미분 방정식은 오디오 생성 (2021), Shoule Wu et al. [PDF]
제트기 : 공동으로 FastSpeech2와 Hifi-Gan을 공동으로 훈련하여 끝까지 텍스트 to Speech (2021), Dan Lim et al. [PDF]
Meta-Voice : 메타 학습 (2021)을 사용한 표현 음성 복제를위한 빠른 소수의 스타일 전송 , Songxiang Liu et al. [PDF]
신경 HMM은 필요한 전부 (고품질주의가없는 TTS) (2021), Shivam Mehta et al. [PDF]
제어 가능한 LPCNET (2021)로 신경 피치가 이동 및 타임 스트레칭 , Max Morrison et al. [PDF]
하나의 tts 정렬을 모두 지배하기위한 정렬 (2021), Rohan Badlani et al. [PDF]
카라 튜너 : 가라오케 (Karaoke)의 노래 목소리에 대한 자연 피치 보정 (2021), Xiaobin Zhuang et al. [PDF]
PNG BERT : 신경 TTS (2021)에 대한 음소 및 그래픽에 대한 강화 된 Bert , Ye Jia et al. [PDF]
병렬 타코트론 2 : 차별적 인 지속 시간 모델링 (2021)을 갖는 비 유사성 신경 TTS 모델 , Isaac Elias et al. [PDF]
portaspeech : 휴대용 및 고품질 생성 텍스트 음성 (2021), Yi Ren et al. [PDF]
스트리밍 음성 합성을위한 변압기 기반 음향 모델링 (2021), Chunyang Wu et al. [PDF]
트리플 M : 다중 기수주의와 다중 대역 다중 LPCNET (2021), Shilun Lin et al. [PDF]
TalkNet 2 : 명시 적 피치 및 기간 예측을 가진 음성 합성을위한 비 유사성 중심 깊이 측면 분리 가능한 컨볼 루션 모델 (2021), Stanislav Beliaev et al. [PDF] TalkNet2는 TalkNet과 약간의 차이가 있으므로 여기에 TalkNet을 포함하지 않습니다.
표현성 음성 합성에 대한 다중 규모 스타일 제어 (2021), Xiang Li et al. [PDF]
통합 소스 필터 간 : 준 기간 평행 파단 (2021), Reo Yoneyama et al. [PDF]
Yourtts : 모든 사람을위한 제로 샷 멀티 스피커 TTS 및 제로 샷 음성 변환 (2021), Edresson Casanova et al. [PDF]
Avocodo : 아티팩트가없는 보코더 (2022), Taejun Bak et al. [PDF]
제로 샷 멀티 스피커 텍스트-스피치 (2022), Byoung Jin Choi et al. [PDF]
Bunched LPCNET2 : 구름에서 가장자리까지 장치를 덮는 효율적인 신경 보코더 (2022), Sangjun Park et al. [PDF]
피치 시프트 데이터 증강 (2022)으로 비 평행 음성 변환을 사용한 저주적 텍스트 음성 연설에 대한 교차 스피커 감정 전달 , Ryo Terashima et al. [PDF]
FASTDIFF : 고품질 음성 합성을위한 빠른 조건부 확산 모델 (2022), Rongjie Huang et al. [PDF]
빠른 GRADTTS : CPU의 효율적인 확산 기반 음성 생성 (2022), Ivan Vovk et al. [[PDF]
Glow-Wavegan 2 : 고품질 제로 샷 텍스트 음성 연사 합성 및 모든 대신 음성 변환 (2022), Yi Lei et al. [PDF]
Hifi ++ : 신경 보보, 대역폭 확장 및 음성 향상을위한 통합 프레임 워크 (2022), Pavel Andreev et al. [PDF]
iqdubbing : 표현 음성 변환을위한 개별 자체 감독 음성 표현 (2022), Wendong Gan et al. [PDF]
ISTFTNET : 역 단지 푸리에 변환 (2022), Takuhiro Kaneko et al. [PDF]
다중 대역 생성 및 역 단지 푸리에 변환 (2022)을 갖춘 가볍고 고 충실도 엔드 투 엔드 텍스트 음성 연설 , Masaya Kawamura et al. [PDF]
신발 끈에 대한 신경 언어 합성 : LPCNET의 효율성 개선 (2022), Jean-Marc Valin et al. [PDF]
Nansy ++ : 신경 분석 및 합성을 통한 통합 음성 합성 (2022), Hyeong-Sook Choi et al. [PDF]
사전 학년 : 데이터 의존적 적응 이전 (2022)으로 조건부 데노이징 확산 모델을 개선 , Sang-Gil Lee et al. [PDF]
프롬프트 : 텍스트 설명 (2022)이있는 제어 가능한 텍스트 음성 연설 (Zhifang Guo et al. [PDF]
SANE-TTS : 안정적이고 자연스럽고 자연스럽게 다국어 텍스트-음성 (2022), Hyunjae Cho et al. [PDF]
매우 낮은 알고리즘 대기 시간 (2022)으로 Stft-Domain 신경 언어 향상 , Zhong-Qiu Wang et al. [PDF]
단순하고 효과적인 감독되지 않은 음성 합성 (2022), Alexander H. Liu et al. [PDF]
사양 : 적응 소음 스펙트럼 쉐이핑 (2022), Yuma Koizumi et al. [PDF]
소스 필터 hifi-gan : 빠르고 피치 제어 가능한 고 충실도 신경 보코더 (2022), Reo Yoneyama et al. [PDF]
Trinitts : 외부 조정기가없는 피치 제어 가능한 엔드 투 엔드 TTS (2022), Yoon-Cheol Ju et al. [PDF]
멀티 스트림 인코더 및 효율적인 스피커 표현을 사용한 제로 샷 교차 전송 (2022), Yibin Zheng et al. [PDF]
Instructtts : 자연 언어 스타일 프롬프트 (2023)를 가진 개별 잠복 공간의 표현 TT 모델링 , Dongchao Yang et al. [PDF]
Matcha-TTS : 조건부 흐름 일치 (2023)가있는 빠른 TTS 아키텍처 , Shivam Mehta et al. [PDF]
Mega-TTS : 고유 유도 바이어스 (2023), Ziyue Jiang et al. [PDF]
Mega-Tts 2 : 임의의 길이의 음성 프롬프트 (2023), Ziyue Jiang et al. [PDF]
자연 언어의 클래스 기반 N- 그램 모델 (1992), Peter F. Brown et al. [PDF]
언어 모델링을위한 평활 기술에 대한 경험적 연구 (1996), Stanley F. Chen et al. [PDF]
신경 확률 언어 모델 (2000), Yoshua Bengio et al. [PDF]
중국 Pinyin Input에 대한 새로운 통계적 접근법 (2000), Zheng Chen et al. [PDF]
차별적 N- 그램 언어 모델링 (2007), Brian Roark et al. [PDF]
중국 Pinyin Input Method Engine (2015), S Chen et al. [PDF]
자동 음성 인식을위한 재발 성 신경망 언어 모델의 효율적인 교육 및 평가 (2016), Xie Chen et al. [PDF]
Exploring the limits of language modeling (2016), R Jozefowicz et al. [pdf]
On the State of the Art of Evaluation in Neural Language Models (2016), G Melis et al. [pdf]
Pay Less Attention with Lightweight and Dynamic Convolutions (2019), Felix Wu et al.[pdf]
Estimating Confidence using Word Lattices (1997), T. Kemp et al. [pdf]
Large vocabulary decoding and confidence estimation using word posterior probabilities (2000), G. Evermann et al. [pdf]
Combining Information Sources for Confidence Estimation with CRF Models (2011), MS Seigel et al. [pdf]
Speaker-Adapted Confidence Measures for ASR using Deep Bidirectional Recurrent Neural Networks (2018), M. ́A. Del-Agua et al. [pdf]
Bi-Directional Lattice Recurrent Neural Networks for Confidence Estimation (2018), Q. Li et al. [pdf]
Confidence Estimation for Black Box Automatic Speech Recognition Systems Using Lattice Recurrent Neural Networks (2020), A. Kastanos et al. [pdf]
CONFIDENCE ESTIMATION FOR ATTENTION-BASED SEQUENCE-TO-SEQUENCE MODELS FOR SPEECH RECOGNITION (2020), Qiujia Li et al. [pdf]
Residual Energy-Based Models for End-to-End Speech Recognition (2021), Qiujia Li et al. [pdf]
Multi-Task Learning for End-to-End ASR Word and Utterance Confidence with Deletion Prediction (2021), David Qiu et al. [pdf]
Onsets and Frames: Dual-Objective Piano Transcription (2017), Curtis Hawthorne et al. [pdf]
Unsupervised Singing Voice Conversion (2019), Eliya Nachmani et al. [pdf]
ByteSing- A Chinese Singing Voice Synthesis System Using Duration Allocated Encoder-Decoder Acoustic Models and WaveRNN Vocoders (2020), Yu Gu et al. [pdf]
DurIAN-SC: Duration Informed Attention Network based Singing Voice Conversion System (2020), Liqiang Zhang et al. [pdf]
HiFiSinger: Towards High-Fidelity Neural Singing Voice Synthesis (2020), Jiawei Chen et al. [pdf]
Jukebox: A Generative Model for Music (2020), Prafulla Dhariwal et al. [pdf]
DiffSinger: Singing Voice Synthesis via Shallow Diffusion Mechanism (2021), Jinglin Liu et al. [pdf]
MLP Singer: Towards Rapid Parallel Korean Singing Voice Synthesis (2021), Jaesung Tae et al. [pdf]
Multi-Singer: Fast Multi-Singer Singing Voice Vocoder With A Large-Scale Corpus (2021), Rongjie Huang et al. [pdf]
MusicBERT: Symbolic Music Understanding with Large-Scale Pre-Training (2021), Mingliang Zeng et al. [pdf]
N-Singer: A Non-Autoregressive Korean Singing Voice Synthesis System for Pronunciation Enhancement (2021), Gyeong-Hoon Lee et al. [pdf]
Non-Autoregressive TTS with Explicit Duration Modelling for Low-Resource Highly Expressive Speech (2021), Raahil Shah et al. [pdf]
PeriodNet: A non-autoregressive waveform generation model with a structure separating periodic and aperiodic components (2021), Yukiya Hono et al. [pdf]
Sequence-to-Sequence Piano Transcription with Transformers (2021), Curtis Hawthorne et al. [pdf]
M4Singer: a Multi-Style, Multi-Singer and Musical Score Provided Mandarin Singing Corpus (2022), Lichao Zhang et al. [pdf]
Opencpop: A High-Quality Open Source Chinese Popular Song Corpus for Singing Voice Synthesis (2022), Yu Wang et al. [pdf]
WeSinger: Data-augmented Singing Voice Synthesis with Auxiliary Losses (2022), Zewang Zhang et al. [pdf]
WeSinger 2: Fully Parallel Singing Voice Synthesis via Multi-Singer Conditional Adversarial Training (2022), Zewang Zhang et al. [pdf]
The Reversible Residual Network: Backpropagation Without Storing Activations (2017), Aidan N. Gomez et al. [pdf]
Soft-DTW: a Differentiable Loss Function for Time-Series (2018), Marco Cuturi et al. [pdf]
FlowSeq: Non-Autoregressive Conditional Sequence Generation with Generative Flow (2019), Xuezhe Ma et al. [pdf]
Learning Problem-agnostic Speech Representations from Multiple Self-supervised Tasks (2019), Santiago Pascual et al. [pdf]
Self-supervised audio representation learning for mobile devices (2019), Marco Tagliasacchi et al. [pdf]
SinGAN: Learning a Generative Model from a Single Natural Image (2019), Tamar Rott Shaham et al. [pdf]
Audio2Face: Generating Speech/Face Animation from Single Audio with Attention-Based Bidirectional LSTM Networks (2019), Guanzhong Tian et al. [pdf]
Attention is Not Only a Weight: Analyzing Transformers with Vector Norms (2020), Goro Kobayashi et al. [pdf]