Audiolm: Ein Sprachmodellierungsansatz zur Audiogenerierung (2022), Zalán Borsos et al. [PDF]
Audioldm: Text-to-Audio-Generation mit latenten Diffusionsmodellen (2023), Haohe Liu et al. [PDF]
Musiclm: Musik aus Text (2023) generieren , Andrea Agostinelli et al. [PDF]
Moûsai: Text-to-Music-Generation mit latenter Latentdiffusion (2023), Flavio Schneider et al. [PDF]
Noise2Music: Text-konditionierte Musikgenerierung mit Diffusionsmodellen (2023), Qingqing Huang et al. [PDF]
Eine Einführung in die Anwendung der Theorie der probabilistischen Funktionen eines Markov -Prozesses zur automatischen Spracherkennung (1982), Se Levinson et al. [PDF]
Lalit R. Bahl et al . [PDF]
Heterogene akustische Messungen und Mehrfachklassifizierer für die Spracherkennung (1986), Andrew K. Halberstadt. [PDF]
Maximale gegenseitige Informationsschätzung von Hidden Markov -Modellparametern für die Spracherkennung (1986), Lalit R. Bahi et al. [PDF]
Ein Tutorial über versteckte Markov -Modelle und ausgewählte Anwendungen in der Spracherkennung (1989), Lawrence R Rabiner. [PDF]
Phonemerkennung unter Verwendung von Zeitverzögerung neuronalen Netzwerken (1989), Alexander H. Wabel et al. [PDF]
Lautsprecherunabhängige Telefonerkennung mit Hidden Markov Models (1989), Kai-Fu Lee et al. [PDF]
Hidden Markov -Modelle für Spracherkennung (1991), BH Juang et al. [PDF]
Überprüfung der Architekturen von TDNN (Zeitverzögerung Neurales Netzwerk) für Spracherkennung (2014), Masahide Sugiyamat et al. [PDF]
Verbindungsspracherkennung: Ein Hybridansatz (1994), Herve Bourlard et al. [PDF]
Ein Nachbearbeitungssystem zur Erhöhung reduzierter Wortfehlerraten: Erkennungsausgangsfehlerreduzierung (ROver) (1997), JG Fiscus. [PDF]
Spracherkennung mit gewichteten Finite-State-Wandlern (2001), M Mohri et al. [PDF]
Rahmenweise Phonemklassifizierung mit bidirektionalem LSTM und anderen neuronalen Netzwerkarchitekturen (2005), Alex Graves et al. [PDF]
Connectionist Temporale Klassifizierung: Kennzeichnung nicht segmentierter Sequenzdaten mit wiederkehrenden neuronalen Netzwerken (2006), Alex Graves et al. [PDF]
Das Kaldi Spracherkennungs -Toolkit (2011), Daniel Povey et al. [PDF]
Anwendung von Konzepten für Faltungsnetzwerke auf das Hybrid-NN-HMM-Modell für Spracherkennung (2012), Ossama Abdel-Hamid et al. [PDF]
Kontextabhängige vorgeschriebene tiefe neuronale Netzwerke für die Spracherkennung mit großer Vokumente (2012), George E. Dahl et al. [PDF]
Deep Neural Networks für die akustische Modellierung in der Spracherkennung (2012), Geoffrey Hinton et al. [PDF]
Sequenztransduktion mit wiederkehrenden neuronalen Netzwerken (2012), Alex Graves et al. [PDF]
Tiefe Faltungsnetzwerke für LVCSR (2013), Tara N. Sainath et al. [PDF]
Verbesserung von tiefen neuronalen Netzwerken für LVCSR unter Verwendung von behelfenden linearen Einheiten und Dropout (2013) haben George E. Dahl et al. [PDF]
Verbesserung von CD-DNN-HMM mit niedrigem Ressourcen mithilfe von Dropout und mehrsprachiger DNN-Training (2013) haben Yajie Miao et al. [PDF]
Verbesserungen der tiefen Faltungsnetzwerke für LVCSR (2013), Tara N. Sainath et al. [PDF]
Paradigmen für maschinelles Lernen zur Spracherkennung: Ein Überblick (2013), Li Deng et al. [PDF]
Jüngste Fortschritte in Deep Learning for Speech Research bei Microsoft (2013), Li Deng et al. [PDF]
Spracherkennung mit tiefen wiederkehrenden neuronalen Netzwerken (2013), Alex Graves et al. [PDF]
Faltungsgängernetzwerke für die Telefonerkennung (2014), László Tóth et al. [PDF]
Faltungsverkleidungsnetzwerke für Spracherkennung (2014), Ossama Abdel-Hamid et al. [PDF]
Kombination von Zeit- und Frequenz-Domänen-Faltung in der Telefonerkennung von Neural Network (2014), László Tóth. [PDF]
Tiefe Sprache: Skalierung von End-to-End-Spracherkennung (2014), Awni Y. Hannun et al. [PDF]
End-to-End-kontinuierliche Spracherkennung unter Verwendung von aufmerksamkeitsbasiertem wiederkehrenden NN: Erst Ergebnisse (2014), Jan Chorowski et al. [PDF]
Erstpass großes Vokabular kontinuierliche Spracherkennung unter Verwendung von bidirektionalen rezidivierenden DNNs (2014), Andrew L. Maas et al. [PDF]
Lange Kurzzeitgedächtnis rezidivierende neuronale Netzwerkarchitekturen für große akustische Modellierung (2014), Hasim Sak et al. [PDF]
Robustes CNN-basierter Spracherkennung mit Gabor Filter Kernels (2014), Shuo-Yiin Chang et al. [PDF]
Stochastische Pooling-Maxout-Netzwerke für Spracherkennung mit niedriger Ressourcen (2014), Meng Cai et al. [PDF]
In Richtung End-to-End-Spracherkennung mit wiederkehrenden neuronalen Netzwerken (2014) haben Alex Graves et al. [PDF]
Ein neuronaler Wandler (2015), N Jaitly et al. [PDF]
Aufmerksamkeitsbasierte Modelle für die Spracherkennung (2015), Jan Chorowski et al. [PDF]
Analyse des CNN-basierten Spracherkennungssystems unter Verwendung von RAW-Sprache als Input (2015), Dimitri Palaz et al. [PDF]
Faltungsverkäufer, langfristiges Kurzzeitgedächtnis, vollständig verbundene tiefe neuronale Netze (2015), Tara N. Sainath et al. [PDF]
Deep Figolational Neural Networks für die akustische Modellierung in Low Resource Languages (2015), William Chan et al. [PDF]
Deep Neural Networks für einkanales Multi-Talker-Spracherkennung (2015), Chao Weng et al. [PDF]
EESEN: End-to-End-Spracherkennung unter Verwendung von Deep RNN-Modellen und WFST-basierten Decoding (2015), Y Miao et al. [PDF]
Schnelle und genaue rezidivierende Akustikmodelle für neuronale Netze für die Spracherkennung (2015), Hasim Sak et al. [PDF]
Lexikonfreie Konversationsspracherkennung mit neuronalen Netzwerken (2015), Andrew L. Maas et al. [PDF]
Online -Sequenztraining von wiederkehrenden neuronalen Netzwerken mit Connectionist Temporal Classification (2015), Kyuyeon Hwang et al. [PDF]
Fortschritte in der All-Neural-Rede-Anerkennung (2016), Geoffrey Zweig et al. [PDF]
Fortschritte in sehr tiefen Faltungsnetzwerken für LVCSR (2016), Tom Sercu et al. [PDF]
End-to-End-aufmerksamkeitsbasierte große Vokabular-Spracherkennung (2016), Dzmitry Bahdanau et al. [PDF]
Deep Figolutional Neural Networks mit schichtweiter Kontext-Expansion und Aufmerksamkeit (2016), Dong Yu et al. [PDF]
Deep Speech 2: End-to-End-Spracherkennung in Englisch und Mandarin (2016), Dario Amodei et al. [PDF]
End-to-End-aufmerksamkeitsbasierte ferne Spracherkennung mit Highway LSTM (2016), Hassan Taherian. [PDF]
Gemeinsame CTC-Ansichts-basierte End-to-End-Spracherkennung unter Verwendung von Multitasking Learning (2016), Suyoun Kim et al. [PDF]
Hören Sie, teilnehmen und buchstabieren: Ein neuronales Netzwerk für große Vokabular -Konversationsredenerkennung (2016), William Chan et al. [PDF]
Latent Sequence Decompositions (2016), William Chan et al. [PDF]
Modellierungszeit-Frequenzmuster mit LSTM vs. Faltungsarchitekturen für LVCSR-Aufgaben (2016), Tara N. Sainath et al. [PDF]
Wiederkehrende Modelle für auditorische Aufmerksamkeit bei der Erkennung von Sprachunterkünften mit mehreren Mikrophonen (2016), Suyoun Kim et al. [PDF]
Segmental rezidivierende neuronale Netze für die End-to-End-Spracherkennung (2016), Liang Lu et al. [PDF]
Jan Chorowski et al . [PDF]
Sehr tiefe Faltungsnetzwerke für läuerische Spracherkennung (2016), Yanmin Qian et al. [PDF]
Sehr tiefe Faltungsnetzwerke für die End-to-End-Spracherkennung (2016), Yu Zhang et al. [PDF]
Tom Sercu et al. [PDF]
WAV2Letter: Ein End-to-End-Revet-basierter Spracherkennungssystem (2016), Ronan Colrobert et al. [PDF]
Aufmerksame Faltungsverkleidung neuronales Netzwerk -basierter Sprachemotionserkennung: Eine Studie über die Auswirkungen von Input -Merkmalen, Signallänge und Acted Speech (2017), Michael Neumann et al. [PDF]
Mohamed Amine Menacer et al . [PDF]
Fortschritte bei der gemeinsamen CTC-Einhaltung-basierten End-to-End-Spracherkennung mit einem tiefen CNN-Encoder und RNN-LM (2017), Takaaki Hori et al. [PDF]
Ein Netzwerk von tiefen neuronalen Netzwerken für die ferne Spracherkennung (2017), Mirco Ravanelli et al. [PDF]
Chung- Cheg Chiu et al. [PDF]
Hany Ahmed et al . [PDF]
Aufmerksamkeitsbasierte End-to-End-Spracherkennung in Mandarin (2017), C Shan et al. [PDF]
Bauen von DNN -Akustikmodellen für große Spracherkennung großer Wortschatz (2017), Andrew L. Maas et al. [PDF]
Direkte Akustik-zu-Wort-Modelle für die englische Gesprächssprache (2017), Kartik Audhkhasi et al. [PDF]
Deep Learning für umweltversorgte Spracherkennung: Ein Überblick über die jüngsten Entwicklungen (2017), Zixing Zhang et al. [PDF]
Englische Konversations -Telefon -Spracherkennung durch Menschen und Maschinen (2017), George Saon et al. [PDF]
ESE: Effiziente Spracherkennungsmotor mit spärlicher LSTM auf FPGA (2017), Song Han et al. [PDF]
Untersuchung der Sprachverbesserung mit generativen kontroversen Netzwerken für eine robuste Spracherkennung (2017) haben Chris Donahue et al. [PDF]
Tiefes LSTM für große Vokabeln kontinuierliche Spracherkennung (2017), Xu Tian et al. [PDF]
Dynamische Schichtnormalisierung für adaptive neuronale akustische Modellierung in der Spracherkennung (2017), Taesup Kim et al. [PDF]
GRAM-CTC: Selektion für automatische Einheiten und Zielzersetzung für die Sequenzmarkierung (2017), Hairong Liu et al. [PDF]
Verbesserung der Leistung von Online -Nerventransducer -Modellen (2017), Tara N. Sainath et al. [PDF]
Lernfilterbänke aus der RAW -Rede für Telefonerkennung (2017), Neil Zeghidour et al. [PDF]
Multichannel End-to-End-Spracherkennung (2017), Tsubasa Ochiai et al. [PDF]
Multi-Task-Lernen mit CTC und Segment CRF für Spracherkennung (2017), Liang Lu et al. [PDF]
Multichannel -Signalverarbeitung mit tiefen neuronalen Netzwerken für die automatische Spracherkennung (2017), Tara N. Sainath et al. [PDF]
Mehrsprachige Spracherkennung mit einem einzigen End-to-End-Modell (2017), Shubham Toshniwal et al. [PDF]
Optimierung der erwarteten Wortfehlerrate durch Stichproben für die Spracherkennung (2017), Matt Shannon. [PDF]
CTC -Netzwerke für die automatische Spracherkennung (2017), Yisen Wang et al. [PDF]
Residual LSTM: Entwurf einer tiefen wiederkehrenden Architektur für eine entfernte Spracherkennung (2017), Jaeyoung Kim et al. [PDF]
Wiederkehrende Modelle für auditorische Aufmerksamkeit bei der Erkennung von Sprachunterkünften mit mehreren Mikrophonen (2017), Suyoun Kim et al. [PDF]
Reduzierung der Verzerrung in Produktionssprachmodellen (2017), Eric Battenberg et al. [PDF]
Robuste Spracherkennung unter Verwendung generativer kontroverser Netzwerke (2017), Anuroop Sriram et al. [PDF]
Hochmoderne Spracherkennung mit Sequenz-zu-Sequenz-Modellen (2017) (2017), Chung-Cheg Chiu et al. [PDF]
In Richtung Sprachuniversal-End-to-End-Spracherkennung (2017) haben Suyoun Kim et al. [PDF]
Beschleunigung der rezidivierenden neuronalen Netzwerksprachenmodell -basierte Online -Spracherkennungssystem (2018), K Lee et al. [PDF]
Ein verbessertes Hybrid-CTC-Einhaltung-Modell für die Spracherkennung (2018), Zhe Yuan et al. [PDF]
Hybrid CTC-Ansichtsbasis-Basis-End-to-End-Spracherkennung unter Verwendung von Subword-Einheiten (2018), Zhangyu Xiao et al. [PDF]
Spezifikation: Eine einfache Datenerweiterungsmethode zur automatischen Spracherkennung (2019), Daniel S. Park et al. [PDF]
VQ-WAV2VEC: Selbster überdachtes Lernen diskreter Sprachrepräsentationen (2019), Alexei Baevski et al. [PDF]
Effektivität von selbst übertriebener Vorausbildung für die Spracherkennung (2020), Alexei Baevski et al. [PDF]
Verbessertes lautes Student Training für automatische Spracherkennung (2020), Daniel S. Park, et al. [PDF]
ContextNet: Verbesserung der neuronalen Faltungsnetzwerke für die automatische Spracherkennung mit dem globalen Kontext (2020), Wei Han, et al. [PDF]
Konformer: Faltungsverzinsung für Spracherkennung (2020), Anmol Gulati, et al. [PDF]
Beim Vergleich der beliebten End-to-End-Modelle für die groß angelegte Spracherkennung (2020) haben Jinyu Li et al. [PDF]
Augmented Contrastive Self-übermäßiges Lernen für Audio-invariante Darstellungen (2021), Melikasadat Emami et al. [PDF]
Effizientes Training von Audiotransformatoren mit Patchout (2021), Khaled Koutini et al. [PDF]
Mixspeech: Datenvergrößerung für die automatische Spracherkennung mit niedriger Ressourcen (2021), Linghui Meng et al. [PDF]
Multi-Coder-Lern- und Stream-Fusion für transformatorbasierte End-to-End-automatische Spracherkennung (2021), Timo Lohrenz et al. [PDF]
Spezifikation ++: Eine versteckte Raumdatenvergrößerungsmethode für die Klassifizierung der akustischen Szene (2021), Helin Wang et al. [PDF]
Specmix: Eine Methode für Mischprobendaten für das Training mit Zeitfrequenzdomänenmerkmalen (2021), Gwantae Kim et al. [PDF]
Die Geschichte der Sprachanerkennung bis zum Jahr 2030 (2021), Awni Hannun et al. [PDF]
Die Sprachumwandlung kann die ASR in Einstellungen mit sehr niedriger Ressourcen (2021) verbessern , Matthew Baas et al. [PDF]
Warum führt CTC zu einem maximalen Verhalten? (2021), Albert Zeyer et al. [PDF]
E2E-Segmentierer: gemeinsame Segmentierung und Dekodierung für Langform ASR (2022), W. Ronny Huang et al. [PDF]
Musikquelle Trennung mit Generativfluss (2022), Ge Zhu et al. [PDF]
Verbesserung der selbstbewerteten Sprachdarstellungen durch Disentangling-Sprecher (2022), Kaizhi Qian et al. [PDF]
Robuste Spracherkennung durch große schwache Überwachung (2022), Alec Radford et al. [PDF]
Über die Nur-Decoder-Architektur für Sprache zu Text und Integration von großer Sprache (2023) haben Jian Wu et al. [PDF]
Lautsprecherüberprüfung unter Verwendung von Adapted Gaußschen Mischungsmodellen (2000), Douglas A.Reynolds et al. [PDF]
Ein Tutorial zur textunabhängigen Lautsprecherüberprüfung (2004), Frédéric Bimbot et al. [PDF]
Tiefe neuronale Netzwerke für kleine fußabdruck textabhängige Lautsprecherüberprüfung (2014), E Variani et al. [PDF]
Deep Speaker Vectors für semi-textunabhängige Sprecherverifizierung (2015), Lantian Li et al. [PDF]
Deep Speaker: Ein End-to-End-Einbettungssystem für neuronale Sprecher (2017), Chao Li et al. [PDF]
Deep Speaker Feature Learning für textunabhängige Lautsprecherüberprüfung (2017), Lantian Li et al. [PDF]
Überprüfung der Deep -Lautsprecher: Benötigen wir Ende zu Ende? (2017), Dong Wang et al. [PDF]
Sprecherdurch Diatrisierung mit LSTM (2017), Quan Wang et al. [PDF]
Die textunabhängige Lautsprecherüberprüfung unter Verwendung von 3D-Faltungsnetzwerken (2017) (2017), Amirsina Torfi et al. [PDF]
End-to-End-textunabhängige Lautsprecherüberprüfung mit Triplettverlust bei kurzen Äußerungen (2017), Chunlei Zhang et al. [PDF]
Tiefes neuronales Netzwerk Einbettung für textunabhängige Lautsprecherüberprüfung (2017), David Snyder et al. [PDF]
Tiefe diskriminative Einbettungen für die Dauer robuster Sprecherüberprüfung (2018), Na Li et al. [PDF]
Lerndiskriminierende Merkmale für die Identifizierung und Überprüfung der Sprecher (2018), Sarthak Yadav et al. [PDF]
Großer Rand -Softmax -Verlust für die Verifizierung der Sprecher (2019), Yi Liu et al. [PDF]
Unüberwachte Merkmalserhöhung für die Verifizierung der Sprecher (2019), Phani Sankar Nidadavolu et al. [PDF]
Feature -Verbesserung mit tiefen Merkmalsverlusten für die Verifizierung von Sprechern (2019), Saurabh Kataria et al. [PDF]
Generalized End2end -Verlust für die Verifizierung der Sprecher (2019), Li Wan et al. [PDF]
Räumliche Pyramidencodierung mit konvexer Länge Normalisierung für die textunabhängige Lautsprecherüberprüfung (2019), Youngmoon Jung et al. [PDF]
VOXSRC 2019: Die erste Herausforderung der Voxceleb -Sprecher -Erkennung (2019), Sohn Chung et al. [PDF]
Aber Systembeschreibung für Voxceleb Speaker Recognition Challenge 2019 (2019), Hossein Zeinini et al. [PDF]
Die Beschreibung der ID-F & E-Systembeschreibung für die Kurzdauer-Lautsprecherüberprüfung Herausforderung 2021 (2021), Alenin et al. [PDF]
Sprachumwandlung mit tiefem bidirektionalem, langfristigem Kurzzeitgedächtnisbasis wiederkehrende neuronale Netzwerke (2015), Lifa Sun et al. [PDF]
Phonetische Posteriorgrams für viele zu eins-zu-Eins-Sprachumwandlungen ohne paralleles Datentraining (2016), Lifa Sun et al. [PDF]
STARGAN-VC: Nichtparallel viele zu viele Sprachumwandlungen mit star generativen kontroversen Netzwerken (2018), Hirokazu Kameoka et al. [PDF]
AUTOVC: Null-Shot-Sprachstil-Transfer mit nur AutoEncoder-Verlust (2019), Kaizhi Qian et al. [PDF]
STARGAN-VC2: Deditionelle Methoden für die Stargan-basierte Sprachkonvertierung (2019), Takuhiro Kaneko et al. [PDF]
Unüberwachte End-to-End-Lernen von diskreten Spracheinheiten für die Sprachumwandlung (2019), Andy T. Liu et al. [PDF]
Aufmerksamkeitsbasierte Lautsprecher-Einbettungen für eine Ein-Schuss-Sprachumwandlung (2020), Tatsuma Ishihara et al. [PDF]
F0-konsistente, viele zu viele nicht parallele Sprachumwandlungen über bedingte Autocoder (2020), Kaizhi Qian et al. [PDF]
Erkennungssynthese-basierte nichtparallele Sprachumwandlung mit widersprüchlichen Lernen (2020), Jing-Xuan Zhang et al. [PDF]
Ein verbesserter Sternen für emotionale Sprachumwandlungen: Verbesserung der Sprachqualität und der Datenvergrößerung (2021), Xiangheng HE et al. [PDF]
Kurbel: Eine Open-Source-Software zur nichtparallelen Sprachumwandlung basierend auf vektor-quantisierten Variationsautoencoder (2021), Kazuhiro Kobayashi et al. [PDF]
CVC: Kontrastives Lernen für nichtparallele Sprachumwandlung (2021), Tingle Li et al. [PDF]
Noisevc: In Richtung hochwertiger Sprachumwandlung von Null-Shot (2021) (2021), Shijun Wang et al. [PDF]
Bei der Prosody-Modellierung für ASR+TTS-basierte Sprachumwandlung (2021) haben Wen-Chin Huang et al. [PDF]
STARGANV2-VC: Ein vielfältiger, unbeaufsichtigter, nicht paralleler Rahmen für die natürliche Umwandlung (2021), Yinghao Aaron Li et al. [PDF]
Shijun Wang et al . [PDF]
Signalschätzung aus modifizierter Kurzzeit-Fourier-Transformation (1993), Daniel W. Griffin et al. [PDF]
Text-to-Speech-Synthese (2009), Paul Taylor et al. [PDF]
Ein schneller Griffin-Lim-Algorithmus (2013), Nathanael Peraudin et al. [PDF]
TTS -Synthese mit bidirektionaler LSTM -basierter wiederkehrender neuronaler Netzwerke (2014), Yuchen Fan et al. [PDF]
Erster Schritt in Richtung End-to-End-parametrische TTS-Synthese: Generierung spektraler Parameter mit neuronaler Aufmerksamkeit (2016), Wenfu Wang et al. [PDF]
Jüngste Fortschritte in Google Echtzeit HMM-gesteuerter Auswahlsynthesizer (2016), Xavi Gonzalvo et al. [PDF]
Sampleernn: Ein bedingungsloses End-to-End-Modell der neuronalen Audiogenerierung (2016), Soroush Mehri et al. [PDF]
Wavenet: Ein generatives Modell für Raw Audio (2016), Aäron van Den Oord et al. [PDF]
CHAR2WAV: End-to-End-Sprachsynthese (2017), J Sotelo et al. [PDF]
Deep Voice: Echtzeit Neural Text-to-Speech (2017), Sercan O. Arik et al. [PDF]
Deep Voice 2: Multi-Speaker Neural Text-to Speech (2017), Sercan Arik et al. [PDF]
Deep Voice 3: 2000-Lautsprecher Neural Text-to-Speech (2017), Wei Ping et al. [PDF]
Natürliche TTS -Synthese durch Konditionierung von Wavenet auf Mel -Spektrogramm -Vorhersagen (2017), Jonathan Shen et al. [PDF]
Paralleles Wavenet: Fast High Fidelity Speechsynthese (2017), Aaron van Den Oord et al. [PDF]
Die statistische parametrische Sprachsynthese unter Verwendung generativer kontroverser Netzwerke im Rahmen eines Multi-Task-Lerngerüsts (2017), S Yang et al. [PDF]
Tacotron: In Richtung End-to-End-Sprachsynthese (2017), Yuxuan Wang et al. [PDF]
Yuxuan Wang et al. [PDF]
Voiceloop: Sprachanpassung und Synthese über eine phonologische Schleife (2017), Yaniv Taigman et al. [PDF]
Klarinette: Parallelwellenerzeugung in End-to-End-Text-zu-Sprache (2018), Wei Ping et al. [PDF]
Deep Feed-Forward Sequential Memory Networks für die Sprachsynthese (2018), Mengxiao Bi et al. [PDF]
LPCNET: Verbesserung der neuronalen Sprachsynthese durch lineare Vorhersage (2018), Jean-Marc Valin et al. [PDF]
Lernen latente Darstellungen für die Stilkontrolle und Transfer in der End-to-End-Sprachsynthese (2018), Ya-Jie Zhang et al. [PDF]
NEURAL -VOSICE -Klonen mit einigen Proben (2018), Sercan O. Arık et al. [PDF]
Daisy Stanton et al . [PDF]
Style Tokens: unbeaufsichtigte Modellierung, Kontrolle und Übertragung in der End-to-End-Sprachsynthese (2018), Y Wang et al. [PDF]
In Richtung End-to-End-Profisübertragung für die expressive Sprachsynthese mit Tacotron (2018) haben RJ Skerry-Ryan et al. [PDF]
Durian: Dauer informiertes Aufmerksamkeitsnetzwerk für die multimodale Synthese (2019), Chengzhu Yu et al. [PDF]
Schnelle Spektrogramminversion unter Verwendung von Multi-Head-Faltungsnetzwerken (2019) (2019), Sö Arık et al. [PDF]
Fastspeech: Fast, Robuster und kontrollierbarer Text zur Sprache (2019), Yi Ren et al. [PDF]
Yu Zhang et al . [PDF]
Meldung: Ein generatives Modell für Audio in der Frequenzdomäne (2019), Sean Vasquez et al. [PDF]
Multi-Sprecher-End-to-End-Sprachsynthese (2019), Jihyun Park et al. [PDF]
Melgan: Generative kontroverse Netzwerke für die bedingte Wellenform -Synthese (2019), Kundan Kumar et al. [PDF]
Neuronale Sprachsynthese mit Transformator Network (2019), Naihan Li et al. [PDF]
Parallel Neural Text-to Speech (2019), Kainan Peng et al. [PDF]
Vorausgebildete Textdarstellungen zur Verbesserung der Front-End-Textverarbeitung in der Mandarin-Text-zu-Sprache-Synthese (2019), Bing Yang et al. [PDF]
Paralleler Wellengegan: Ein Modell der schnellen Wellenformgenerierung basierend auf generativen widersprüchlichen Netzwerken mit Multi-Auflösungsspektrogram (2019), Ryuichi Yamamoto et al. [PDF] Es kommt zur gleichen Zeit wie Melgan heraus, während sich niemand gegenseitig bezieht ... Außerdem denke ich, dass das Gaußsche Geräusch unnötig ist, da Melspec sehr starke Informationen hat.
Problem-agnostische Spracheinbettungen für Text-to-Speech-Multi-Sprecher mit Sampleernn (2019), David Alvarez et al. [PDF]
Robuste Sequenz-zu-Sequenz-Akustikmodellierung mit schrittweise monotoner Aufmerksamkeit für Neural TTs (2019), Mutian HE et al. [PDF]
Zum Übertragungslernen für die End-to-End-Sprachsynthese aus tiefen vorgebrachten Sprachmodellen (2019) haben Wei Fang et al. [PDF]
Transferlernen von der Überprüfung der Lautsprecher bis zur Multispeaker-Text-zu-Sprach-Synthese (2019), Ye Jia et al. [PDF]
Wellenfluss: Ein kompaktes fließbasiertes Modell für RAW-Audio (2019), Wei Ping et al. [PDF]
Waveglow: Ein fließbasiertes generatives Netzwerk für die Sprachsynthese (2019), R Penger et al. [PDF]
Aligntts: Effizientes Feed-Forward-Text-zu-Sprach-System ohne explizite Ausrichtung (2020), Zhen Zeng et al. [PDF]
Boffin TTS: Anpassung von wenigen Schäden durch Bayes'sche Optimierung (2020), Henry B. Moss et al. [PDF]
Bündelter LPCNET: Vocoder für kostengünstige Nerventext-zu-Sprache-Systeme (2020), Ravichander Vipperla et al. [PDF]
Nachahmer: Viele zu viele feinkörnige Prosodienübertragungen für neuronale Text-zu-Sprache (2020), Sri Karlapati et al. [PDF]
Effiziente: Eine effiziente und qualitativ hochwertige Text-zu-Sprache-Architektur (2020), Chenfeng Miao et al. [PDF]
End-to-End-Gegnertextextex (2020), Jeff Donahue et al. [PDF]
Fastspeech 2: Fast und hochwertiger End-to-End-Text zur Sprache (2020), Yi Ren et al. [PDF]
FLOWTRON: Ein autoregressives flowbasiertes generatives Netzwerk für die Text-zu-Sprache-Synthese (2020), Rafael Valle et al. [PDF]
Flow-TTs: Chenfeng Miao et al. [PDF]
Guangzhi Sun et al . [PDF]
Erzeugen Sie unterschiedliche und natürliche Text-zu-Sprache-Proben unter Verwendung einer quantisierten feinkörnigen VAE und automatisch-regressiven Proben (2020), Guangzhi Sun et al. [PDF]
GLOW-TTS: Ein generativer Fluss für Text zu Sprache über monotonische Ausrichtungssuche (2020), Jaehyeon Kim et al. [PDF]
Hifi-Gan: Generative kontroverse Netzwerke für die effiziente und High-Fidelity-Sprachsynthese (2020), Jungil Kong et al. [PDF]
Ort-relative Aufmerksamkeitsmechanismen für robuste Langform-Sprachsynthesi (2020), Eric Battenberg et al. [PDF]
Multispeech: Multi-Sprecher-Text zur Sprache mit Transformator (2020), Mingjian Chen et al. [PDF]
Parallele Tacotron: Nicht-Autoregressive und kontrollierbare TTs (2020), Isaac Elias et al. [PDF]
Robutrans: Ein robustes transformatorbasiertes Text-zu-Sprach-Modell (2020), Naihan Li et al. [PDF]
Textunabhängige Lautsprecherüberprüfung mit Doppelaufmerksamkeitsnetzwerk (2020), Jingyu Li et al. [PDF]
Wanderbaum: Schätzung von Gradienten für die Wellenformgenerierung (2020), Nanxin Chen et al. [PDF]
Adaspeech: Adaptiver Text zur Sprache für benutzerdefinierte Stimme (2021), Mingjian Chen et al. [PDF]
Eine Umfrage zur neuronalen Sprachsynthese (2021), Xu Tan et al. [PDF]
Ahmed Mustafa et al . [PDF]
Controllable Cross-Sprecher-Emotionstransfer für die End-to-End-Sprachsynthese (2021), Tao Li et al. [PDF]
Dongyang Dai et al . [PDF]
Bedingter Variationspflicht-Autocodierer mit kontroversem Lernen für End-to-End-Text-zu-Sprach (2021), Jaehyeon Kim et al. [PDF]
Diffwave: Ein vielseitiges Diffusionsmodell für die Audio -Synthese (2021), Zhifeng Kong et al. [PDF]
Diff-TTs: Ein Denoising-Diffusionsmodell für Text-to-Speech (2021), Myeonghun Jeong et al. [PDF]
DelightfulTts: Das Microsoft -Sprach -Synthese -System für Blizzard Challenge 2021 (2021), Yanqing Liu et al. [PDF]
FRE-GAN: Gegentliche frequenzkonsistente Audio-Synthese (2021), Ji-hoon Kim et al. [PDF]
Vollband LPCNET: Keisuke Matsubara et al. [PDF]
Grad-TTs: Ein diffusions-probabilistisches Modell für Text-to-Speech (2021), Vadim Popov et al. [PDF]
GLOW-WAVEGAN: Lernsprachrepräsentationen aus GaN-basierten Variations-Auto-Coder für die Hochtreue-Flow-basierte Sprachsynthese (2021), Jian Cong et al. [PDF]
Patrick Lumban Tobing et al . [PDF]
Hierarchische Prosodiemodellierung für nicht autoregressive Sprachsynthese (2021), Chung-ming Chien et al. [PDF]
Itoˆtts und itoˆwave: Lineare stochastische Differentialgleichung ist alles, was Sie für die Audioerzeugung benötigen (2021), Shoule Wu et al. [PDF]
Jets: gemeinsam Fastspeech2 und Hifi -gan für das End-to-End-Text zu Sprache (2021), Dan Lim et al. [PDF]
META-VOICE: Fast Few-Shot-Style-Transfer für das Ausdruckssprachklonen mit Meta Learning (2021), Songxiang Liu et al. [PDF]
Neuronale HMMs sind alles, was Sie brauchen (für hochwertige aufmerksamkeitsfreie TTs) (2021), Shivam Mehta et al. [PDF]
Max Morrison et al . [PDF]
Eine TTS -Ausrichtung, um sie alle zu regieren (2021), Rohan Badlani et al. [PDF]
Karatuner: Gegen Ende der natürlichen Pitch -Korrektur für die Gesangsstimme in Karaoke (2021), Xiaobin Zhuang et al. [PDF]
PNG Bert: Augmented Bert auf Phonemen und Graphemen für neuronale TTs (2021), Ye Jia et al. [PDF]
Parallele Tacotron 2: Ein nicht autoregressives TTS-Modell mit differenzierbarer Dauermodellierung (2021), Isaac Elias et al. [PDF]
Portaspeech: Tragbare und hochwertige generative Text-zu-Sprach (2021), Yi Ren et al. [PDF]
Transformatorbasierte akustische Modellierung für die Streaming-Sprachsynthese (2021), Chunyang Wu et al. [PDF]
Triple M: Ein praktisches System für neuronaler Text zu Speech mit Multi-Tuidance-Aufmerksamkeit und Multi-Band-LPCNET (2021), Shilun Lin et al. [PDF]
TalkNet 2: Nicht-autoregressive Tiefe, trennbares Faltungsmodell für die Sprachsynthese mit explizitem Tonhöhen- und Dauer-Vorhersage (2021), Stanislav Beliaev et al. [PDF] TalkNet2 hat einen geringen Unterschied zu TalkNet, daher füge ich hier nicht TalkNet ein.
In Richtung Multi-Skala-Stilkontrolle für die ausdrucksstarke Sprachsynthese (2021) haben Xiang Li et al. [PDF]
Unified Source-Filter GaN: Unified Source-Filter-Netzwerk basierend auf der Faktorisierung von quasi-periodischen parallelen Wellengegan (2021), Reo Yoneyama et al. [PDF]
Yourtts: In Richtung Null-Shot-Multi-Sprecher-TTS und Null-Shot-Sprachumwandlung für alle (2021), Edesson Casanova et al. [PDF]
Avocodo: Generatives kontroverses Netzwerk für Artefakt-freie Vocoder (2022), Taejun Bak et al. [PDF]
Konsistenz-Konsistenz-Lernen mit nicht trennenden Sprachdaten für Null-Shot-Multi-Speaker-Text-zu-Sprache (2022), Byoung Jin Choi et al. [PDF]
Bündelter LPCNET2: Effiziente neuronale Vokoder, die Geräte von Cloud bis Edge (2022) abdecken , Sangjun Park et al. [PDF]
Cross-Speaker-Emotionsübertragung für Text-to-Speech-Niedrigressourcen unter Verwendung einer nichtparallelen Sprachumwandlung mit Pitch-Shift-Datenvergrößerung (2022), Ryo Terashima et al. [PDF]
FASTDIFF: Ein schnelles bedingtes Diffusionsmodell für eine hochwertige Sprachsynthese (2022), Rongjie Huang et al. [PDF]
Schnellgrad-TTs: In Richtung einer effizienten Diffusions-Sprachgenerierung auf CPU (2022) haben Ivan Vovk et al. [[PDF]
Glow-Wavegan 2: Hochwertige Null-Shot-Text-zu-Sprach-Synthese und jegliche Sprachumwandlung (2022), Yi Lei et al. [PDF]
HIFI ++: Ein einheitliches Rahmen für neuronale Vokodierung, Bandbreitenerweiterung und Sprachverbesserung (2022), Pavel Andreev et al. [PDF]
IQDUBBING: Prosody-Modellierung basierend auf diskreten selbstbewerteten Sprachrepräsentation für die Ausdrucksstimmungsumwandlung (2022), Wendong Gan et al. [PDF]
ISTFTNET: Schneller und leichtes Melspektogramm-Vokoder mit inverser Kurzzeit-Fourier-Transformation (2022), Takuhiro Kaneko et al. [PDF]
Leichte und hochwertige End-to-End-Text-zu-Sprache mit Multi-Band-Generation und inverse Kurzzeit-Fourier-Transformation (2022), Masaya Kawamura et al. [PDF]
Neuronale Sprachsynthese zur Schuhzeit: Verbesserung der Effizienz von LPCNET (2022), Jean-Marc Valin et al. [PDF]
Nansy ++: Einheitliche Sprachsynthese mit neuronaler Analyse und Synthese (2022), Hyeong-Seok Choi et al. [PDF]
Vorabbau: Verbesserung der bedingten Denoising-Diffusionsmodelle mit datenabhängiger adaptiver Prior (2022), Sang-Gil Lee et al. [PDF]
PromptTTS: Steuerbare Text-zu-Sprache mit Textbeschreibungen (2022), Zhifang Guo et al. [PDF]
Sane-TTS: Stabile und natürliche End-to-End-mehrsprachige Text-zu-Sprache (2022), Hyunjae Cho et al. [PDF]
STFT-Domain-Neuralsprachverstärkung mit sehr niedriger algorithmischer Latenz (2022), Zhong-Qiu Wang et al. [PDF]
Einfache und effektive unbeaufsichtigte Sprachsynthese (2022), Alexander H. Liu et al. [PDF]
Specgrad: Diffusionsprobabilistische modellbasierte neuronale Vokoder mit adaptiver Rauschspektralformung (2022), Yuma Koizumi et al. [PDF]
Source-Filter Hifigan: Fast und Pitch Controllable High Fidelity Neural Vocoder (2022), Reo Yoneyama et al. [PDF]
Trinitts: Pitch-kontrollierbares End-to-End-TTS ohne externe Aligner (2022), Yoon-Cheol Ju et al. [PDF]
Yibin zheng et al . [PDF]
Anweisungen: Modellierung ausdrucksstarker TTs im diskreten latenten Raum mit natürlicher Sprachstil -Eingabeaufforderung (2023), Dongchao Yang et al. [PDF]
Matcha-TTS: Eine schnelle TTS-Architektur mit bedingter Fluss Matching (2023), Shivam Mehta et al. [PDF]
Mega-TTS: Null-Shot-Text-zu-Sprache in Skala mit intrinsischer induktiver Vorspannung (2023), Ziyue Jiang et al. [PDF]
Mega-TTS 2: Null-Shot-Text-zu-Sprach mit willkürlichen Längenreden (2023), Ziyue Jiang et al. [PDF]
Klassenbasierte N-Gramm-Modelle der Natural Language (1992), Peter F. Brown et al. [PDF]
Eine empirische Untersuchung der Glättungstechniken für die Sprachmodellierung (1996), Stanley F. Chen et al. [PDF]
Ein neuronales probabilistisches Sprachmodell (2000), Yoshua Bengio et al. [PDF]
Ein neuer statistischer Ansatz zum chinesischen Pinyin -Eingang (2000), Zheng Chen et al. [PDF]
Brian Roark et al. [PDF]
NEURAL -Netzwerk -Sprachmodell für chinesische Pinyin -Eingangsmethode Engine (2015), S Chen et al. [PDF]
Effiziente Schulung und Bewertung von rezidivierenden neuronalen Netzwerksprachenmodellen für die automatische Spracherkennung (2016), Xie Chen et al. [PDF]
Erforschen Sie die Grenzen der Sprachmodellierung (2016), R Jozefowicz et al. [PDF]
On the State of the Art of Evaluation in Neural Language Models (2016), G Melis et al. [pdf]
Pay Less Attention with Lightweight and Dynamic Convolutions (2019), Felix Wu et al.[pdf]
Estimating Confidence using Word Lattices (1997), T. Kemp et al. [pdf]
Large vocabulary decoding and confidence estimation using word posterior probabilities (2000), G. Evermann et al. [pdf]
Combining Information Sources for Confidence Estimation with CRF Models (2011), MS Seigel et al. [pdf]
Speaker-Adapted Confidence Measures for ASR using Deep Bidirectional Recurrent Neural Networks (2018), M. ́A. Del-Agua et al. [pdf]
Bi-Directional Lattice Recurrent Neural Networks for Confidence Estimation (2018), Q. Li et al. [pdf]
Confidence Estimation for Black Box Automatic Speech Recognition Systems Using Lattice Recurrent Neural Networks (2020), A. Kastanos et al. [pdf]
CONFIDENCE ESTIMATION FOR ATTENTION-BASED SEQUENCE-TO-SEQUENCE MODELS FOR SPEECH RECOGNITION (2020), Qiujia Li et al. [pdf]
Residual Energy-Based Models for End-to-End Speech Recognition (2021), Qiujia Li et al. [pdf]
Multi-Task Learning for End-to-End ASR Word and Utterance Confidence with Deletion Prediction (2021), David Qiu et al. [pdf]
Onsets and Frames: Dual-Objective Piano Transcription (2017), Curtis Hawthorne et al. [pdf]
Unsupervised Singing Voice Conversion (2019), Eliya Nachmani et al. [pdf]
ByteSing- A Chinese Singing Voice Synthesis System Using Duration Allocated Encoder-Decoder Acoustic Models and WaveRNN Vocoders (2020), Yu Gu et al. [pdf]
DurIAN-SC: Duration Informed Attention Network based Singing Voice Conversion System (2020), Liqiang Zhang et al. [pdf]
HiFiSinger: Towards High-Fidelity Neural Singing Voice Synthesis (2020), Jiawei Chen et al. [pdf]
Jukebox: A Generative Model for Music (2020), Prafulla Dhariwal et al. [pdf]
DiffSinger: Singing Voice Synthesis via Shallow Diffusion Mechanism (2021), Jinglin Liu et al. [pdf]
MLP Singer: Towards Rapid Parallel Korean Singing Voice Synthesis (2021), Jaesung Tae et al. [pdf]
Multi-Singer: Fast Multi-Singer Singing Voice Vocoder With A Large-Scale Corpus (2021), Rongjie Huang et al. [pdf]
MusicBERT: Symbolic Music Understanding with Large-Scale Pre-Training (2021), Mingliang Zeng et al. [pdf]
N-Singer: A Non-Autoregressive Korean Singing Voice Synthesis System for Pronunciation Enhancement (2021), Gyeong-Hoon Lee et al. [pdf]
Non-Autoregressive TTS with Explicit Duration Modelling for Low-Resource Highly Expressive Speech (2021), Raahil Shah et al. [pdf]
PeriodNet: A non-autoregressive waveform generation model with a structure separating periodic and aperiodic components (2021), Yukiya Hono et al. [pdf]
Sequence-to-Sequence Piano Transcription with Transformers (2021), Curtis Hawthorne et al. [pdf]
M4Singer: a Multi-Style, Multi-Singer and Musical Score Provided Mandarin Singing Corpus (2022), Lichao Zhang et al. [pdf]
Opencpop: A High-Quality Open Source Chinese Popular Song Corpus for Singing Voice Synthesis (2022), Yu Wang et al. [pdf]
WeSinger: Data-augmented Singing Voice Synthesis with Auxiliary Losses (2022), Zewang Zhang et al. [pdf]
WeSinger 2: Fully Parallel Singing Voice Synthesis via Multi-Singer Conditional Adversarial Training (2022), Zewang Zhang et al. [pdf]
The Reversible Residual Network: Backpropagation Without Storing Activations (2017), Aidan N. Gomez et al. [pdf]
Soft-DTW: a Differentiable Loss Function for Time-Series (2018), Marco Cuturi et al. [pdf]
FlowSeq: Non-Autoregressive Conditional Sequence Generation with Generative Flow (2019), Xuezhe Ma et al. [pdf]
Learning Problem-agnostic Speech Representations from Multiple Self-supervised Tasks (2019), Santiago Pascual et al. [pdf]
Self-supervised audio representation learning for mobile devices (2019), Marco Tagliasacchi et al. [pdf]
SinGAN: Learning a Generative Model from a Single Natural Image (2019), Tamar Rott Shaham et al. [pdf]
Audio2Face: Generating Speech/Face Animation from Single Audio with Attention-Based Bidirectional LSTM Networks (2019), Guanzhong Tian et al. [pdf]
Attention is Not Only a Weight: Analyzing Transformers with Vector Norms (2020), Goro Kobayashi et al. [pdf]