Audiolm: une approche de modélisation du langage de la génération audio (2022), Zalán Borsos et al. [PDF]
Audioldm: génération de texte à audio avec des modèles de diffusion latente (2023), Haohe Liu et al. [PDF]
Musiclm: Génération de musique à partir de texte (2023), Andrea Agostinelli et al. [PDF]
Moûsai: génération de texte à musique avec diffusion latente à long contexte (2023), Flavio Schneider et al. [PDF]
Noise2Music: génération de musique conditionnée par texte avec des modèles de diffusion (2023), Qingqing Huang et al. [PDF]
Une introduction à l'application de la théorie des fonctions probabilistes d'un processus de Markov à la reconnaissance vocale automatique (1982), Se Levinson et al. [PDF]
Une approche maximale de vraisemblance de la reconnaissance de la parole continue (1983), Lalit R. Bahl et al. [PDF]
Mesures acoustiques hétérogènes et classificateurs multiples pour la reconnaissance de la parole (1986), Andrew K. Halberstadt. [PDF]
Estimation maximale des informations mutuelles des paramètres du modèle de Markov cachées pour la reconnaissance de la parole (1986), Lalit R. Bahi et al. [PDF]
Un tutoriel sur les modèles Hidden Markov et les applications sélectionnées en reconnaissance vocale (1989), Lawrence R Rabiner. [PDF]
Reconnaissance des phonèmes utilisant des réseaux de neurones à retard (1989), Alexander H. Waibel et al. [PDF]
Reconnaissance du téléphone indépendant du haut-parleur Utilisant les modèles Hidden Markov (1989), Kai-Fu Lee et al. [PDF]
Hidden Markov Modèles pour la reconnaissance vocale (1991), BH Juang et al. [PDF]
Revue des architectures TDNN (Time Rell Neural Network) pour la reconnaissance de la parole (2014), Masahide Sugiyamat et al. [PDF]
Reconnaissance de la parole connexe: une approche hybride (1994), Herve Bourlard et al. [PDF]
Un système de post-traitement pour produire des taux d'erreur de mots réduits: réduction des erreurs de vote de sortie de reconnaissance (Rover) (1997), JG Fiscus. [PDF]
Reconnaissance de la parole avec des transducteurs finis pondérés (2001), M Mohri et al. [PDF]
Classification des phonèmes d'images avec LSTM bidirectionnel et autres architectures de réseau neuronal (2005), Alex Graves et al. [PDF]
Classification temporelle connexe: étiquetage des données de séquence non segmentées avec des réseaux de neurones récurrents (2006), Alex Graves et al. [PDF]
La boîte à outils de reconnaissance de la parole Kaldi (2011), Daniel Povey et al. [PDF]
Appliquer des concepts de réseaux de neurones convolutionnels au modèle hybride NN-HMM pour la reconnaissance vocale (2012), Ossama Abdel-Hamid et al. [PDF]
Réseaux de neurones profonds prédépendants du contexte pour la reconnaissance de la parole de grande vocabulaire (2012), George E. Dahl et al. [PDF]
Réseaux de neurones profonds pour la modélisation acoustique dans la reconnaissance vocale (2012), Geoffrey Hinton et al. [PDF]
Transduction de séquence avec réseaux de neurones récurrents (2012), Alex Graves et al. [PDF]
Réseaux de neurones convolutionnels profonds pour LVCSR (2013), Tara N. Sainath et al. [PDF]
Amélioration des réseaux de neurones profonds pour LVCSR en utilisant des unités linéaires rectifiées et Dropout (2013), George E. Dahl et al. [PDF]
Amélioration du CD-DNN-HMM à faibles ressources à l'aide de Dropout et Multilingual DNN Training (2013), Yajie Miao et al. [PDF]
Améliorations des réseaux de neurones convolutionnels profonds pour LVCSR (2013), Tara N. Sainath et al. [PDF]
Paradigmes d'apprentissage automatique pour la reconnaissance vocale: un aperçu (2013), Li Deng et al. [PDF]
Les progrès récents de l'apprentissage en profondeur pour la recherche vocale à Microsoft (2013), Li Deng et al. [PDF]
Reconnaissance de la parole avec des réseaux de neurones récurrents profonds (2013), Alex Graves et al. [PDF]
Convolutionnel Deep Maxout Networks for Phone Recognition (2014), László Tóth et al. [PDF]
Réseaux de neurones convolutionnels pour la reconnaissance de la parole (2014), Ossama Abdel-Hamid et al. [PDF]
Combinant Convolution dans le domaine du temps et de la fréquence dans la reconnaissance téléphonique basée sur les réseaux neuronaux en convolution (2014), László Tóth. [PDF]
Discours profond: mise à l'échelle de la reconnaissance vocale de bout en bout (2014), Awni Y. Hannun et al. [PDF]
Reconnaissance de la parole continue de bout en bout utilisant NN récurrente basé sur l'attention: First Results (2014), Jan Chorowski et al. [PDF]
Premier passe-passe de la reconnaissance de la parole continue en utilisant des DNN récurrentes bidirectionnels (2014), Andrew L. Maas et al. [PDF]
Architectures de réseau neuronal à long terme à court terme pour la modélisation acoustique à grande échelle (2014), Hasim Sak et al. [PDF]
Robuste reconnaissance vocale basée sur CNN avec Gabor Filter Kernels (2014), Shuo-Yiin Chang et al. [PDF]
Réseaux maxout de mise en commun stochastique pour la reconnaissance de la parole à faible ressource (2014), Meng Cai et al. [PDF]
Vers la reconnaissance vocale de bout en bout avec des réseaux de neurones récurrents (2014), Alex Graves et al. [PDF]
Un transducteur neuronal (2015), N Jaitly et al. [PDF]
Modèles basés sur l'attention pour la reconnaissance vocale (2015), Jan Chorowski et al. [PDF]
Analyse du système de reconnaissance vocale basée sur CNN Utilisant la parole brute comme entrée (2015), Dimitri Palaz et al. [PDF]
Mémoire à court terme convolutionnelle et à court terme, réseaux de neurones profonds entièrement connectés (2015), Tara N. Sainath et al. [PDF]
Réseaux de neurones convolutionnels profonds pour la modélisation acoustique dans Low Resource Languages (2015), William Chan et al. [PDF]
Réseaux de neurones profonds pour la reconnaissance de la parole multi-talker à canal unique (2015), Chao Weng et al. [PDF]
EESEN: Reconnaissance vocale de bout en bout utilisant des modèles RNN profonds et un décodage basé sur WFST (2015), Y Miao et al. [PDF]
Modèles acoustiques de réseau neuronal rapides rapides et précis pour la reconnaissance vocale (2015), Hasim Sak et al. [PDF]
Reconnaissance de la parole conversationnelle sans lexique avec réseaux de neurones (2015), Andrew L. Maas et al. [PDF]
Formation de séquence en ligne des réseaux de neurones récurrents avec classification temporelle connexe (2015), Kyuyeon Hwang et al. [PDF]
Advances in All-Onural Speech Recognition (2016), Geoffrey Zweig et al. [PDF]
Progrès dans les réseaux de neurones convolutionnels très profonds pour LVCSR (2016), Tom Sercu et al. [PDF]
Reconnaissance de la parole du vocabulaire de bout en bout (2016), Dzmitry Bahdanau et al. [PDF]
Des réseaux de neurones convolutionnels profonds avec une expansion et une attention du contexte par couche (2016), Dong Yu et al. [PDF]
Deep Speech 2: Reconnaissance vocale de bout en bout en anglais et mandarin (2016), Dario Amodei et al. [PDF]
Reconnaissance éloignée de la parole de bout en bout avec autoroute LSTM (2016), Hassan Taherian. [PDF]
La reconnaissance vocale de bout en bout basée sur la CTC de CTC à l'aide de l'apprentissage multi-tâches (2016), Suyoun Kim et al. [PDF]
Écoutez, assister et épeler: un réseau de neurones pour la reconnaissance de la parole conversationnelle conversationnelle (2016), William Chan et al. [PDF]
Décompositions de séquence latente (2016), William Chan et al. [PDF]
Modélisation des modèles de fréquence temporelle avec LSTM vs Architectures convolutionnelles pour les tâches LVCSR (2016), Tara N. Sainath et al. [PDF]
Modèles récurrents d'attention auditive dans la reconnaissance de la parole à distance multi-microphone (2016), Suyoun Kim et al. [PDF]
Réseaux de neurones récurrents segmentaires pour la reconnaissance vocale de bout en bout (2016), Liang Lu et al. [PDF]
Vers un meilleur décodage et une intégration des modèles de langage dans les modèles de séquence à séquence (2016), Jan Chorowski et al. [PDF]
Réseaux de neurones convolutionnels très profonds pour la reconnaissance de la parole robuste du bruit (2016), Yanmin Qian et al. [PDF]
Réseaux convolutionnels très profonds pour la reconnaissance vocale de bout en bout (2016), Yu Zhang et al. [PDF]
Réseaux de neurones convolutionnels multilingues très profonds pour LVCSR (2016), Tom Sercu et al. [PDF]
WAV2letter: un système de reconnaissance vocale basé sur CONVNET de bout en bout (2016), Ronan Collobert et al. [PDF]
Reconnaissance de l'émotion de la parole basée sur le réseau neuronal attentif: une étude sur l'impact des caractéristiques d'entrée, de la longueur du signal et de la parole agi (2017), Michael Neumann et al. [PDF]
Système de reconnaissance vocale automatique améliorée pour l'arabe (2017), Mohamed Amine Menacer et al. [PDF]
Les progrès de la reconnaissance de la parole de bout en bout basée sur la CTC conjointe avec un encodeur CNN profond et RNN-LM (2017), Takaaki Hori et al. [PDF]
Un réseau de réseaux de neurones profonds pour la reconnaissance de la parole distante (2017), Mirco Ravanelli et al. [PDF]
Un modèle de séquence à séquence en ligne pour la reconnaissance de la parole bruyante (2017), Chung-Cheng Chiu et al. [PDF]
Une technique de clustering de haut-parleurs non supervisée basée sur SOM et I-Vectors for Vorthing Reconntion Systems (2017), Hany Ahmed et al. [PDF]
Reconnaissance vocale de bout en bout basée sur l'attention dans Mandarin (2017), C Shan et al. [PDF]
Construire des modèles acoustiques DNN pour la reconnaissance vocabulaire de vocabulaire (2017), Andrew L. Maas et al. [PDF]
Modèles directs de l'acoustique au mot pour la reconnaissance de la parole conversationnelle en anglais (2017), Kartik Audhkhasi et al. [PDF]
Deep Learning pour la reconnaissance de la parole robuste environnementale: un aperçu des développements récents (2017), Zixing Zhang et al. [PDF]
Reconnaissance de la parole téléphonique conversationnelle anglaise par les humains et les machines (2017), George Saon et al. [PDF]
ESE: Moteur de reconnaissance vocale efficace avec LSTM clairsemé sur FPGA (2017), Song Han et al. [PDF]
Exploration de l'amélioration de la parole avec des réseaux adversaires génératifs pour une reconnaissance vocale robuste (2017), Chris Donahue et al. [PDF]
LSTM profond pour la reconnaissance de la parole continue du grand vocabulaire (2017), Xu Tian et al. [PDF]
Normalisation dynamique de la couche pour la modélisation acoustique neuronale adaptative dans la reconnaissance vocale (2017), Taesup Kim et al. [PDF]
Gram-CTC: Sélection d'unité automatique et décomposition cible pour le marquage des séquences (2017), Hairong Liu et al. [PDF]
Amélioration des performances des modèles de transducteurs neuronaux en ligne (2017), Tara N. Sainath et al. [PDF]
Apprentissage Filterbanks à partir du discours brut pour la reconnaissance du téléphone (2017), Neil Zeghidour et al. [PDF]
Reconnaissance de la parole multicanal de bout en bout (2017), Tsubasa Ochiai et al. [PDF]
Apprentissage multi-tâches avec CTC et CRF segmentaire pour la reconnaissance vocale (2017), Liang Lu et al. [PDF]
Traitement du signal multicanal avec des réseaux de neurones profonds pour la reconnaissance automatique de la parole (2017), Tara N. Sainath et al. [PDF]
Reconnaissance de la parole multilingue avec un seul modèle de bout en bout (2017), Shubham Toshniwal et al. [PDF]
Optimisation du taux d'erreur des mots attendus via l'échantillonnage de la reconnaissance vocale (2017), Matt Shannon. [PDF]
Réseaux de CTC convolutionnels résiduels pour la reconnaissance automatique de la parole (2017), Yisen Wang et al. [PDF]
LSTM résiduel: conception d'une architecture récurrente profonde pour la reconnaissance de la parole distante (2017), Jaeyoung Kim et al. [PDF]
Modèles récurrents d'attention auditive dans la reconnaissance de la parole à distance multi-microphone (2017), Suyoun Kim et al. [PDF]
Réduction du biais dans les modèles de discours de production (2017), Eric Battenberg et al. [PDF]
Robuste reconnaissance vocale utilisant des réseaux adversaires génératifs (2017), Anuroop Sriram et al. [PDF]
Reconnaissance de la parole de pointe avec des modèles de séquence à séquence (2017), Chung-Cheng Chiu et al. [PDF]
Vers la reconnaissance vocale de bout en bout du langage (2017), Suyoun Kim et al. [PDF]
Accélérer le système de reconnaissance de la parole en ligne (2018), K Lee et al. [PDF]
Un modèle hybride de CTC hybride pour la reconnaissance vocale (2018), Zhe Yuan et al. [PDF]
La reconnaissance vocale de bout en bout hybride basée sur la CTC-Atention Using Subword Units (2018), Zhangyu Xiao et al. [PDF]
Prapage: une méthode d'augmentation des données simple pour la reconnaissance automatique de la parole (2019), Daniel S. Park et al. [PDF]
VQ-WAV2VEC: Apprentissage auto-supervisé des représentations de la parole discrètes (2019), Alexei Baevski et al. [PDF]
Efficacité de la pré-formation auto-supervisée pour la reconnaissance de la parole (2020), Alexei Baevski et al. [PDF]
Amélioration de la formation bruyante des étudiants pour la reconnaissance automatique de la parole (2020), Daniel S. Park, et al. [PDF]
Contextnet: Amélioration des réseaux de neurones convolutionnels pour la reconnaissance automatique de la parole avec le contexte mondial (2020), Wei Han, et al. [PDF]
CONFORMER: Transformateur augmenté en convolution pour la reconnaissance de la parole (2020), Anmol Gulati, et al. [PDF]
Sur la comparaison des modèles populaires de bout en bout pour la reconnaissance vocale à grande échelle (2020), Jinyu Li et al. [PDF]
Apprentissage auto-supervisé contrasté augmenté pour les représentations invariantes audio (2021), Melikasadat Emami et al. [PDF]
Formation efficace des transformateurs audio avec patchout (2021), Khaled Koutini et al. [PDF]
Mixspeech: Augmentation des données pour la reconnaissance vocale automatique à faible ressource (2021), Linghui Meng et al. [PDF]
Apprentissage multi-encodeur et fusion de flux pour la reconnaissance vocale automatique de bout en bout basée sur les transformateurs (2021), Timo Lohrenz et al. [PDF]
Specaugment ++: une méthode d'augmentation des données d'espace caché pour la classification des scène acoustiques (2021), Helin Wang et al. [PDF]
SpecMix: une méthode d'augmentation des données d'échantillons mixtes pour la formation avec les caractéristiques du domaine temps-fréquence (2021), Gwantae Kim et al. [PDF]
L'histoire de la reconnaissance vocale à l'année 2030 (2021), Awni Hannun et al. [PDF]
La conversion vocale peut améliorer l'ASR dans des paramètres de très faibles ressources (2021), Matthew Baas et al. [PDF]
Pourquoi CTC entraîne-t-il un comportement pointu? (2021), Albert Zeyer et al. [PDF]
Segmenteur E2E: segmentation et décodage conjoints pour ASR de forme longue (2022), W. Ronny Huang et al. [PDF]
Séparation de la source musicale avec flux génératif (2022), Ge Zhu et al. [PDF]
Amélioration des représentations de la parole auto-supervisées par des orateurs démêlant (2022), Kaizhi Qian et al. [PDF]
Reconnaissance de la parole robuste via une faible supervision à grande échelle (2022), Alec Radford et al. [PDF]
Sur l'architecture du décodeur uniquement pour l'intégration de la parole au texte et du modèle de langue grande (2023), Jian Wu et al. [PDF]
Vérification des conférenciers utilisant des modèles de mélange gaussien adaptés (2000), Douglas A.Reynolds et al. [PDF]
Un tutoriel sur la vérification des conférenciers indépendants du texte (2004), Frédéric Bimbot et al. [PDF]
Réseaux de neurones profonds pour la vérification des conférenciers dépendant du texte de petite empreinte (2014), E Variani et al. [PDF]
Vecteurs de haut-parleurs profonds pour la vérification des orateurs semi-texte (2015), Lantian Li et al. [PDF]
Président profond: un système d'incorporation de haut-parleur neuronal de bout en bout (2017), Chao Li et al. [PDF]
Apprentissage des éléments de haut-parleurs profonds pour la vérification des conférenciers indépendants du texte (2017), Lantian Li et al. [PDF]
Vérification profonde de l'orateur: avons-nous besoin de bout en bout? (2017), Dong Wang et al. [PDF]
Diarisation des conférenciers avec LSTM (2017), Quan Wang et al. [PDF]
Vérification des conférenciers indépendants du texte utilisant des réseaux de neurones convolutionnels 3D (2017), Amirsina Torfi et al. [PDF]
Vérification des conférenciers indépendants de bout en bout avec une perte de triplet sur de courtes énoncés (2017), Chunlei Zhang et al. [PDF]
Incorporation de réseau neuronal profond pour la vérification des conférenciers indépendants du texte (2017), David Snyder et al. [PDF]
Des intérêts discriminants profonds pour la vérification robuste de la durée (2018), Na Li et al. [PDF]
Caractéristiques discriminantes d'apprentissage pour l'identification et la vérification des conférenciers (2018), Sarthak Yadav et al. [PDF]
Grande perte de marge softmax pour la vérification des conférenciers (2019), Yi Liu et al. [PDF]
Amélioration des fonctionnalités non supervisées pour la vérification des conférenciers (2019), Phani Sankar Nidadavolu et al. [PDF]
Amélioration des fonctionnalités avec des pertes de fonctions profondes pour la vérification des conférenciers (2019), Saurabh Kataria et al. [PDF]
Perte end2end généralisée pour la vérification des conférenciers (2019), Li Wan et al. [PDF]
Encodage de pyramide spatial avec normalisation de la longueur convexe pour la vérification des haut-parleurs indépendants du texte (2019), Youngmoon Jung et al. [PDF]
VOXSRC 2019: Le premier défi de reconnaissance des conférenciers de Voxceleb (2019), Son Chung et al. [PDF]
Mais la description du système au défi de reconnaissance des haut-parleurs Voxceleb 2019 (2019), Hossein Zeinali et al. [PDF]
La description du système ID R&D pour le défi de vérification des haut-parleurs de courte durée 2021 (2021), Alénine et al. [PDF]
Conversion vocale utilisant des réseaux neuronaux récurrents à court terme à long terme en profondeur (2015), Lifa Sun et al. [PDF]
Postériorgrammes phonétiques pour la conversion vocale de plusieurs à un sans formation parallèle des données (2016), Lifa Sun et al. [PDF]
Stargan-VC: Conversion vocale non parallèle de plusieurs à plusieurs avec des réseaux adversaires génératifs de Star (2018), Hirokazu Kameoka et al. [PDF]
AUTOVC: transfert de style vocal zéro avec uniquement Autoencoder Loss (2019), Kaizhi Qian et al. [PDF]
Stargan-VC2: Repenser les méthodes conditionnelles pour la conversion vocale basée à Stargan (2019), Takuhiro Kaneko et al. [PDF]
Apprentissage de bout en bout non supervisé des unités linguistiques discrètes pour la conversion vocale (2019), Andy T. Liu et al. [PDF]
Incorporation de locuteurs basée sur l'attention pour la conversion vocale à un coup (2020), Tatsuma Ishihara et al. [PDF]
Conversion vocale non parallèle à plusieurs à plusieurs cohérentes par F0 via un autoencoder conditionnel (2020), Kaizhi Qian et al. [PDF]
Conversion vocale non parallèle basée sur la synthèse de la reconnaissance avec l'apprentissage adversaire (2020), Jing-Xuan Zhang et al. [PDF]
Un Stargan amélioré pour la conversion vocale émotionnelle: améliorer la qualité de la voix et l'augmentation des données (2021), Xiangheng He et al. [PDF]
Cranche: un logiciel open source pour la conversion vocale non parallèle basée sur un autoencoder variationnel qualifié de vecteur (2021), Kazuhiro Kobayashi et al. [PDF]
CVC: apprentissage contrastif pour la conversion vocale non parallèle (2021), Tingle Li et al. [PDF]
NoiseVC: Vers la conversion vocale de haute qualité (2021), Shijun Wang et al. [PDF]
Sur la modélisation de la prosodie pour la conversion vocale basée sur ASR + TTS (2021), Wen-Chin Huang et al. [PDF]
Starganv2-VC: un cadre diversifié, non supervisé et non parallèle pour la conversion vocale au son naturel (2021), Yinghao Aaron Li et al. [PDF]
Conversion vocale zéro-shot via l'apprentissage de la représentation de la prosodie auto-supervisée (2021), Shijun Wang et al. [PDF]
Estimation du signal de la transformée de Fourier à court terme modifiée (1993), Daniel W. Griffin et al. [PDF]
Synthèse du texte-parole (2009), Paul Taylor et al. [PDF]
Un algorithme rapide de Griffin-LIM (2013), Nathanael Perraudin et al. [PDF]
Synthèse TTS avec des réseaux de neurones récurrents basés sur LSTM bidirectionnels (2014), Yuchen Fan et al. [PDF]
Première étape vers la synthèse TTS paramétrique de bout en bout: générer des paramètres spectraux avec l'attention neuronale (2016), Wenfu Wang et al. [PDF]
Avancées récentes dans le synthétiseur de sélection d'unités de HMM en temps réel Google (2016), Xavi Gonzalvo et al. [PDF]
SAMPLERNN: Un modèle de génération audio neuronale inconditionnelle inconditionnel (2016), Soroush Mehri et al. [PDF]
WAVENET: A Generative Model for Raw Audio (2016), Aäron Van Den Oord et al. [PDF]
CHAR2WAV: Synthèse de la parole de bout en bout (2017), J Sotelo et al. [PDF]
Vocation profonde: Texte-to-the-the-the-the-the-the-the-the-the-the-disech en temps réel (2017), Sercan O. Arik et al. [PDF]
Deep Voice 2: Text-to-the-the-the-the-the-the-the-the-the-the-the-the-the-the-the-the-the-the-the-the-speech multipaker (2017), Sercan Arik et al. [PDF]
Deep Voice 3: 2000 Speaker Neural Text-to-Speech (2017), Wei Ping et al. [PDF]
Synthèse TTS naturelle en conditionnant les prédictions du wavenet sur le spectrogramme MEL (2017), Jonathan Shen et al. [PDF]
WAVENET parallèle: Synthèse de la parole rapide à haute fidélité (2017), Aaron van den Oord et al. [PDF]
Synthèse de la parole paramétrique statistique à l'aide de réseaux adversaires génératifs dans un cadre d'apprentissage multi-tâches (2017), S Yang et al. [PDF]
Tacotron: Vers la synthèse de la parole de bout en bout (2017), Yuxuan Wang et al. [PDF]
Découvrant des facteurs de style latent pour la synthèse de la parole expressive (2017), Yuxuan Wang et al. [PDF]
Voiceloop: Ajustement vocal et synthèse via une boucle phonologique (2017), Yaniv Taigman et al. [PDF]
Clarinette: génération d'ondes parallèles dans du texte à la dissection de bout en bout (2018), Wei Ping et al. [PDF]
Les réseaux de mémoire séquentiels en profondeur pour la synthèse de la parole (2018), Mengxiao Bi et al. [PDF]
LPCNET: Amélioration de la synthèse de la parole neurale par prédiction linéaire (2018), Jean-Marc Valin et al. [PDF]
Apprentissage des représentations latentes pour le contrôle du style et le transfert dans la synthèse de la parole de bout en bout (2018), Ya-Jie Zhang et al. [PDF]
Clonage de voix neuronale avec quelques échantillons (2018), Sercan O. Arık et al. [PDF]
Prédire le style de parole expressif à partir du texte dans Synthesis de bout en bout (2018), Daisy Stanton et al. [PDF]
Tokens de style: modélisation, contrôle et transfert de style non supervisé dans la synthèse de la parole de bout en bout (2018), Y Wang et al. [PDF]
Vers le transfert de prosodie de bout en bout pour la synthèse de la parole expressive avec Tacotron (2018), RJ Skerry-Ryan et al. [PDF]
Durian: Durée Informed Attention Network for Multimodal Synthesis (2019), Chengzhu Yu et al. [PDF]
Inversion du spectrogramme rapide utilisant des réseaux de neurones convolutionnels multi-têtes (2019), Sö Arık et al. [PDF]
FastSpeech: Texte rapide, robuste et contrôlable à la parole (2019), Yi Ren et al. [PDF]
Apprendre à parler couramment dans une langue étrangère: synthèse de la parole multilingue et clonage vocal transversal (2019), Yu Zhang et al. [PDF]
Melnet: un modèle génératif de l'audio dans le domaine fréquentiel (2019), Sean Vasquez et al. [PDF]
Synthèse de la parole de bout en bout (2019), Jihyun Park et al. [PDF]
MELGAN: Réseaux adversaires génératifs pour la synthèse de la forme d'onde conditionnelle (2019), Kundan Kumar et al. [PDF]
Synthèse de la parole neurale avec Transformer Network (2019), Naihan Li et al. [PDF]
Texte à dispection parallèle parallèle (2019), Kainan Peng et al. [PDF]
Représentations de texte pré-formées pour l'amélioration du traitement de texte frontal dans la synthèse du texte-parole du mandarin (2019), Bing Yang et al. [PDF]
Parallel Wavegan: un modèle de génération de format d'onde rapide basé sur des réseaux adversaires génératifs avec le spectrogramme multi-résolution (2019), Ryuichi Yamamoto et al. [PDF] Il sort en même temps que Melgan, alors que personne ne se réfère les uns aux autres ... en plus, je pense que le bruit gaussien n'est pas nécessaire, car MelSpec a des informations très fortes.
Les incorporations de discours sur l'agnostique problème pour le texte à la vocation multi-parole avec Samplernn (2019), David Alvarez et al. [PDF]
Modélisation acoustique de séquence à séquence robuste avec une attention monotonique pas à pas pour les TTs neuronaux (2019), Mutian He et al. [PDF]
Vers le transfert d'apprentissage pour la synthèse de la parole de bout en bout à partir de modèles de langue pré-formés profonds (2019), Wei Fang et al. [PDF]
Transfert d'apprentissage de la vérification des conférenciers à la synthèse de texte-partenaire multispeaker (2019), Ye Jia et al. [PDF]
Flow d'onde: un modèle compact basé sur l'écoulement pour l'audio brut (2019), Wei Ping et al. [PDF]
Glow à vagues: un réseau génératif basé sur le flux pour la synthèse de la parole (2019), R Prenger et al. [PDF]
ALIGNTTS: Système de texte à dispection efficace efficace sans alignement explicite (2020), Zhen Zeng et al. [PDF]
Boffin TTS: Adaptation des orateurs à quelques coups par optimisation bayésienne (2020), Henry B.Moss et al. [PDF]
LPCNET groupé: Vocoder pour les systèmes de texte à dispection neuronal à faible coût (2020), Ravichander Vipperla et al. [PDF]
Copycat: Transfert de prosodie à grains fins de plusieurs à plusieurs pour le texte-parole neuronal (2020), Sri Karlapati et al. [PDF]
EfficientTts: une architecture de texte à dispection efficace et de haute qualité (2020), Chenfeng Miao et al. [PDF]
Texte-voca-to-the-the-the-the-the-the-the-the-the-the-the-the-the-the de bout en bout (2020), Jeff Donahue et al. [PDF]
FastSpeech 2: Texte de bout en bout rapide et de haute qualité à la parole (2020), Yi Ren et al. [PDF]
Flowtron: un réseau génératif basé sur le flux autorégressif pour la synthèse du texte à la dissection (2020), Rafael Valle et al. [PDF]
Flow-TTS: un réseau non autorégressif pour le texte à la parole basée sur le flux (2020), Chenfeng Miao et al. [PDF]
Modélisation de la prosodie à grains fins entièrement hiérarchique pour la synthèse de la parole interprétable (2020), Guangzhi Sun et al. [PDF]
Génération d'échantillons de texte à dispection divers et naturels à l'aide d'un VAE à grain fin quantifié et de la prosodie auto-régressive Prior (2020), Guangzhi Sun et al. [PDF]
GLOW-TTS: A Generative Flow for Text-to-Speech via la recherche d'alignement monotonique (2020), Jaehyeon Kim et al. [PDF]
HIFI-AG: réseaux adversaires génératifs pour la synthèse de la parole efficace et haute fidélité (2020), Jungil Kong et al. [PDF]
Mécanismes d'attention relative à l'emplacement pour une synthési vocale robuste (2020), Eric Battenberg et al. [PDF]
Multisesech: Texte multi-haut-parleurs à la parole avec transformateur (2020), Mingjian Chen et al. [PDF]
Tacotron parallèle: TTS non autorégressif et contrôlable (2020), Isaac Elias et al. [PDF]
Robutrans: un modèle robuste basé sur un transformateur (2020), Naihan Li et al. [PDF]
Vérification des haut-parleurs indépendante du texte avec réseau de double attention (2020), Jingyu Li et al. [PDF]
Grad Wave: Estimation des gradients de la génération de forme d'onde (2020), Nanxin Chen et al. [PDF]
Adaspeech: Texte adaptatif à la parole pour la voix personnalisée (2021), Mingjian Chen et al. [PDF]
Une enquête sur la synthèse de la parole neurale (2021), Xu Tan et al. [PDF]
Un vocodeur GAn en flux pour le codage de la parole à large bande à très faible débit binaire (2021), Ahmed Mustafa et al. [PDF]
Transfert d'émotion transversale contrôlable pour la synthèse de la parole de bout en bout (2021), Tao Li et al. [PDF]
Clonage de sa voix en utilisant des données très limitées dans la nature (2021), Dongyang Dai et al. [PDF]
Autoencodeur variationnel conditionnel avec apprentissage contradictoire pour le texte à la dissection de bout en bout (2021), Jaehyeon Kim et al. [PDF]
Diffwave: un modèle de diffusion polyvalent pour la synthèse audio (2021), Zhifeng Kong et al. [PDF]
DIFF-TTS: un modèle de diffusion de débrassement pour le texte-parole (2021), Myeonghun Jeong et al. [PDF]
Delightfultts: Le système de synthèse de la parole Microsoft pour Blizzard Challenge 2021 (2021), Yanqing Liu et al. [PDF]
Fre-Gan: Synthèse audio consciente de la fréquence adversaire (2021), Ji-Hoon Kim et al. [PDF]
LPCNET complet: un vocodeur neuronal en temps réel pour l'audio 48 kHz avec un CPU (2021), Keisuke Matsubara et al. [PDF]
Grad-TTS: un modèle probabiliste de diffusion pour le texte-parole (2021), Vadim Popov et al. [PDF]
Glow-Wavegan: Représentation des représentations de la parole à partir d'autocodeur variationnel à base de GAN pour la synthèse de la parole basée sur les flux de haute fidélité (2021), Jian Cong et al. [PDF]
Vocodeur neuronal universel à haute fidélité et à faible latence basé sur Wavernn multibande avec prédiction linéaire basée sur les données pour la modélisation de la forme d'onde discrète (2021), Patrick Lumban Tobing et al. [PDF]
Modélisation de la prosodie hiérarchique pour la synthèse de la parole non autorégressive (2021), Chung-Ming Chien et al. [PDF]
Itoˆtts et Itoˆwave: l'équation différentielle stochastique linéaire est tout ce dont vous avez besoin pour la génération audio (2021), Shoule Wu et al. [PDF]
Jets: Formation conjointement FastSpeech2 et Hifi-Gan pour le texte de bout en bout à la parole (2021), Dan Lim et al. [PDF]
Meta-voix: transfert de style à quelques coups rapides pour le clonage vocal expressif à l'aide de Meta Learning (2021), Songxiang Liu et al. [PDF]
Les HMM neuronaux sont tout ce dont vous avez besoin (pour les TT de haute qualité sans attention) (2021), Shivam Mehta et al. [PDF]
Le changement de pas neural et l'éclat dans le temps avec le LPCNET contrôlable (2021), Max Morrison et al. [PDF]
Un alignement TTS pour les gouverner tous (2021), Rohan Badlani et al. [PDF]
KaratUner: Vers la correction de la hauteur naturelle de bout en bout pour la voix chantante en karaoké (2021), Xiaobin Zhuang et al. [PDF]
PNG Bert: Bert augmenté sur les phonèmes et les graphiques pour les TTs neuronaux (2021), Ye Jia et al. [PDF]
Tacotron parallèle 2: un modèle TTS neuronal non autorégressif avec modélisation de durée différenable (2021), Isaac Elias et al. [PDF]
Portaspaspeeche: Portable et de haute qualité générative de texte à dispection (2021), Yi Ren et al. [PDF]
Modélisation acoustique basée sur le transformateur pour la synthèse de la parole en streaming (2021), Chunyang Wu et al. [PDF]
Triple M: Système de texte à dispection neuronal pratique avec une attention multi-garantie et le LPCNET multi-bandes multiples (2021), Shilun Lin et al. [PDF]
TalkNet 2: modèle convolutionnel séparable non autorégressif en profondeur pour la synthèse de la parole avec prédiction explicite de hauteur et de durée (2021), Stanislav Beliaev et al. [PDF] TalkNet2 a une différence mineure par rapport à TalkNet, donc je n'inclue pas TalkNet ici.
Vers le contrôle du style multi-échelle pour la synthèse de la parole expressive (2021), Xiang Li et al. [PDF]
Filtre source unifié GAn: réseau de filtre source unifiée basé sur la factorisation de Wawegan parallèle quasi-périodique (2021), Reo Yoneyama et al. [PDF]
YOTTTS: Vers des TT multi-partenaires zéro et une conversion vocale zéro pour tout le monde (2021), Edresson Casanova et al. [PDF]
Avocodo: réseau adversaire génératif pour vocodeur sans artefact (2022), Taejun Bak et al. [PDF]
Apprentissage par haut-parleur adversaire à l'aide de données vocales non transcrites pour le texte-visage à haut-parleur multi-pardes (2022), Byoung Jin Choi et al. [PDF]
Bounché LPCNET2: Vocoders neuronaux efficaces couvrant les dispositifs du nuage à bord (2022), Sangjun Park et al. [PDF]
Transfert d'émotion à haut-parleur pour le texte vocal à faible ressource en utilisant une conversion vocale non parallèle avec l'augmentation des données de décalage de hauteur (2022), Ryo Terashima et al. [PDF]
FastDiff: un modèle de diffusion conditionnel rapide pour la synthèse de la parole de haute qualité (2022), Rongjie Huang et al. [PDF]
Grad-TTS rapide: vers une génération de parole basée sur la diffusion efficace sur CPU (2022), Ivan Vovk et al. [[PDF]
Glow-Wavegan 2: Synthèse de texte à dispection zéro de haute qualité et conversion vocale n'importe quoi (2022), Yi Lei et al. [PDF]
HIFI ++: un cadre unifié pour la vocodage neuronal, l'extension de la bande passante et l'amélioration de la parole (2022), Pavel Andreev et al. [PDF]
IQDUBBING: Modélisation de la prosodie basée sur une représentation de la parole auto-supervisée discrète pour la conversion vocale expressive (2022), Wendong Gan et al. [PDF]
ISTFTNET: vocodeur de spectrogramme de MEL rapide et léger incorporant une transformée de Fourier inverse à court terme (2022), Takuhiro Kaneko et al. [PDF]
Texte-visode léger et à haute fidélité de bout en bout avec une génération multi-bandes et une transformée de Fourier à court terme inverse (2022), Masaya Kawamura et al. [PDF]
Synthèse de la parole neurale sur un butin: amélioration de l'efficacité du LPCNET (2022), Jean-Marc Valin et al. [PDF]
NANSY ++: Synthèse vocale unifiée avec analyse neuronale et synthèse (2022), Hyeong-Seok Choi et al. [PDF]
Grad-Grad: Amélioration des modèles de diffusion conditionnelle du débrage avec un préalable adaptatif dépendant des données (2022), Sang-Gil Lee et al. [PDF]
PromptTTS: Texte-voca-to-dispection contrôlable avec descriptions de texte (2022), Zhifang Guo et al. [PDF]
SANE-TTS: Texte à dispection multilingue stable et naturel et naturel (2022), Hyunjae Cho et al. [PDF]
Amélioration de la parole neurale du domaine STFT avec une latence algorithmique très faible (2022), Zhong-Qiu Wang et al. [PDF]
Synthèse de la parole simple et efficace non supervisée (2022), Alexander H. Liu et al. [PDF]
Specgrad: Vocodeur neuronal basé sur un modèle probabiliste de diffusion avec une forme spectrale de bruit adaptative (2022), Yuma Koizumi et al. [PDF]
Filtre source HIFI-AG: Vocorder neuronal à haute fidélité rapide et pitch (2022), Reo Yoneyama et al. [PDF]
Trinitts: TTS de bout en bout à la hauteur sans aligner externe (2022), Yoon-Cheol Ju et al. [PDF]
Transfert croisé-lingual zéro utilisant un codeur multi-flux et une représentation efficace des haut-parleurs (2022), Yibin Zheng et al. [PDF]
InstructTTS: Modélisation des TTs expressifs dans un espace latent discret avec invite de style de langage naturel (2023), Dongchao Yang et al. [PDF]
Matcha-TTS: une architecture TTS rapide avec correspondance de débit conditionnelle (2023), Shivam Mehta et al. [PDF]
MEGA-TTS: Text-the-the-the-the-the-the-the-disseops à l'échelle zéro avec un biais inductif intrinsèque (2023), Ziyue Jiang et al. [PDF]
Mega-TTS 2: Text-to-voca-to-the-dispeops à tirs zéro avec des invites de discours de longueur arbitraire (2023), Ziyue Jiang et al. [PDF]
Modèles N-Gram basés sur les classes (1992), Peter F. Brown et al. [PDF]
Une étude empirique des techniques de lissage pour la modélisation du langage (1996), Stanley F. Chen et al. [PDF]
Un modèle de langage probabiliste neuronal (2000), Yoshua Bengio et al. [PDF]
Une nouvelle approche statistique de l'entrée chinoise du pinyin (2000), Zheng Chen et al. [PDF]
Modélisation discriminante du langage N-gram (2007), Brian Roark et al. [PDF]
Modèle de langage de réseau neuronal pour le moteur de méthode d'entrée de pinyin chinois (2015), S Chen et al. [PDF]
Formation et évaluation efficaces des modèles de langage de réseau neuronal récurrent pour la reconnaissance automatique de la parole (2016), Xie Chen et al. [PDF]
Exploration des limites de la modélisation du langage (2016), R Jozefowicz et al. [PDF]
On the State of the Art of Evaluation in Neural Language Models (2016), G Melis et al. [pdf]
Pay Less Attention with Lightweight and Dynamic Convolutions (2019), Felix Wu et al.[pdf]
Estimating Confidence using Word Lattices (1997), T. Kemp et al. [pdf]
Large vocabulary decoding and confidence estimation using word posterior probabilities (2000), G. Evermann et al. [pdf]
Combining Information Sources for Confidence Estimation with CRF Models (2011), MS Seigel et al. [pdf]
Speaker-Adapted Confidence Measures for ASR using Deep Bidirectional Recurrent Neural Networks (2018), M. ́A. Del-Agua et al. [pdf]
Bi-Directional Lattice Recurrent Neural Networks for Confidence Estimation (2018), Q. Li et al. [pdf]
Confidence Estimation for Black Box Automatic Speech Recognition Systems Using Lattice Recurrent Neural Networks (2020), A. Kastanos et al. [pdf]
CONFIDENCE ESTIMATION FOR ATTENTION-BASED SEQUENCE-TO-SEQUENCE MODELS FOR SPEECH RECOGNITION (2020), Qiujia Li et al. [pdf]
Residual Energy-Based Models for End-to-End Speech Recognition (2021), Qiujia Li et al. [pdf]
Multi-Task Learning for End-to-End ASR Word and Utterance Confidence with Deletion Prediction (2021), David Qiu et al. [pdf]
Onsets and Frames: Dual-Objective Piano Transcription (2017), Curtis Hawthorne et al. [pdf]
Unsupervised Singing Voice Conversion (2019), Eliya Nachmani et al. [pdf]
ByteSing- A Chinese Singing Voice Synthesis System Using Duration Allocated Encoder-Decoder Acoustic Models and WaveRNN Vocoders (2020), Yu Gu et al. [pdf]
DurIAN-SC: Duration Informed Attention Network based Singing Voice Conversion System (2020), Liqiang Zhang et al. [pdf]
HiFiSinger: Towards High-Fidelity Neural Singing Voice Synthesis (2020), Jiawei Chen et al. [pdf]
Jukebox: A Generative Model for Music (2020), Prafulla Dhariwal et al. [pdf]
DiffSinger: Singing Voice Synthesis via Shallow Diffusion Mechanism (2021), Jinglin Liu et al. [pdf]
MLP Singer: Towards Rapid Parallel Korean Singing Voice Synthesis (2021), Jaesung Tae et al. [pdf]
Multi-Singer: Fast Multi-Singer Singing Voice Vocoder With A Large-Scale Corpus (2021), Rongjie Huang et al. [pdf]
MusicBERT: Symbolic Music Understanding with Large-Scale Pre-Training (2021), Mingliang Zeng et al. [pdf]
N-Singer: A Non-Autoregressive Korean Singing Voice Synthesis System for Pronunciation Enhancement (2021), Gyeong-Hoon Lee et al. [pdf]
Non-Autoregressive TTS with Explicit Duration Modelling for Low-Resource Highly Expressive Speech (2021), Raahil Shah et al. [pdf]
PeriodNet: A non-autoregressive waveform generation model with a structure separating periodic and aperiodic components (2021), Yukiya Hono et al. [pdf]
Sequence-to-Sequence Piano Transcription with Transformers (2021), Curtis Hawthorne et al. [pdf]
M4Singer: a Multi-Style, Multi-Singer and Musical Score Provided Mandarin Singing Corpus (2022), Lichao Zhang et al. [pdf]
Opencpop: A High-Quality Open Source Chinese Popular Song Corpus for Singing Voice Synthesis (2022), Yu Wang et al. [pdf]
WeSinger: Data-augmented Singing Voice Synthesis with Auxiliary Losses (2022), Zewang Zhang et al. [pdf]
WeSinger 2: Fully Parallel Singing Voice Synthesis via Multi-Singer Conditional Adversarial Training (2022), Zewang Zhang et al. [pdf]
The Reversible Residual Network: Backpropagation Without Storing Activations (2017), Aidan N. Gomez et al. [pdf]
Soft-DTW: a Differentiable Loss Function for Time-Series (2018), Marco Cuturi et al. [pdf]
FlowSeq: Non-Autoregressive Conditional Sequence Generation with Generative Flow (2019), Xuezhe Ma et al. [pdf]
Learning Problem-agnostic Speech Representations from Multiple Self-supervised Tasks (2019), Santiago Pascual et al. [pdf]
Self-supervised audio representation learning for mobile devices (2019), Marco Tagliasacchi et al. [pdf]
SinGAN: Learning a Generative Model from a Single Natural Image (2019), Tamar Rott Shaham et al. [pdf]
Audio2Face: Generating Speech/Face Animation from Single Audio with Attention-Based Bidirectional LSTM Networks (2019), Guanzhong Tian et al. [pdf]
Attention is Not Only a Weight: Analyzing Transformers with Vector Norms (2020), Goro Kobayashi et al. [pdf]