Audiolm: un enfoque de modelado de idiomas para la generación de audio (2022), Zalán Borsos et al. [PDF]
Audioldm: Generación de texto a audio con modelos de difusión latente (2023), Haohe Liu et al. [PDF]
MusicLM: Generando música de Text (2023), Andrea Agostinelli et al. [PDF]
Moûsai: Generación de texto a música con difusión latente de contexto largo (2023), Flavio Schneider et al. [PDF]
Ruido2music: generación de música con texto con modelos de difusión (2023), Qingqing Huang et al. [PDF]
Una introducción a la aplicación de la teoría de las funciones probabilísticas de un proceso de Markov para el reconocimiento automático de voz (1982), SE Levinson et al. [PDF]
Un enfoque de máxima probabilidad para el reconocimiento continuo de voz (1983), Lalit R. Bahl et al. [PDF]
Mediciones acústicas heterogéneas y clasificadores múltiples para el reconocimiento de voz (1986), Andrew K. Halberstadt. [PDF]
Estimación de información mutua máxima de los parámetros del modelo de Markov oculto para el reconocimiento de voz (1986), Lalit R. Bahi et al. [PDF]
Un tutorial sobre modelos ocultos de Markov y aplicaciones seleccionadas en el reconocimiento de voz (1989), Lawrence R Rabiner. [PDF]
Reconocimiento de fonemas utilizando redes neuronales de tiempo de tiempo (1989), Alexander H. Waibel et al. [PDF]
Reconocimiento telefónico independiente del altavoz utilizando modelos Markov ocultos (1989), Kai-Fu Lee et al. [PDF]
Modelos ocultos de Markov para el reconocimiento de voz (1991), BH Juang et al. [PDF]
Revisión de las arquitecturas TDNN (Retraso de retraso de tiempo) para el reconocimiento de voz (2014), Masahide Sugiyamat et al. [PDF]
Reconocimiento de voz de Connectionist: un enfoque híbrido (1994), Herve Bourlard et al. [PDF]
Un sistema de postprocesamiento para producir tasas de error de palabras reducidas: reducción de errores de votación de salida de reconocimiento (Rover) (1997), JG Fiscus. [PDF]
Reconocimiento de voz con transductores ponderados de estado finito (2001), M Mohri et al. [PDF]
Clasificación de fonemas de Framewise con LSTM bidireccional y otras arquitecturas de redes neuronales (2005), Alex Graves et al. [PDF]
Clasificación temporal Connectionist: etiquetado de datos de secuencia no segmentado con redes neuronales recurrentes (2006), Alex Graves et al. [PDF]
The Kaldi Speech Recognition Toolkit (2011), Daniel Povey et al. [PDF]
Aplicación de conceptos de redes neuronales convolucionales al modelo híbrido NN-HMM para el reconocimiento de voz (2012), Ossama Abdel-Hamid et al. [PDF]
Redes neuronales profundas pre-entrenadas dependientes del contexto para el reconocimiento de discurso de grandes vocabulario (2012), George E. Dahl et al. [PDF]
Redes neuronales profundas para el modelado acústico en el reconocimiento de voz (2012), Geoffrey Hinton et al. [PDF]
Transducción de secuencia con redes neuronales recurrentes (2012), Alex Graves et al. [PDF]
Redes neuronales convolucionales profundas para LVCSR (2013), Tara N. Sainath et al. [PDF]
Mejora de las redes neuronales profundas para LVCSR utilizando unidades lineales rectificadas y abandono (2013), George E. Dahl et al. [PDF]
Mejora de CD-DNN-HMM de baja recursos utilizando el entrenamiento DNN de deserción y el DNN multilingüe (2013), Yajie Miao et al. [PDF]
Mejoras a las redes neuronales convolucionales profundas para LVCSR (2013), Tara N. Sainath et al. [PDF]
Paradigmas de aprendizaje automático para el reconocimiento de voz: una visión general (2013), Li Deng et al. [PDF]
Avances recientes en el aprendizaje profundo para la investigación del habla en Microsoft (2013), Li Deng et al. [PDF]
Reconocimiento de voz con redes neuronales recurrentes profundas (2013), Alex Graves et al. [PDF]
Convolutional Deep Maxout Networks for Phone Reconocido (2014), László Tóth et al. [PDF]
Redes neuronales convolucionales para el reconocimiento de voz (2014), Ossama Abdel-Hamid et al. [PDF]
Combinando la convolución del dominio del tiempo y la frecuencia en el reconocimiento telefónico de la red neuronal convolucional (2014), László Tóth. [PDF]
Discurso profundo: ampliar el reconocimiento de voz de extremo a extremo (2014), Awni Y. Hannun et al. [PDF]
Reconocimiento de voz continuo de extremo a extremo utilizando NN recurrente basado en la atención: Primeros resultados (2014), Jan Chorowski et al. [PDF]
Reconocimiento de voz continuo de vocabulario de primer paso utilizando DNN recurrentes bidireccionales (2014), Andrew L. Maas et al. [PDF]
Arquitecturas de red neuronales recurrentes de memoria a corto plazo para modelado acústico a gran escala (2014), Hasim Sak et al. [PDF]
El robusto reconocimiento de voz basado en CNN con los núcleos de filtro Gabor (2014), Shuo-Yiin Chang et al. [PDF]
Agrupación estocástica de redes Maxout para el reconocimiento de voz de bajo recurso (2014), Meng Cai et al. [PDF]
Hacia el reconocimiento de voz de extremo a extremo con redes neuronales recurrentes (2014), Alex Graves et al. [PDF]
Un transductor neural (2015), N Jaitly et al. [PDF]
Modelos basados en la atención para el reconocimiento de voz (2015), Jan Chorowski et al. [PDF]
Análisis del sistema de reconocimiento de voz basado en CNN utilizando el habla sin procesar como entrada (2015), Dimitri Palaz et al. [PDF]
Memoria convolucional, a largo plazo a corto plazo, redes neuronales profundas totalmente conectadas (2015), Tara N. Sainath et al. [PDF]
Redes neuronales convolucionales profundas para el modelado acústico en lenguajes de bajos recursos (2015), William Chan et al. [PDF]
Redes neuronales profundas para el reconocimiento de voz de un solo canal múltiple (2015), Chao Weng et al. [PDF]
Eesen: Reconocimiento de voz de extremo a extremo utilizando modelos RNN profundos y decodificación basada en WFST (2015), Y Miao et al. [PDF]
Modelos acústicos de red neuronales recurrentes rápidos y precisos para el reconocimiento de voz (2015), Hasim Sak et al. [PDF]
Reconocimiento de discursos conversacionales sin léxico con redes neuronales (2015), Andrew L. Maas et al. [PDF]
Capacitación de secuencia en línea de redes neuronales recurrentes con clasificación temporal Connectionist (2015), Kyuyeon Hwang et al. [PDF]
Avances en el reconocimiento de discursos totalmente neurales (2016), Geoffrey Zweig et al. [PDF]
Avances en redes neuronales convolucionales muy profundas para LVCSR (2016), Tom Sercu et al. [PDF]
Reconocimiento de voz de vocabulario basado en la atención de extremo a extremo (2016), Dzmitry Bahdanau et al. [PDF]
Redes neuronales convolucionales profundas con expansión y atención del contexto en forma de capa (2016), Dong Yu et al. [PDF]
Discurso profundo 2: Reconocimiento de voz de extremo a extremo en inglés y mandarín (2016), Dario Amodei et al. [PDF]
Reconocimiento de voz distante de extremo a extremo con Highway LSTM (2016), Hassan Taherian. [PDF]
Reconocimiento de voz de extremo a extremo basado en Atention CTC utilizando aprendizaje de múltiples tareas (2016), Suyoun Kim et al. [PDF]
Escuchar, asistir y deletrear: una red neuronal para el gran vocabulario de reconocimiento de discurso conversacional (2016), William Chan et al. [PDF]
Descomposiciones de secuencia latente (2016), William Chan et al. [PDF]
Modelado de patrones de frecuencia de tiempo con LSTM versus arquitecturas convolucionales para tareas LVCSR (2016), Tara N. Sainath et al. [PDF]
Modelos recurrentes para la atención auditiva en el reconocimiento de voz de distancia multimicrófono (2016), Suyoun Kim et al. [PDF]
Redes neuronales recurrentes segmentarias para el reconocimiento de voz de extremo a extremo (2016), Liang Lu et al. [PDF]
Hacia una mejor decodificación e integración del modelo de lenguaje en secuencia a modelos de secuencia (2016), Jan Chorowski et al. [PDF]
Redes neuronales convolucionales muy profundas para el ruido robusto reconocimiento de voz (2016), Yanmin Qian et al. [PDF]
Redes convolucionales muy profundas para el reconocimiento de voz de extremo a extremo (2016), Yu Zhang et al. [PDF]
Redes neuronales convolucionales multilingües muy profundas para LVCSR (2016), Tom Sercu et al. [PDF]
WAV2Letter: un sistema de reconocimiento de voz basado en Convnet de extremo a extremo (2016), Ronan Collobert et al. [PDF]
Reconocimiento de emociones del habla de la red neuronal convolucional atentada: un estudio sobre el impacto de las características de entrada, la longitud de la señal y el discurso activo (2017), Michael Neumann et al. [PDF]
Un sistema de reconocimiento de voz automático mejorado para árabe (2017), Mohamed Amine Menacer et al. [PDF]
Avances en el reconocimiento de voz de extremo a extremo basado en la atención CTC con un codificador CNN profundo y RNN-LM (2017), Takaaki Hori et al. [PDF]
Una red de redes neuronales profundas para el reconocimiento de voz distante (2017), Mirco Ravanelli et al. [PDF]
Un modelo de secuencia a secuencia en línea para el ruidoso reconocimiento de voz (2017), Chung-Cheng Chiu et al. [PDF]
Una técnica de agrupación de altavoces sin supervisión basada en SOM e I-Vectores para sistemas de reconocimiento de voz (2017), Hany Ahmed et al. [PDF]
Reconocimiento de voz basado en la atención en mandarín (2017), C Shan et al. [PDF]
Construyendo modelos acústicos DNN para el gran reconocimiento de voz del vocabulario (2017), Andrew L. Maas et al. [PDF]
Modelos directos de acústica a palabra para el reconocimiento de discursos conversacionales en inglés (2017), Kartik Audhkhasi et al. [PDF]
Aprendizaje profundo para el reconocimiento de voz ambientalmente robusto: una visión general de los desarrollos recientes (2017), Zixing Zhang et al. [PDF]
Reconocimiento de discursos telefónicos conversacionales en inglés por humanos y máquinas (2017), George Saon et al. [PDF]
ESE: Motor de reconocimiento de voz eficiente con SPARSE LSTM en FPGA (2017), Song Han et al. [PDF]
Explorando la mejora del habla con redes adversas generativas para un robusto reconocimiento de voz (2017), Chris Donahue et al. [PDF]
Deep LSTM para el vocabulario grande Reconocimiento continuo de voz (2017), Xu Tian et al. [PDF]
Normalización de la capa dinámica para el modelado acústico neural adaptativo en el reconocimiento de voz (2017), Taesup Kim et al. [PDF]
Gram-CTC: selección automática de unidades y descomposición de destino para el etiquetado de secuencias (2017), Hairong Liu et al. [PDF]
Mejora del rendimiento de los modelos de transductores neuronales en línea (2017), Tara N. Sainath et al. [PDF]
Learning FilterBanks de Raw Speech para el reconocimiento telefónico (2017), Neil Zeghidour et al. [PDF]
Reconocimiento de voz de extremo a extremo multicanal (2017), Tsubasa Ochiai et al. [PDF]
Aprendizaje de tareas múltiples con CTC y CRF segmentario para el reconocimiento de voz (2017), Liang Lu et al. [PDF]
Procesamiento de señales multicanal con redes neuronales profundas para el reconocimiento automático de voz (2017), Tara N. Sainath et al. [PDF]
Reconocimiento de voz multilingüe con un solo modelo de extremo a extremo (2017), Shubham Toshniwal et al. [PDF]
Optimización de la tasa de error de palabras esperada a través del muestreo para el reconocimiento de voz (2017), Matt Shannon. [PDF]
Redes CTC convolucionales residuales para el reconocimiento automático de voz (2017), Yisen Wang et al. [PDF]
LSTM residual: diseño de una arquitectura recurrente profunda para el reconocimiento de voz distante (2017), Jaeyoung Kim et al. [PDF]
Modelos recurrentes para la atención auditiva en el reconocimiento de voz de distancia multimicrófono (2017), Suyoun Kim et al. [PDF]
Reducción del sesgo en los modelos de discurso de producción (2017), Eric Battenberg et al. [PDF]
Reconocimiento de voz robusto utilizando redes adversas generativas (2017), Anuroop Sriram et al. [PDF]
Reconocimiento de voz de última generación con modelos de secuencia a secuencia (2017), Chung-Cheng Chiu et al. [PDF]
Hacia el reconocimiento de voz de extremo a extremo universal (2017), Suyoun Kim et al. [PDF]
Acelerando el sistema recurrente de reconocimiento de discurso en línea basado en el modelo de lenguaje neuronal (2018), K Lee et al. [PDF]
Un modelo de atención CTC híbrida mejorada para el reconocimiento de voz (2018), Zhe Yuan et al. [PDF]
Reconocimiento de voz de extremo a extremo basado en Atention Hybrid CTC utilizando unidades de subvenciones (2018), Zhangyu Xiao et al. [PDF]
Especaduración: un método simple de aumento de datos para el reconocimiento automático de voz (2019), Daniel S. Park et al. [PDF]
VQ-WAV2VEC: Aprendizaje auto-supervisado de representaciones discretas del habla (2019), Alexei Baevski et al. [PDF]
Efectividad del pre-entrenamiento auto-supervisado para el reconocimiento de voz (2020), Alexei Baevski et al. [PDF]
Entrenamiento de estudiantes ruidosos mejorados para el reconocimiento automático de voz (2020), Daniel S. Park, et al. [PDF]
Contextnet: Mejora de las redes neuronales convolucionales para el reconocimiento automático de voz con el contexto global (2020), Wei Han, et al. [PDF]
Conformador: Transformador acuático de convolución para el reconocimiento de voz (2020), Anmol Gulati, et al. [PDF]
En la comparación de modelos populares de extremo a extremo para el reconocimiento de voz a gran escala (2020), Jinyu Li et al. [PDF]
Aprendizaje auto-supervisado contrastante aumentado para representaciones de audio invariantes (2021), Melikasadat Emami et al. [PDF]
Entrenamiento eficiente de transformadores de audio con Patchout (2021), Khaled Koutini et al. [PDF]
MixSpeech: Aumento de datos para el reconocimiento automático de voz automático de baja recursos (2021), Linghui Meng et al. [PDF]
Aprendizaje multi-codificador y fusión de flujo para el reconocimiento automático de voz automático basado en transformadores (2021), Timo Lohrenz et al. [PDF]
EspecAugment ++: un método de aumento de datos de espacio oculto para la clasificación de la escena acústica (2021), Helin Wang et al. [PDF]
SPECMIX: Un método de aumento de datos de muestra mixto para capacitar con características de dominio de frecuencia de tiempo (2021), Gwantae Kim et al. [PDF]
La historia del reconocimiento de voz del año 2030 (2021), Awni Hannun et al. [PDF]
La conversión de voz puede mejorar ASR en entornos de muy bajo recurso (2021), Matthew Baas et al. [PDF]
¿Por qué CTC da como resultado un comportamiento pico? (2021), Albert Zeyer et al. [PDF]
Segmenter E2E: segmentación y decodificación conjunta para ASR de forma larga (2022), W. Ronny Huang et al. [PDF]
Separación de fuente de música con flujo generativo (2022), GE Zhu et al. [PDF]
Mejora de las representaciones del habla auto-supervisadas por los hablantes de desangos (2022), Kaizhi Qian et al. [PDF]
Reconocimiento de voz robusto a través de una supervisión débil a gran escala (2022), Alec Radford et al. [PDF]
En la arquitectura de decodificador solo para el habla a texto y la integración del modelo de lenguaje grande (2023), Jian Wu et al. [PDF]
Verificación del altavoz utilizando modelos de mezcla gaussianos adaptados (2000), Douglas A.Reynolds et al. [PDF]
Un tutorial sobre verificación de altavoces independientes del texto (2004), Frédéric Bimbot et al. [PDF]
Variani et al . [PDF]
Vectores de altavoces profundos para verificación de altavoces independientes del semi text (2015), Lantian Li et al. [PDF]
Altavoz profundo: un sistema de incrustación de altavoces neuronales de extremo a extremo (2017), Chao Li et al. [PDF]
El aprendizaje de las características de los altavoces profundos para la verificación del orador independiente del texto (2017), Lantian Li et al. [PDF]
Verificación de altavoces profundos: ¿Necesitamos de extremo a final? (2017), Dong Wang et al. [PDF]
Diarización del altavoz con LSTM (2017), Quan Wang et al. [PDF]
Verificación del altavoz independiente del texto utilizando redes neuronales convolucionales 3D (2017), Amirsina Torfi et al. [PDF]
Verificación del altavoz independiente del texto de extremo a extremo con pérdida de triplete en enunciados cortos (2017), Chunlei Zhang et al. [PDF]
Incrustos de la red neuronal profunda para la verificación de altavoces independientes del texto (2017), David Snyder et al. [PDF]
Increminaciones discriminatorias profundas para la duración de la verificación de los altavoces robustos (2018), Na Li et al. [PDF]
Aprendizaje de características discriminativas para la identificación y verificación del hablante (2018), Sarthak Yadav et al. [PDF]
Pérdida de Softmax de margen grande para la verificación del altavoz (2019), Yi Liu et al. [PDF]
Mejora de características no supervisadas para la verificación de altavoces (2019), Phani Sankar Nidadavolu et al. [PDF]
Mejora de características con pérdidas de características profundas para la verificación de los altavoces (2019), Saurabh Kataria et al. [PDF]
Pérdida generalizada de End2END para la verificación de los oradores (2019), Li Wan et al. [PDF]
Codificación de pirámide espacial con normalización de longitud convexa para la verificación de altavoces independientes del texto (2019), Youngmoon Jung et al. [PDF]
VOXSRC 2019: El primer desafío de reconocimiento de altavoces Voxceleb (2019), Son Chung et al. [PDF]
Pero la descripción del sistema para el desafío de reconocimiento de altavoces Voxceleb 2019 (2019), Hossein Zeinali et al. [PDF]
La descripción del sistema ID de I + D para el desafío de verificación de altavoces de corta duración 2021 (2021), Alenin et al. [PDF]
Conversión de voz utilizando redes neuronales recurrentes a largo plazo a largo plazo profundas (2015), Lifa Sun et al. [PDF]
Los ramas posteriores fonéticas para la conversión de voz de muchos a uno sin entrenamiento de datos paralelos (2016), Lifa Sun et al. [PDF]
Stargan-VC: Conversión de voz no paralelo de muchos a muchos con redes adversas generativas de estrellas (2018), Hirokazu Kameoka et al. [PDF]
AutoVC: transferencia de estilo de voz de disparo cero con solo Autoencoder PEDRA (2019), Kaizhi Qian et al. [PDF]
Stargan-VC2: Repensar los métodos condicionales para la conversión de voz basada en Stargan (2019), Takuhiro Kaneko et al. [PDF]
El aprendizaje de extremo a extremo no supervisado de unidades lingüísticas discretas para la conversión de voz (2019), Andy T. Liu et al. [PDF]
Incrustos de oradores basados en la atención para la conversión de voz de un solo disparo (2020), Tatsuma Ishihara et al. [PDF]
Conversión de voz no paralelo de muchas a gran cantidad de F0 a través de Autoencoder condicional (2020), Kaizhi Qian et al. [PDF]
Conversión de voz no paralela basada en síntesis de reconocimiento con aprendizaje adversario (2020), Jing-Xuan Zhang et al. [PDF]
Un Stargan mejorado para la conversión de voz emocional: mejorar la calidad de la voz y el aumento de datos (2021), Xiangheng He et al. [PDF]
Crank: un software de código abierto para la conversión de voz no paralela basado en el autoencoder variacional de variacional con vectores (2021), Kazuhiro Kobayashi et al. [PDF]
CVC: aprendizaje contrastante para la conversión de voz no paralela (2021), Tingle Li et al. [PDF]
ROWEVVC: Hacia una conversión de voz de alta calidad de disparo cero (2021), Shijun Wang et al. [PDF]
En el modelado de prosody para la conversión de voz basada en ASR+TTS (2021), Wen-Chin Huang et al. [PDF]
Starganv2-VC: un marco diverso, sin supervisión y no paralelo para la conversión de voz que suena natural (2021), Yinghao Aaron Li et al. [PDF]
Conversión de voz de disparo cero a través del aprendizaje de representación de prosodia auto-supervisada (2021), Shijun Wang et al. [PDF]
Estimación de la señal de la transformación modificada de Fourier a corto plazo (1993), Daniel W. Griffin et al. [PDF]
Síntesis de texto a voz (2009), Paul Taylor et al. [PDF]
Un algoritmo rápido de Griffin-Lim (2013), Nathanael Perraudin et al. [PDF]
Síntesis de TTS con redes neuronales recurrentes basadas en LSTM bidireccionales (2014), Yuchen Fan et al. [PDF]
Primer paso hacia la síntesis de TTS paramétricos de extremo a extremo: generar parámetros espectrales con atención neural (2016), Wenfu Wang et al. [PDF]
Avances recientes en el sintetizador de selección de unidades impulsada por HMM en tiempo real de Google (2016), Xavi Gonzalvo et al. [PDF]
Sampernn: un modelo incondicional de generación de audio neuronal de extremo a extremo (2016), Soroush Mehri et al. [PDF]
Wavenet: un modelo generativo para Audio Raw (2016), Aäron van den Oord et al. [PDF]
CHAR2WAV: Síntesis del habla de extremo a extremo (2017), J Sotelo et al. [PDF]
Voz profunda: texto neuronal en tiempo real a voz (2017), Sercan O. Arik et al. [PDF]
Deep Voice 2: Texto neural de múltiples altavoces (2017), Sercan Arik et al. [PDF]
Deep Voice 3: 2000 bocinas de texto a voz (2017), Wei Ping et al. [PDF]
Síntesis de TTS natural mediante acondicionamiento de wavenet en predicciones de espectrograma MEL (2017), Jonathan Shen et al. [PDF]
Wavenet paralelo: Síntesis rápida del habla de alta fidelidad (2017), Aaron van den Oord et al. [PDF]
Síntesis de discurso paramétrico estadístico utilizando redes adversas generativas bajo un marco de aprendizaje de tareas múltiples (2017), S Yang et al. [PDF]
Tacotron: Hacia la síntesis del habla de extremo a extremo (2017), Yuxuan Wang et al. [PDF]
Descubriendo factores de estilo latente para la síntesis expresiva del habla (2017), Yuxuan Wang et al. [PDF]
Voiceloop: ajuste de voz y síntesis a través de un bucle fonológico (2017), Yaniv Taigman et al. [PDF]
Clarinete: Generación de onda paralela en texto a voz de extremo a extremo (2018), Wei Ping et al. [PDF]
Redes de memoria secuenciales de Feed Feed-Freeward para la síntesis del habla (2018), Mengxiao Bi et al. [PDF]
LPCNET: Mejora de la síntesis del habla neural a través de la predicción lineal (2018), Jean-Marc Valin et al. [PDF]
Aprendiendo representaciones latentes para el control y transferencia de estilo en la síntesis del habla de extremo a extremo (2018), Ya-Jie Zhang et al. [PDF]
Clonación de voz neural con algunas muestras (2018), Sercan O. Arık et al. [PDF]
Predecir el estilo de habla expresiva del texto en la síntesis del habla de extremo a extremo (2018), Daisy Stanton et al. [PDF]
Tokens de estilo: modelado, control y transferencia de estilo no supervisado en la síntesis del habla de extremo a extremo (2018), Y Wang et al. [PDF]
Hacia la transferencia de prosodia de extremo a extremo para la síntesis de habla expresiva con Tacotron (2018), RJ Skerry-Ryan et al. [PDF]
Durian: Red de atención informada de duración para la síntesis multimodal (2019), Chengzhu Yu et al. [PDF]
Inversión de espectrograma rápido utilizando redes neuronales convolucionales múltiples (2019), Sö Arık et al. [PDF]
FastSpeech: texto rápido, robusto y controlable al habla (2019), Yi Ren et al. [PDF]
Aprendiendo a hablar con fluidez en un idioma extranjero: síntesis de discurso multilingüe y clonación de voz de lenguaje cruzado (2019), Yu Zhang et al. [PDF]
Melnet: un modelo generativo para el audio en el dominio de frecuencia (2019), Sean Vásquez et al. [PDF]
Síntesis de discurso de extremo a extremo (2019), Jihyun Park et al. [PDF]
Melgan: Redes adversas generativas para la síntesis de forma de onda condicional (2019), Kundan Kumar et al. [PDF]
Síntesis del habla neural con Transformer Network (2019), Naihan Li et al. [PDF]
Texto neuronal paralural a discurso (2019), Kainan Peng et al. [PDF]
Representaciones de texto previamente capacitadas para mejorar el procesamiento de texto front-end en la síntesis de texto a voz de mandarina (2019), Bing Yang et al. [PDF]
WaveGan paralelo: un modelo de generación de forma de onda rápida basado en redes adversas generativas con espectrograma de resolución múltiple (2019), Ryuichi Yamamoto et al. [PDF] sale al mismo tiempo que Melgan, mientras que nadie se refiere entre sí ... además, creo que el ruido gaussiano es innecesario, ya que Melspec tiene información muy fuerte.
Incrustos del discurso del problema y el problema para el texto de múltiples altavoces con el discurso con Sampernn (2019), David Alvarez et al. [PDF]
Modelado acústico de secuencia a secuencia de secuencia con atención monotónica por TTS neural (2019), Mutian He et al. [PDF]
Hacia el aprendizaje de transferencia para la síntesis del habla de extremo a extremo de los modelos de lenguaje pretrados y pretrados profundos (2019), Wei Fang et al. [PDF]
Transferir el aprendizaje de la verificación del hablante a la síntesis de texto a voz de múltiples (2019), Ye Jia et al. [PDF]
Flujo de onda: un modelo compacto basado en flujo para el audio RAW (2019), Wei Ping et al. [PDF]
Glow: una red generativa basada en el flujo para la síntesis del habla (2019), R Prenger et al. [PDF]
Aligntts: sistema eficiente de texto a voz sin alineadores explícitos (2020), Zhen Zeng et al. [PDF]
Boffin TTS: Adaptación de altavoces de pocos disparos por optimización bayesiana (2020), Henry B.Moss et al. [PDF]
LPCNET agrupado: Vocoder para sistemas de texto neuronal a voz de bajo costo (2020), Ravichander Vipperla et al. [PDF]
Copia: transferencia de prosodia de grano fino de muchos a muchos para texto neuronal a voz (2020), Sri Karlapati et al. [PDF]
EficeTtts: una arquitectura eficiente y de alta calidad de texto a voz (2020), Chenfeng Miao et al. [PDF]
Texto a discurso adversario de extremo a extremo (2020), Jeff Donahue et al. [PDF]
FastSpeech 2: texto de extremo a extremo rápido y de alta calidad al habla (2020), Yi Ren et al. [PDF]
Flowtron: una red generativa autorregresiva basada en el flujo para la síntesis de texto a voz (2020), Rafael Valle et al. [PDF]
Flow-TTS: una red no autorgresiva para texto a voz basada en el flujo (2020), Chenfeng Miao et al. [PDF]
Modelado de prosodia de grano fino totalmente jerárquico para la síntesis de habla interpretable (2020), Guangzhi Sun et al. [PDF]
Generando muestras diversas y naturales de texto a voz utilizando una VAE cuantificada de grano fino y una prosodia autoregresiva antes (2020), Guangzhi Sun et al. [PDF]
Glow-TTS: un flujo generativo para texto a voz a través de la búsqueda de alineación monotónica (2020), Jaehyeon Kim et al. [PDF]
Hifi-Gan: redes adversas generativas para la síntesis de habla eficiente y de alta fidelidad (2020), Jungil Kong et al. [PDF]
Mecanismos de atención relativa a la ubicación para el síntesis robusto de discurso de forma larga (2020), Eric Battenberg et al. [PDF]
MultiSeCech: texto de múltiples altavoces a discurso con transformador (2020), Mingjian Chen et al. [PDF]
Tacotrón paralelo: TTS no autorregresivo y controlable (2020), Isaac Elias et al. [PDF]
Robutrans: un modelo robusto de texto a voz basado en transformador (2020), Naihan Li et al. [PDF]
Verificación del altavoz independiente del texto con red de atención dual (2020), Jingyu Li et al. [PDF]
Wavegrad: Estimación de gradientes para la generación de forma de onda (2020), Nanxin Chen et al. [PDF]
ADASPEECH: texto adaptativo al habla para la voz personalizada (2021), Mingjian Chen et al. [PDF]
Una encuesta sobre síntesis del habla neural (2021), Xu Tan et al. [PDF]
Un vocoder de GaN de flujo para la codificación del habla de banda ancha a una velocidad de bits muy baja (2021), Ahmed Mustafa et al. [PDF]
Transferencia de emoción transversal controlable para la síntesis del habla de extremo a extremo (2021), Tao Li et al. [PDF]
Clonando la voz utilizando datos muy limitados en la naturaleza (2021), Dongyang Dai et al. [PDF]
Autoencoder de variacional condicional con aprendizaje adversario para texto a discurso de extremo a extremo (2021), Jaehyeon Kim et al. [PDF]
Diffwave: un modelo de difusión versátil para la síntesis de audio (2021), Zhifeng Kong et al. [PDF]
Diff-TTS: un modelo de difusión de renovación para texto a voz (2021), Myoonghun Jeong et al. [PDF]
DelightfulTts: el sistema de síntesis de discurso de Microsoft para Blizzard Challenge 2021 (2021), Yanqing Liu et al. [PDF]
Fre-Gan: Síntesis de audio consistente con la frecuencia adversa (2021), Ji-hoon Kim et al. [PDF]
LPCNET de banda completa: un vocoder neural en tiempo real para audio de 48 kHz con una CPU (2021), Keisuke Matsubara et al. [PDF]
Grad-TTS: un modelo probabilístico de difusión para texto a voz (2021), Vadim Popov et al. [PDF]
Glow-Wavegan: Representaciones del habla de aprendizaje de la variacional de variacional basada en GaN para la síntesis del habla basada en el flujo de alta fidelidad (2021), Jian Cong et al. [PDF]
Vocoder neural universal de alta fidelidad y baja latencia basado en Wavernn multibandia con predicción lineal basada en datos para modelado de forma de onda discreta (2021), Patrick Lumban Tobing et al. [PDF]
Modelado de prosodia jerárquica para síntesis de habla no autorregresiva (2021), Chung-Ming Chien et al. [PDF]
Itoˆtts e Itoˆwave: la ecuación diferencial estocástica lineal es todo lo que necesita para la generación de audio (2021), Shoule Wu et al. [PDF]
Jets: entrenando conjuntamente FastSpeech2 y Hifi-Gan para el texto de extremo a extremo al habla (2021), Dan Lim et al. [PDF]
Meta-Voice: transferencia rápida de estilo de pocos disparos para clonación de voz expresiva usando meta aprendizaje (2021), Songxiang Liu et al. [PDF]
Los HMM neurales son todo lo que necesita (para TTS libres de atención de alta calidad) (2021), Shivam Mehta et al. [PDF]
Cambio de tono neural y estiramiento de tiempo con LPCNET controlable (2021), Max Morrison et al. [PDF]
Una alineación de TTS para gobernarlos a todos (2021), Rohan Badlani et al. [PDF]
Karatuner: Hacia la corrección de tono natural de extremo a extremo para cantar la voz en karaoke (2021), Xiaobin Zhuang et al. [PDF]
PNG Bert: Bert aumentado en fonemas y grafemas para TTS neurales (2021), Ye Jia et al. [PDF]
Tacotrón paralelo 2: un modelo TTS neural no autorgresivo con modelado de duración diferenciable (2021), Isaac Elias et al. [PDF]
Portaspeech: texto a voz generativo portátil y de alta calidad (2021), Yi Ren et al. [PDF]
Modelado acústico basado en transformadores para la síntesis de discurso de transmisión (2021), Chunyang Wu et al. [PDF]
Triple M: un sistema práctico de texto neuronal a voz con atención multimidance y LPCNET multiband de banda múltiple (2021), Shilun Lin et al. [PDF]
Talknet 2: Modelo convolucional separable de profundidad no autorgresivo para la síntesis del habla con predicción explícita de tono y duración (2021), Stanislav Beliaev et al. [PDF] TalkNet2 tiene una diferencia menor de TalkNet, por lo que no incluyo TalkNet aquí.
Hacia el control de estilo múltiple para la síntesis expresiva del habla (2021), Xiang Li et al. [PDF]
GaN de filtro de origen unificado: red de filtro de origen unificado basada en la factorización de onda paralela cuasi periódica (2021), REO Yoneyama et al. [PDF]
YourTts: hacia TTS de múltiples altavoces cero y conversión de voz de disparo cero para todos (2021), Edresson Casanova et al. [PDF]
Avocodo: red adversaria generativa para vocoder sin artefactos (2022), Taejun Bak et al. [PDF]
Aprendizaje de consistencia del altavoz adversario utilizando datos del habla no asociados para texto a voz múltiple de disparo cero (2022), Byoung Jin Choi et al. [PDF]
LPCNET2 BUNCHED: Vocoders neurales eficientes que cubren dispositivos de nube a borde (2022), Sangjun Park et al. [PDF]
Transferencia de emoción de brote a través de texto a voz de baja recursos utilizando la conversión de voz no paralela con aumento de datos de cambio de cabeceo (2022), Ryo Terashima et al. [PDF]
Fastdiff: un modelo de difusión condicional rápido para la síntesis de voz de alta calidad (2022), Rongjie Huang et al. [PDF]
Grad-TTS rápida: hacia la generación de habla eficiente basada en difusión en CPU (2022), Ivan Vovk et al. [[PDF]
Glow-Wavegan 2: Síntesis de texto a voz de alta calidad de texto a voz y conversión de voz de cualquiera a cualquiera (2022), Yi Lei et al. [PDF]
HIFI ++: un marco unificado para el vocoding neural, la extensión del ancho de banda y la mejora del habla (2022), Pavel Andreev et al. [PDF]
IQDubbing: modelado de prosodia basado en una representación discreta del habla auto-supervisada para la conversión de voz expresiva (2022), Wendong Gan et al. [PDF]
ISTFTNET: Vocoder de espectrograma MEL rápido y ligero que incorpora la transformación inverse de Fourier a corto plazo (2022), Takuhiro Kaneko et al. [PDF]
Texto a voz de extremo a extremo liviano y de alta fidelidad con generación de bandas múltiples y transformación inversa de Fourier a corto plazo (2022), Masaya Kawamura et al. [PDF]
Síntesis de discurso neural en un poco de poco: Mejora de la eficiencia de LPCNET (2022), Jean-Marc Valin et al. [PDF]
Nansy ++: Síntesis de voz unificada con análisis neural y síntesis (2022), Hyeong-seok Choi et al. [PDF]
Priorgrad: Mejora de los modelos de difusión condicional de denominación con datos adaptativos dependientes de datos anteriores (2022), Sang-Gil Lee et al. [PDF]
AtRtTtts: texto a voz controlable con descripciones de texto (2022), Zhifang Guo et al. [PDF]
Sane-TTS: texto a voz multilingüe de extremo a extremo estable y natural (2022), Hyunjae Cho et al. [PDF]
Mejora del habla neural del dominio del STFT con una latencia algorítmica muy baja (2022), Zhong-Qiu Wang et al. [PDF]
Síntesis de habla no supervisada simple y efectiva (2022), Alexander H. Liu et al. [PDF]
SPECGRAD: Vocoder neural basado en el modelo probabilístico de difusión con formas espectrales de ruido adaptativo (2022), Yuma Koizumi et al. [PDF]
Fuente Filter Hifi-Gan: Vocoder neural de alta fidelidad rápido y controlable (2022), Reo Yoneyama et al. [PDF]
Trinitts: TTS de extremo a extremo controlable sin alineador externo (2022), Yoon-Cheol Ju et al. [PDF]
Transferencia interlingual de disparo cero utilizando una representación de altavoces de codificación múltiple y eficiente (2022), Yibin Zheng et al. [PDF]
Instructtts: modelado de TTS expresivos en un espacio latente discreto con indicador de estilo de lenguaje natural (2023), Dongchao Yang et al. [PDF]
Matcha-TTS: una arquitectura TTS rápida con coincidencia de flujo condicional (2023), Shivam Mehta et al. [PDF]
MEGA-TTS: texto a voz cero a escala con sesgo inductivo intrínseco (2023), Ziyue Jiang et al. [PDF]
MEGA-TTS 2: texto a voz cero a voz con indicaciones del habla de longitud arbitraria (2023), Ziyue Jiang et al. [PDF]
Modelos N-Gram basados en clase de lenguaje natural (1992), Peter F. Brown et al. [PDF]
Un estudio empírico de las técnicas de suavizado para el modelado de idiomas (1996), Stanley F. Chen et al. [PDF]
Un modelo de lenguaje probabilístico neural (2000), Yoshua Bengio et al. [PDF]
Un nuevo enfoque estadístico para la entrada china de pinyin (2000), Zheng Chen et al. [PDF]
Modelado de lenguaje N-Gram discriminativo (2007), Brian Roark et al. [PDF]
Modelo de lenguaje de red neuronal para el Método de entrada de pinyin chino Engine (2015), S Chen et al. [PDF]
Capacitación y evaluación eficientes de modelos de lenguaje de red neuronal recurrente para el reconocimiento automático de voz (2016), Xie Chen et al. [PDF]
Explorando los límites del modelado de idiomas (2016), R Jozefowicz et al. [PDF]
On the State of the Art of Evaluation in Neural Language Models (2016), G Melis et al. [pdf]
Pay Less Attention with Lightweight and Dynamic Convolutions (2019), Felix Wu et al.[pdf]
Estimating Confidence using Word Lattices (1997), T. Kemp et al. [pdf]
Large vocabulary decoding and confidence estimation using word posterior probabilities (2000), G. Evermann et al. [pdf]
Combining Information Sources for Confidence Estimation with CRF Models (2011), MS Seigel et al. [pdf]
Speaker-Adapted Confidence Measures for ASR using Deep Bidirectional Recurrent Neural Networks (2018), M. ́A. Del-Agua et al. [pdf]
Bi-Directional Lattice Recurrent Neural Networks for Confidence Estimation (2018), Q. Li et al. [pdf]
Confidence Estimation for Black Box Automatic Speech Recognition Systems Using Lattice Recurrent Neural Networks (2020), A. Kastanos et al. [pdf]
CONFIDENCE ESTIMATION FOR ATTENTION-BASED SEQUENCE-TO-SEQUENCE MODELS FOR SPEECH RECOGNITION (2020), Qiujia Li et al. [pdf]
Residual Energy-Based Models for End-to-End Speech Recognition (2021), Qiujia Li et al. [pdf]
Multi-Task Learning for End-to-End ASR Word and Utterance Confidence with Deletion Prediction (2021), David Qiu et al. [pdf]
Onsets and Frames: Dual-Objective Piano Transcription (2017), Curtis Hawthorne et al. [pdf]
Unsupervised Singing Voice Conversion (2019), Eliya Nachmani et al. [pdf]
ByteSing- A Chinese Singing Voice Synthesis System Using Duration Allocated Encoder-Decoder Acoustic Models and WaveRNN Vocoders (2020), Yu Gu et al. [pdf]
DurIAN-SC: Duration Informed Attention Network based Singing Voice Conversion System (2020), Liqiang Zhang et al. [pdf]
HiFiSinger: Towards High-Fidelity Neural Singing Voice Synthesis (2020), Jiawei Chen et al. [pdf]
Jukebox: A Generative Model for Music (2020), Prafulla Dhariwal et al. [pdf]
DiffSinger: Singing Voice Synthesis via Shallow Diffusion Mechanism (2021), Jinglin Liu et al. [pdf]
MLP Singer: Towards Rapid Parallel Korean Singing Voice Synthesis (2021), Jaesung Tae et al. [pdf]
Multi-Singer: Fast Multi-Singer Singing Voice Vocoder With A Large-Scale Corpus (2021), Rongjie Huang et al. [pdf]
MusicBERT: Symbolic Music Understanding with Large-Scale Pre-Training (2021), Mingliang Zeng et al. [pdf]
N-Singer: A Non-Autoregressive Korean Singing Voice Synthesis System for Pronunciation Enhancement (2021), Gyeong-Hoon Lee et al. [pdf]
Non-Autoregressive TTS with Explicit Duration Modelling for Low-Resource Highly Expressive Speech (2021), Raahil Shah et al. [pdf]
PeriodNet: A non-autoregressive waveform generation model with a structure separating periodic and aperiodic components (2021), Yukiya Hono et al. [pdf]
Sequence-to-Sequence Piano Transcription with Transformers (2021), Curtis Hawthorne et al. [pdf]
M4Singer: a Multi-Style, Multi-Singer and Musical Score Provided Mandarin Singing Corpus (2022), Lichao Zhang et al. [pdf]
Opencpop: A High-Quality Open Source Chinese Popular Song Corpus for Singing Voice Synthesis (2022), Yu Wang et al. [pdf]
WeSinger: Data-augmented Singing Voice Synthesis with Auxiliary Losses (2022), Zewang Zhang et al. [pdf]
WeSinger 2: Fully Parallel Singing Voice Synthesis via Multi-Singer Conditional Adversarial Training (2022), Zewang Zhang et al. [pdf]
The Reversible Residual Network: Backpropagation Without Storing Activations (2017), Aidan N. Gomez et al. [pdf]
Soft-DTW: a Differentiable Loss Function for Time-Series (2018), Marco Cuturi et al. [pdf]
FlowSeq: Non-Autoregressive Conditional Sequence Generation with Generative Flow (2019), Xuezhe Ma et al. [pdf]
Learning Problem-agnostic Speech Representations from Multiple Self-supervised Tasks (2019), Santiago Pascual et al. [pdf]
Self-supervised audio representation learning for mobile devices (2019), Marco Tagliasacchi et al. [pdf]
SinGAN: Learning a Generative Model from a Single Natural Image (2019), Tamar Rott Shaham et al. [pdf]
Audio2Face: Generating Speech/Face Animation from Single Audio with Attention-Based Bidirectional LSTM Networks (2019), Guanzhong Tian et al. [pdf]
Attention is Not Only a Weight: Analyzing Transformers with Vector Norms (2020), Goro Kobayashi et al. [pdf]