Audiolm: Uma abordagem de modelagem de idiomas para a geração de áudio (2022), Zalán Borsos et al. [PDF]
Audioldm: geração de texto para áudio com modelos de difusão latente (2023), Haohe Liu et al. [PDF]
MusiclM: Gerando músicas do texto (2023), Andrea Agostinelli et al. [PDF]
Moûsai: geração de texto para música com difusão latente de longo contexto (2023), Flavio Schneider et al. [PDF]
Noise2Music: geração musical condicionada por texto com modelos de difusão (2023), Qingqing Huang et al. [PDF]
Uma introdução à aplicação da teoria das funções probabilísticas de um processo de Markov ao reconhecimento automático da fala (1982), Se Levinson et al. [PDF]
Uma abordagem de máxima verossimilhança do reconhecimento contínuo da fala (1983), Lalit R. Bahl et al. [PDF]
Medições acústicas heterogêneas e vários classificadores para reconhecimento de fala (1986), Andrew K. Halberstadt. [PDF]
Estimativa máxima de informação mútua dos parâmetros do modelo de Markov oculto para reconhecimento de fala (1986), Lalit R. Bahi et al. [PDF]
Um tutorial sobre modelos ocultos de Markov e aplicativos selecionados em reconhecimento de fala (1989), Lawrence R Rabiner. [PDF]
Reconhecimento de fonemas usando redes neurais de atraso no tempo (1989), Alexander H. Waibel et al. [PDF]
Reconhecimento de telefone independente do alto-falante usando modelos Hidden Markov (1989), Kai-Fu Lee et al. [PDF]
Modelos Hidden Markov para reconhecimento de fala (1991), BH Juang et al. [PDF]
Revisão das arquiteturas de TDNN (Rede Neural de atraso de tempo) para reconhecimento de fala (2014), Masahide Sugiyamat et al. [PDF]
Reconhecimento da fala conexionista: A Hybrid Abording (1994), Herve Bourlard et al. [PDF]
Um sistema de pós-processamento para produzir taxas reduzidas de erro de palavras: Redução de erros de votação de saída do reconhecimento (Rover) (1997), JG Fiscus. [PDF]
Reconhecimento de fala com transdutores de estado finito ponderado (2001), M Mohri et al. [PDF]
Classificação de fonemas quadros com LSTM bidirecional e outras arquiteturas de rede neural (2005), Alex Graves et al. [PDF]
Classificação temporal do conexão: rotulando dados de sequência não segmentados com redes neurais recorrentes (2006), Alex Graves et al. [PDF]
O kit de ferramentas de reconhecimento de fala de Kaldi (2011), Daniel Povey et al. [PDF]
Aplicando conceitos convolucionais de redes neurais ao modelo híbrido NN-HMM para reconhecimento de fala (2012), Ossama Abdel-Hamid et al. [PDF]
Redes neurais profundas pré-treinadas dependentes de contexto para reconhecimento de fala de grande vocabulário (2012), George E. Dahl et al. [PDF]
Redes neurais profundas para modelagem acústica no reconhecimento de fala (2012), Geoffrey Hinton et al. [PDF]
Transdução de sequência com redes neurais recorrentes (2012), Alex Graves et al. [PDF]
Redes neurais convolucionais profundas para LVCSR (2013), Tara N. Sainath et al. [PDF]
Melhorando redes neurais profundas para LVCSR usando unidades lineares retificadas e abandono (2013), George E. Dahl et al. [PDF]
Melhorando o CD-DNN-HMM de baixo recurso usando o abandono e o treinamento multilíngue de DNN (2013), Yajie Miao et al. [PDF]
Melhorias nas profundas redes neurais convolucionais para o LVCSR (2013), Tara N. Sainath et al. [PDF]
Paradigmas de aprendizado de máquina para reconhecimento de fala: uma visão geral (2013), Li Deng et al. [PDF]
Avanços recentes na aprendizagem profunda para pesquisas de fala na Microsoft (2013), Li Deng et al. [PDF]
Reconhecimento de fala com redes neurais recorrentes profundas (2013), Alex Graves et al. [PDF]
Redes de Maxout Deep Convolucional para Reconhecimento de Telefones (2014), László Tóth et al. [PDF]
Redes neurais convolucionais para reconhecimento de fala (2014), Ossama Abdel-Hamid et al. [PDF]
Combinando a convolução no domínio do tempo e da frequência no reconhecimento de telefones de rede neural convolucional (2014), László Tóth. [PDF]
Discurso profundo: ampliando o reconhecimento de fala de ponta a ponta (2014), Awni Y. Hannun et al. [PDF]
Reconhecimento contínuo de fala de ponta a ponta usando NN recorrente baseado em atenção: Primeiros resultados (2014), Jan Chorowski et al. [PDF]
Reconhecimento contínuo de fala contínuo de vocabulário de primeira passagem usando DNNs recorrentes bidirecionais (2014), Andrew L. Maas et al. [PDF]
Arquiteturas de redes neurais recorrentes de memória de curto prazo para modelagem acústica em larga escala (2014), Hasim Sak et al. [PDF]
Reconhecimento robusto de fala baseado na CNN com Kernels de filtro de Gabor (2014), Shuo-Yiin Chang et al. [PDF]
Redes de maxout de pool estocástico para reconhecimento de discurso de baixo recurso (2014), Meng Cai et al. [PDF]
Rumo ao reconhecimento de fala de ponta a ponta com redes neurais recorrentes (2014), Alex Graves et al. [PDF]
Um transdutor neural (2015), N Jaitly et al. [PDF]
Modelos baseados em atenção para reconhecimento de fala (2015), Jan Chorowski et al. [PDF]
Análise do sistema de reconhecimento de fala baseado em CNN usando a fala bruta como entrada (2015), Dimitri Palaz et al. [PDF]
Memória convolucional e de longo prazo, redes neurais profundas totalmente conectadas (2015), Tara N. Sainath et al. [PDF]
Redes neurais convolucionais profundas para modelagem acústica em idiomas baixos de recursos (2015), William Chan et al. [PDF]
Redes neurais profundas para reconhecimento de fala multi-talking de canal único (2015), Chao Weng et al. [PDF]
Eesen: reconhecimento de fala de ponta a ponta usando modelos profundos de RNN e decodificação baseada em WFST (2015), Y Miao et al. [PDF]
Modelos acústicos de rede neural recorrente rápida e precisa para reconhecimento de fala (2015), Hasim Sak et al. [PDF]
Reconhecimento de fala conversacional sem léxico com redes neurais (2015), Andrew L. Maas et al. [PDF]
Treinamento de sequência on -line de redes neurais recorrentes com classificação temporal conexionista (2015), Kyuyeon Hwang et al. [PDF]
Avanços no reconhecimento de fala neural (2016), Geoffrey Zweig et al. [PDF]
Avanços em redes neurais convolucionais muito profundas para LVCSR (2016), Tom Sercu et al. [PDF]
Reconhecimento de fala de grande vocabulário baseado em atenção baseado na atenção (2016), Dzmitry Bahdanau et al. [PDF]
Redes neurais convolucionais profundas com expansão e atenção de contexto em camadas (2016), Dong Yu et al. [PDF]
Discurso profundo 2: Reconhecimento de fala de ponta a ponta em inglês e mandarim (2016), Dario Amodei et al. [PDF]
Reconhecimento de fala distante baseado em atenção com base na atenção com a rodovia LSTM (2016), Hassan Taherian. [PDF]
Reconhecimento de fala de ponta a ponta baseado em CTC-Attention-Atenção CTC (2016), Suyoun Kim et al. [PDF]
Ouça, participe e feitiço: uma rede neural para um grande reconhecimento de discurso de conversação de vocabulário (2016), William Chan et al. [PDF]
Decomposições de sequência latente (2016), William Chan et al. [PDF]
Modelando padrões de frequência de tempo com arquiteturas LSTM vs. Convolucional para tarefas de LVCSR (2016), Tara N. Sainath et al. [PDF]
Modelos recorrentes para atenção auditiva no reconhecimento de fala da distância multi-microfone (2016), Suyoun Kim et al. [PDF]
Redes neurais recorrentes segmentares para reconhecimento de fala de ponta a ponta (2016), Liang Lu et al. [PDF]
Para uma melhor integração de decodificação e modelo de linguagem em modelos de sequência aos seqüências (2016), Jan Chorowski et al. [PDF]
Redes neurais convolucionais muito profundas para reconhecimento de fala robusto de ruído (2016), Yanmin Qian et al. [PDF]
Redes convolucionais muito profundas para reconhecimento de fala de ponta a ponta (2016), Yu Zhang et al. [PDF]
Redes neurais convolucionais multilíngues muito profundas para LVCSR (2016), Tom Sercu et al. [PDF]
WAV2LETTER: Um sistema de reconhecimento de fala baseado em ConvNet de ponta a ponta (2016), Ronan Collobert et al. [PDF]
Reconhecimento de emoção da fala baseada em rede neural convolucional atenciosa: um estudo sobre o impacto das características de entrada, comprimento do sinal e fala actada (2017), Michael Neumann et al. [PDF]
Um sistema aprimorado de reconhecimento automático de fala para o árabe (2017), Mohamed Amine Menacer et al. [PDF]
Avanços no reconhecimento de fala de ponta a ponta baseado em CTC-Attention com um codificador CNN profundo e RNN-LM (2017), Takaaki Hori et al. [PDF]
Uma rede de redes neurais profundas para reconhecimento de fala distante (2017), Mirco Ravanelli et al. [PDF]
Um modelo de sequência a sequência on-line para reconhecimento de fala barulhento (2017), Chung-Cheng Chiu et al. [PDF]
Uma técnica de agrupamento de alto-falante não supervisionada baseada em SOM e I-Vectores para sistemas de reconhecimento de fala (2017), Hany Ahmed et al. [PDF]
Reconhecimento de fala de ponta a ponta baseado em atenção em mandarim (2017), C Shan et al. [PDF]
Construindo modelos acústicos da DNN para grande reconhecimento de fala de vocabulário (2017), Andrew L. Maas et al. [PDF]
Modelos de acústica direta para palavras para o reconhecimento de fala em inglês (2017), Kartik Audhkhasi et al. [PDF]
Aprendizagem profunda para reconhecimento de fala ambientalmente robusto: uma visão geral dos desenvolvimentos recentes (2017), Zixing Zhang et al. [PDF]
Reconhecimento de discurso por telefone de conversação inglesa por humanos e máquinas (2017), George Saon et al. [PDF]
ESE: Motor de reconhecimento de fala eficiente com LSTM esparso no FPGA (2017), Song Han et al. [PDF]
Explorando o aprimoramento da fala com redes adversárias generativas para reconhecimento robusto de fala (2017), Chris Donahue et al. [PDF]
LSTM profundo para um grande reconhecimento de fala contínuo de vocabulário (2017), Xu Tian et al. [PDF]
Normalização da camada dinâmica para modelagem acústica neural adaptativa no reconhecimento da fala (2017), Taesup Kim et al. [PDF]
Gram-CTC: seleção automática de unidades e decomposição alvo para marcação de sequência (2017), Hairong Liu et al. [PDF]
Melhorando o desempenho dos modelos on -line de transdutores neurais (2017), Tara N. Sainath et al. [PDF]
Aprendizagem FilterBanks do discurso bruto para reconhecimento de telefone (2017), Neil Zeghidour et al. [PDF]
Reconhecimento de fala de ponta a ponta multicanal (2017), Tsubasa Ochiai et al. [PDF]
Aprendizagem de várias tarefas com CTC e CRF segmentar para reconhecimento de fala (2017), Liang Lu et al. [PDF]
Processamento de sinal multicanal com redes neurais profundas para reconhecimento automático de fala (2017), Tara N. Sainath et al. [PDF]
Reconhecimento multilíngue de fala com um único modelo de ponta a ponta (2017), Shubham Toshniwal et al. [PDF]
Otimizando a taxa de erro de palavra esperada via amostragem para reconhecimento de fala (2017), Matt Shannon. [PDF]
Redes CTC convolucionais residuais para reconhecimento automático de fala (2017), Yisen Wang et al. [PDF]
LSTM residual: projeto de uma arquitetura recorrente profunda para reconhecimento de fala distante (2017), Jaeyoung Kim et al. [PDF]
Modelos recorrentes para atenção auditiva no reconhecimento de fala da distância multi-microfone (2017), Suyoun Kim et al. [PDF]
Reduzindo o viés nos modelos de fala de produção (2017), Eric Battenberg et al. [PDF]
Reconhecimento robusto de fala usando redes adversárias generativas (2017), Anuroop Sriram et al. [PDF]
Reconhecimento de fala de última geração com modelos de sequência a sequência (2017), Chung-Cheng Chiu et al. [PDF]
Rumo ao reconhecimento de fala de ponta a ponta da linguagem (2017), Suyoun Kim et al. [PDF]
Acelerar o sistema de reconhecimento de fala on -line baseado em Rede Neural Recorrente (2018), K Lee et al. [PDF]
Um modelo aprimorado de atendimento híbrido de CTC para reconhecimento de fala (2018), Zhe Yuan et al. [PDF]
Reconhecimento de fala de ponta a ponta baseado em CTC-Attention Hybrid usando unidades de subpursa (2018), Zhangyu Xiao et al. [PDF]
Especaugment: Um método simples de aumento de dados para reconhecimento automático de fala (2019), Daniel S. Park et al. [PDF]
VQ-WAV2VEC: Aprendizagem auto-supervisionada de representações de fala discretas (2019), Alexei Baevski et al. [PDF]
Eficácia do pré-treinamento auto-supervisionado para reconhecimento de fala (2020), Alexei Baevski et al. [PDF]
Treinamento de estudante barulhento melhorado para reconhecimento automático de fala (2020), Daniel S. Park, et al. [PDF]
ContextNet: Melhorando as redes neurais convolucionais para reconhecimento automático de fala com o contexto global (2020), Wei Han, et al. [PDF]
Conformador: Transformador agitado por convolução para reconhecimento de fala (2020), Anmol Gulati, et al. [PDF]
Na comparação de modelos populares de ponta a ponta para reconhecimento de fala em larga escala (2020), Jinyu Li et al. [PDF]
Aumentado Aprendizado Auto-Supervisionado para Representações Invariantes de Áudio (2021), Melikasadat Emami et al. [PDF]
Treinamento eficiente de transformadores de áudio com patchout (2021), Khaled Koutini et al. [PDF]
MixSpeech: Aumentação de dados para reconhecimento automático de fala automática de baixo recurso (2021), Linghui Meng et al. [PDF]
Aprendizagem multi-codificadora e fusão de fluxo para reconhecimento automático de fala de ponta a ponta baseado em transformadores (2021), Timo Lohrenz et al. [PDF]
Specaugment ++: Um método de aumento de dados espaciais ocultos para classificação de cena acústica (2021), Helin Wang et al. [PDF]
Specmix: Um método de aumento de dados de amostra misto para treinamento com recursos de domínio de frequência de tempo (2021), Gwantae Kim et al. [PDF]
A história do reconhecimento de fala para o ano 2030 (2021), Awni Hannun et al. [PDF]
A conversão de voz pode melhorar o ASR em configurações de recursos muito baixos (2021), Matthew Baas et al. [PDF]
Por que o CTC resulta em comportamento de pico? (2021), Albert Zeyer et al. [PDF]
Segmento E2E: segmentação e decodificação conjunta para ASR de forma longa (2022), W. Ronny Huang et al. [PDF]
Separação da fonte musical com fluxo generativo (2022), Ge Zhu et al. [PDF]
Melhorando as representações de fala auto-supervisionadas por desvencoração de falantes (2022), Kaizhi Qian et al. [PDF]
Reconhecimento robusto de fala por meio de supervisão fraca em larga escala (2022), Alec Radford et al. [PDF]
Na arquitetura somente para decodificador para a integração de fala para texto e grande modelo de linguagem (2023), Jian Wu et al. [PDF]
Verificação do alto -falante usando modelos de mistura gaussiana adaptada (2000), Douglas A.Reynolds et al. [PDF]
Um tutorial sobre verificação do alto-falante independente de texto (2004), Frédéric Bimbot et al. [PDF]
Redes neurais profundas para verificação de alto-falante dependente de texto de pegada pequena (2014), E Variani et al. [PDF]
Vetores de alto-falante profundo para verificação de alto-falante semi-textos (2015), Lantian Li et al. [PDF]
Palestrante profundo: um sistema de incorporação de alto-falante neural de ponta a ponta (2017), Chao Li et al. [PDF]
Aprendizagem de alto-falante profunda para verificação de alto-falante independente de texto (2017), Lantian Li et al. [PDF]
Verificação do alto -falante profundo: precisamos de ponta a fim? (2017), Dong Wang et al. [PDF]
Diarização do alto -falante com LSTM (2017), Quan Wang et al. [PDF]
Verificação do alto-falante independente de texto usando redes neurais convolucionais 3D (2017), Amirsina Torfi et al. [PDF]
Verificação de alto-falante independente de texto de ponta a ponta com perda de trigêmeos em pequenos enunciados (2017), Chunlei Zhang et al. [PDF]
INCEDIMENTOS DE RETULAÇÃO DE PROFUNDO PARA VERIFICAÇÃO DO OS ORLAMENTO Independente de texto (2017), David Snyder et al. [PDF]
INCLIMAÇÕES DISPIVILATIVAS DE DURAÇÃO DURAÇÃO DURAÇÃO VERIFICAÇÃO DO OSSENTAÇÃO (2018), Na Li et al. [PDF]
Aprendendo características discriminativas para identificação e verificação dos alto -falantes (2018), Sarthak Yadav et al. [PDF]
Grande perda de margem softmax para verificação do alto -falante (2019), Yi Liu et al. [PDF]
Aprimoramento de recursos não supervisionado para a verificação do alto -falante (2019), Phani Sankar Nidadavolu et al. [PDF]
Aprimoramento de recursos com profundas perdas de recursos para verificação dos alto -falantes (2019), Saurabh Kataria et al. [PDF]
Perda generalizada de END2END para verificação do alto -falante (2019), Li Wan et al. [PDF]
Pirâmide espacial que codifica com normalização do comprimento convexo para verificação do alto-falante independente de texto (2019), Youngmoon Jung et al. [PDF]
VOXSRC 2019: O primeiro desafio de reconhecimento de alto -falantes de Voxceleb (2019), filho Chung et al. [PDF]
Mas a descrição do sistema para o VoxceleB Speaker Reconhition Challenge 2019 (2019), Hossein Zeinali et al. [PDF]
A descrição do sistema de P&D de P&D da ID para desafio de verificação de alto-falante de curta duração 2021 (2021), Alenin et al. [PDF]
Conversão de voz usando profundas redes neurais recorrentes baseadas em memória de curto prazo de longo prazo (2015), Lifa Sun et al. [PDF]
Gramas posteriores fonéticos para a conversão de voz muitos para um sem treinamento de dados paralelos (2016), Lifa Sun et al. [PDF]
Stargan-VC: Conversão de voz de muitos para muitos não paralela com redes adversárias generativas de estrela (2018), Hirokazu Kameoka et al. [PDF]
Autovc: transferência de estilo de voz zero-tiro com apenas perda de autoencoder (2019), Kaizhi Qian et al. [PDF]
Stargan-VC2: Repensando os métodos condicionais para conversão de voz baseada em Stargan (2019), Takuhiro Kaneko et al. [PDF]
Aprendizagem de ponta a ponta não supervisionada de unidades linguísticas discretas para conversão de voz (2019), Andy T. Liu et al. [PDF]
INCEDIMENTOS DE ALTO DE ATENÇÃO para conversão de voz com um tiro (2020), Tatsuma Ishihara et al. [PDF]
F0 Conversão de voz não paralela a muitos-paralelos via autoencoder condicional (2020), Kaizhi Qian et al. [PDF]
Conversão de voz não paralela baseada no reconhecimento-síntese com aprendizado adversário (2020), Jing-Xuan Zhang et al. [PDF]
Um Stargan aprimorado para conversão de voz emocional: aprimorando a qualidade da voz e o aumento de dados (2021), Xiangheng He et al. [PDF]
CRANÇA: Um software de código aberto para conversão de voz não paralelo com base no autoencoder variacional-desconhecido do vetor (2021), Kazuhiro Kobayashi et al. [PDF]
CVC: aprendizado contrastante para conversão de voz não paralela (2021), Tingle Li et al. [PDF]
NoiseVC: Em direção à conversão de voz de alta qualidade de tiro zero (2021), Shijun Wang et al. [PDF]
Na modelagem de prosódia para conversão de voz baseada em ASR+TTS (2021), Wen-Chin Huang et al. [PDF]
Starganv2-VC: Uma estrutura diversificada, não supervisionada e não paralela para conversão de voz com som natural (2021), Yinghao Aaron Li et al. [PDF]
Conversão de voz com tiro zero via aprendizado de representação de prosódia auto-supervisionada (2021), Shijun Wang et al. [PDF]
Estimativa de sinal da transformação de Fourier de curto tempo modificada (1993), Daniel W. Griffin et al. [PDF]
Síntese de texto em fala (2009), Paul Taylor et al. [PDF]
Um algoritmo rápido de Griffin-Lim (2013), Nathanael Perraudin et al. [PDF]
Síntese de TTS com redes neurais recorrentes baseadas em LSTM Bidirecional (2014), Yuchen Fan et al. [PDF]
Primeiro passo em direção à síntese paramétrica de TTS de ponta a ponta: gerando parâmetros espectrais com atenção neural (2016), Wenfu Wang et al. [PDF]
Avanços recentes no Google em tempo real HMM, sintetizador de seleção de unidades (2016), Xavi Gonzalvo et al. [PDF]
Samplernn: Um modelo incondicional de geração de áudio neural de ponta a ponta (2016), Soroush Mehri et al. [PDF]
WaveNet: Um modelo generativo para áudio bruto (2016), Aäron van den Oord et al. [PDF]
CHAR2WAV: Síntese de Fala de ponta a ponta (2017), J Sotelo et al. [PDF]
Voz profunda: Texto neural em tempo real (2017), Sercan O. Arik et al. [PDF]
Voz profunda 2: Texto neural de vários falantes (2017), Sercan Arik et al. [PDF]
Voz Deep 3: 2000-falantes textos neurais em fala (2017), Wei Ping et al. [PDF]
Síntese de TTS natural por condicionar o WaveNet nas previsões de espectrograma MEL (2017), Jonathan Shen et al. [PDF]
Wavenet paralelo: síntese rápida de fala de alta fidelidade (2017), Aaron van den Oord et al. [PDF]
Síntese estatística de fala paramétrica usando redes adversárias generativas sob uma estrutura de aprendizado de várias tarefas (2017), S Yang et al. [PDF]
Tacotron: Rumo a síntese de fala de ponta a ponta (2017), Yuxuan Wang et al. [PDF]
Descobrindo os fatores de estilo latente para a síntese expressiva da fala (2017), Yuxuan Wang et al. [PDF]
VoiceLoop: ajuste de voz e síntese por meio de um loop fonológico (2017), Yaniv Taigman et al. [PDF]
Clarinete: geração de ondas paralelas na ponta a ponta da fala (2018), Wei Ping et al. [PDF]
Redes de memória seqüencial de alimentação profunda para síntese de fala (2018), Mengxiao BI et al. [PDF]
LPCNET: Melhorando a síntese da fala neural através da previsão linear (2018), Jean-Marc Valin et al. [PDF]
Aprendendo representações latentes para controle de estilo e transferência na síntese de fala de ponta a ponta (2018), Ya-Jie Zhang et al. [PDF]
Clonagem de voz neural com algumas amostras (2018), Sercan O. Arık et al. [PDF]
Prevendo o estilo de falar expressivo do texto na síntese de fala de ponta a ponta (2018), Daisy Stanton et al. [PDF]
Tokens de estilo: modelagem de estilo não supervisionada, controle e transferência na síntese de ponta a ponta (2018), Y Wang et al. [PDF]
Para a transferência de prosódios de ponta a ponta para síntese expressiva de fala com Tacotron (2018), RJ Skerry-Ryan et al. [PDF]
Durian: Rede de atenção informada por duração para síntese multimodal (2019), Chengzhu Yu et al. [PDF]
Inversão rápida do espectrograma usando redes neurais convolucionais de várias cabeças (2019), Sö Arık et al. [PDF]
FastSpeech: texto rápido, robusto e controlável para a fala (2019), Yi Ren et al. [PDF]
Aprendendo a falar fluentemente em uma língua estrangeira: síntese multilíngue de fala e clonagem de voz entre linguagem (2019), Yu Zhang et al. [PDF]
MELNET: Um modelo generativo para áudio no domínio da frequência (2019), Sean Vasquez et al. [PDF]
Síntese de fala de ponta a ponta de vários falantes (2019), Jihyun Park et al. [PDF]
Melgan: Redes adversárias generativas para síntese de formas de onda condicional (2019), Kundan Kumar et al. [PDF]
Síntese de fala neural com Rede de Transformer (2019), Naihan Li et al. [PDF]
Texto neural paralelo (2019), Kainan Peng et al. [PDF]
Representações de texto pré-treinadas para melhorar o processamento de texto do front-end na síntese de texto em fala em mandarim (2019), Bing Yang et al. [PDF]
Godan de ondas paralelas: Um modelo de geração de formas de onda rápida baseada em redes adversárias generativas com espectrograma multi-resolução (2019), Ryuichi Yamamoto et al. [PDF] sai ao mesmo tempo que Melgan, enquanto ninguém se refere ... Além disso, acho que o ruído gaussiano é desnecessário, já que o Melspec tem informações muito fortes.
Incorporações de fala agnóstica de problemas para texto em fala de vários falantes com Samplernn (2019), David Alvarez et al. [PDF]
Modelagem acústica de sequência a sequência robusta com atenção monotônica passo a passo para TTS neural (2019), Mutian He et al. [PDF]
Para a transferência de aprendizado para a síntese de fala de ponta a ponta de modelos de idiomas pré-treinados profundos (2019), Wei Fang et al. [PDF]
Transfira o aprendizado da verificação do alto-falante para a síntese de texto para fala multispicano (2019), Ye Jia et al. [PDF]
Fluxo de onda: um modelo compacto baseado em fluxo para áudio bruto (2019), Wei Ping et al. [PDF]
Waveglow: Uma rede generativa baseada em fluxo para síntese de fala (2019), R Presenger et al. [PDF]
ALIGNTTS: Sistema de texto em fala eficiente e eficientes sem alignmen explícitos (2020), Zhen Zeng et al. [PDF]
Boffin TTS: Adaptação de poucos alto-falantes por otimização bayesiana (2020), Henry B.Moss et al. [PDF]
LPCNET agrupado: vocoder para sistemas de texto em fala em fala em baixo custo (2020), Ravichander Vipperla et al. [PDF]
Copycat: transferência de prosódia de granulação fina de muitos para muitos para muitos para a fala neural (2020), Sri Karlapati et al. [PDF]
Eficientes: Uma arquitetura de texto em fala eficiente e de alta qualidade (2020), Chenfeng Miao et al. [PDF]
TEXTO-PARA ESTADA-A-A-FIMA A-FILHA (2020), Jeff Donahue et al. [PDF]
FastSpeech 2: texto de ponta a ponta rápido e de alta qualidade para a fala (2020), Yi Ren et al. [PDF]
Flowtron: Uma rede generativa autorregressiva baseada em fluxo para síntese de texto em fala (2020), Rafael Valle et al. [PDF]
Flow-TTS: Uma rede não autorregressiva para texto para fala com base no fluxo (2020), Chenfeng Miao et al. [PDF]
Modelagem de prosódia de granulação fina totalmente hierárquica para síntese interpretável da fala (2020), Guangzhi Sun et al. [PDF]
Gerando amostras diversas e naturais de texto em fala usando um VAE de grão fino quantizado e prosódia automática regressiva anterior (2020), Guangzhi Sun et al. [PDF]
GLOW-TTS: Um fluxo generativo para a fala em fala via pesquisa de alinhamento monotônico (2020), Jaehyeon Kim et al. [PDF]
HIFI-GAN: Redes adversárias generativas para síntese de fala eficiente e de alta fidelidade (2020), Jungutil Kong et al. [PDF]
Mecanismos de atenção relativos à localização para Synthesi de fala longa robusta (2020), Eric Battenberg et al. [PDF]
MultisSech: texto multi-falante para a fala com o transformador (2020), Mingjian Chen et al. [PDF]
Tacotron paralelo: TTS não autorregressivo e controlável (2020), Isaac Elias et al. [PDF]
Robutrans: um modelo robusto baseado em transformador em expressão (2020), Naihan Li et al. [PDF]
Verificação do alto-falante independente de texto com rede de atenção dupla (2020), Jingyu Li et al. [PDF]
WaveGrad: Estimativa de gradientes para geração de formas de onda (2020), nanxina Chen et al. [PDF]
AdasPeech: texto adaptativo à fala para voz personalizada (2021), Mingjian Chen et al. [PDF]
Uma pesquisa sobre síntese de fala neural (2021), Xu Tan et al. [PDF]
Um vocoder de gan com fluxo para codificação de fala de banda larga a uma taxa de bits muito baixa (2021), Ahmed Mustafa et al. [PDF]
Transferência de emoção cruzada controlável para síntese de fala de ponta a ponta (2021), Tao Li et al. [PDF]
Clonando a voz usando dados muito limitados na natureza (2021), Dongyang Dai et al. [PDF]
Autoencoder variacional condicional com aprendizado adversário para o texto para a fala de ponta a ponta (2021), Jaehyeon Kim et al. [PDF]
Diffwave: Um modelo de difusão versátil para síntese de áudio (2021), Zhifeng Kong et al. [PDF]
Diff-TTS: Um modelo de difusão de denoising para a fala em fala (2021), Myeonghun Jeong et al. [PDF]
Delightfultts: O sistema de síntese de fala da Microsoft para o Blizzard Challenge 2021 (2021), Yanqing Liu et al. [PDF]
Fre-Gan: síntese de áudio consistente com frequência adversária (2021), Ji-hoon Kim et al. [PDF]
LPCNET de banda inteira: um vocoder neural em tempo real para 48 kHz de áudio com uma CPU (2021), Keisuke Matsubara et al. [PDF]
Grad-TTS: Um modelo probabilístico de difusão para texto em fala (2021), Vadim Popov et al. [PDF]
Glow-Wavegan: Aprendendo representações de fala do auto-codificador variacional baseado em GaN para síntese de fala baseada em fluxo de alta fidelidade (2021), Jian Cong et al. [PDF]
Vocoder neural universal universal de alta fidelidade e baixa latência baseado em wavernn multiband com previsão linear orientada a dados para modelagem discreta de forma de onda (2021), Patrick Lumban Tobbing et al. [PDF]
Modelagem de prosódia hierárquica para síntese de fala não autorregressiva (2021), Chung-Ming Chien et al. [PDF]
ITOˆTTS e ITOˆwave: Equação diferencial estocástica linear é tudo o que você precisa para geração de áudio (2021), Shoule Wu et al. [PDF]
Jatos: treinando em conjunto FastSpeech2 e Hifi-Gan para o texto de ponta a ponta da fala (2021), Dan Lim et al. [PDF]
Meta-Voice: Transferência rápida de estilo de poucos tiros para clonagem expressiva de voz usando meta aprendizado (2021), Songxiang Liu et al. [PDF]
Os HMMs neurais são tudo o que você precisa (para TTS sem atenção de alta qualidade) (2021), Shivam Mehta et al. [PDF]
A mudança de inclinação neural e a tendência do tempo com LPCNET controlável (2021), Max Morrison et al. [PDF]
Um alinhamento TTS para governar todos eles (2021), Rohan Badlani et al. [PDF]
Karatuner: Rumo à correção de afinação de ponta a ponta para cantar voz em karaokê (2021), Xiaobin Zhuang et al. [PDF]
PNG Bert: Bert aumentado em fonemas e grafemas para TTS neural (2021), Ye Jia et al. [PDF]
Tacotron paralelo 2: Um modelo TTS neural não autorregressivo com modelagem de duração diferenciável (2021), Isaac Elias et al. [PDF]
PortasPaseech: Texto-a-fala portátil e de alta qualidade (2021), Yi Ren et al. [PDF]
Modelagem acústica baseada em transformador para síntese de fala da fala (2021), Chunyang Wu et al. [PDF]
Triple M: Um sistema prático de texto em fala com atenção multi-guidância e LPCNET multi-time de várias bandas (2021), Shilun Lin et al. [PDF]
TalkNet 2: Modelo convolucional separável não autorregressivo para a síntese da fala com previsão explícita de tom e duração (2021), Stanislav Beliaev et al. [PDF] TalkNet2 tem uma pequena diferença do TalkNet, então não incluo o TalkNet aqui.
Rumo ao controle de estilo em várias escalas para a síntese expressiva da fala (2021), Xiang Li et al. [PDF]
GaN de filtro de origem unificado: rede de filtro de origem unificada com base na fatoração de onda paralela quase periódica (2021), Reo Yoneyama et al. [PDF]
YourTTs: em direção a TTS multi-falante com zero tiro e conversão de voz com tiro zero para todos (2021), Edresson Casanova et al. [PDF]
Avocodo: Rede Adversário generativa para vocoder livre de artefatos (2022), Taejun Bak et al. [PDF]
Aprendizagem de consistência do alto-falante adversário usando dados de fala não divulgados para o texto em fala em múltiplos falantes de zero-shot (2022), Byoung Jin Choi et al. [PDF]
LPCNET2: vocoders neurais eficientes cobrindo dispositivos de nuvem a borda (2022), Sangjun Park et al. [PDF]
Transferência de emoções cruzadas para o texto para fala em fala usando conversão de voz não paralela com aumento de dados de desvio (2022), Ryo Terashima et al. [PDF]
FastDiff: Um modelo de difusão condicional rápido para síntese de fala de alta qualidade (2022), Rongjie Huang et al. [PDF]
Grad-tts rápidos: Para geração de fala baseada em difusão eficiente na CPU (2022), Ivan Vovk et al. [[PDF]
Glow-Wavegan 2: Síntese de texto em fala zero de alta qualidade e conversão de voz em qualquer qualquer coisa (2022), Yi Lei et al. [PDF]
HIFI ++: Uma estrutura unificada para vocoding neural, extensão de largura de banda e aprimoramento da fala (2022), Pavel Andreev et al. [PDF]
IQDUBBING: Modelagem de prosódia com base em representação discreta da fala auto-supervisionada para conversão de voz expressiva (2022), Wendong Gan et al. [PDF]
ISTFTNET: vocoder de espectro do espectro rápido e leve que incorpora a transformação inversa de Fourier de curto tempo (2022), Takuhiro Kaneko et al. [PDF]
A fidelidade leve e de alta fidelidade de ponta a ponta com geração de várias bandas e transformada de Fourier de curto tempo inversa (2022), Masaya Kawamura et al. [PDF]
Síntese da fala neural em um toque: melhorando a eficiência do LPCNET (2022), Jean-Marc Valin et al. [PDF]
Nansy ++: síntese de voz unificada com análise e síntese neural (2022), Hyeong-seok Choi et al. [PDF]
PRINHADO: Melhorando os modelos de difusão de denoising condicional com prior adaptativo dependente de dados (2022), Sang-Gil Lee et al. [PDF]
PromptTTTS: Texto-discurso controlável com descrições de texto (2022), Zhifang Guo et al. [PDF]
SANE-TTS: Multilíngue de ponta a ponta estável e natural (2022) de ponta a ponta (2022), Hyunjae Cho et al. [PDF]
Melhoramento da fala neural do domínio STFT com latência algorítmica muito baixa (2022), Zhong-Qiu Wang et al. [PDF]
Síntese de fala não supervisionada simples e eficaz (2022), Alexander H. Liu et al. [PDF]
Especgrade: Vocoder neural baseado em modelo probabilístico de difusão com modelagem espectral de ruído adaptável (2022), Yuma Koizumi et al. [PDF]
Filtro de origem HIFI-GAN: vocoder neural de alta fidelidade e pitch de alta fidelidade (2022), Reo Yoneyama et al. [PDF]
Trinitts: TTS de ponta a ponta controlável por meio sem alinhador externo (2022), Yoon-Cheol Ju et al. [PDF]
Transferência transversal zero-tiro usando o codificador multi-stream e representação eficiente do alto-falante (2022), Yibin Zheng et al. [PDF]
Instruções: Modelando TTS expressivos em espaço latente discreto com prompt de estilo de linguagem natural (2023), Dongchao Yang et al. [PDF]
Matcha-TTS: Uma arquitetura TTS rápida com correspondência de fluxo condicional (2023), Shivam Mehta et al. [PDF]
MEGA-TTS: Text-to-fala de tiro zero em escala com viés indutivo intrínseco (2023), Ziyue Jiang et al. [PDF]
Mega-TTS 2: Zero S-Shot Text-to-fala com compras de comprimento arbitrário (2023), Ziyue Jiang et al. [PDF]
Modelos de n-gramas baseados em classe (1992), Peter F. Brown et al. [PDF]
Um estudo empírico de técnicas de suavização para modelagem de idiomas (1996), Stanley F. Chen et al. [PDF]
Um modelo de linguagem probabilística neural (2000), Yoshua Bengio et al. [PDF]
Uma nova abordagem estatística da entrada de pinyin chinesa (2000), Zheng Chen et al. [PDF]
Modelagem de Linguagem N-Gram discriminativa (2007), Brian Roark et al. [PDF]
Modelo de linguagem de rede neural para o mecanismo de método de entrada pinyin chinês (2015), S Chen et al. [PDF]
Treinamento e avaliação eficientes de modelos recorrentes de linguagem de rede neural para reconhecimento automático de fala (2016), Xie Chen et al. [PDF]
Explorando os limites da modelagem de linguagem (2016), R Jozefowicz et al. [PDF]
On the State of the Art of Evaluation in Neural Language Models (2016), G Melis et al. [pdf]
Pay Less Attention with Lightweight and Dynamic Convolutions (2019), Felix Wu et al.[pdf]
Estimating Confidence using Word Lattices (1997), T. Kemp et al. [pdf]
Large vocabulary decoding and confidence estimation using word posterior probabilities (2000), G. Evermann et al. [pdf]
Combining Information Sources for Confidence Estimation with CRF Models (2011), MS Seigel et al. [pdf]
Speaker-Adapted Confidence Measures for ASR using Deep Bidirectional Recurrent Neural Networks (2018), M. ́A. Del-Agua et al. [pdf]
Bi-Directional Lattice Recurrent Neural Networks for Confidence Estimation (2018), Q. Li et al. [pdf]
Confidence Estimation for Black Box Automatic Speech Recognition Systems Using Lattice Recurrent Neural Networks (2020), A. Kastanos et al. [pdf]
CONFIDENCE ESTIMATION FOR ATTENTION-BASED SEQUENCE-TO-SEQUENCE MODELS FOR SPEECH RECOGNITION (2020), Qiujia Li et al. [pdf]
Residual Energy-Based Models for End-to-End Speech Recognition (2021), Qiujia Li et al. [pdf]
Multi-Task Learning for End-to-End ASR Word and Utterance Confidence with Deletion Prediction (2021), David Qiu et al. [pdf]
Onsets and Frames: Dual-Objective Piano Transcription (2017), Curtis Hawthorne et al. [pdf]
Unsupervised Singing Voice Conversion (2019), Eliya Nachmani et al. [pdf]
ByteSing- A Chinese Singing Voice Synthesis System Using Duration Allocated Encoder-Decoder Acoustic Models and WaveRNN Vocoders (2020), Yu Gu et al. [pdf]
DurIAN-SC: Duration Informed Attention Network based Singing Voice Conversion System (2020), Liqiang Zhang et al. [pdf]
HiFiSinger: Towards High-Fidelity Neural Singing Voice Synthesis (2020), Jiawei Chen et al. [pdf]
Jukebox: A Generative Model for Music (2020), Prafulla Dhariwal et al. [pdf]
DiffSinger: Singing Voice Synthesis via Shallow Diffusion Mechanism (2021), Jinglin Liu et al. [pdf]
MLP Singer: Towards Rapid Parallel Korean Singing Voice Synthesis (2021), Jaesung Tae et al. [pdf]
Multi-Singer: Fast Multi-Singer Singing Voice Vocoder With A Large-Scale Corpus (2021), Rongjie Huang et al. [pdf]
MusicBERT: Symbolic Music Understanding with Large-Scale Pre-Training (2021), Mingliang Zeng et al. [pdf]
N-Singer: A Non-Autoregressive Korean Singing Voice Synthesis System for Pronunciation Enhancement (2021), Gyeong-Hoon Lee et al. [pdf]
Non-Autoregressive TTS with Explicit Duration Modelling for Low-Resource Highly Expressive Speech (2021), Raahil Shah et al. [pdf]
PeriodNet: A non-autoregressive waveform generation model with a structure separating periodic and aperiodic components (2021), Yukiya Hono et al. [pdf]
Sequence-to-Sequence Piano Transcription with Transformers (2021), Curtis Hawthorne et al. [pdf]
M4Singer: a Multi-Style, Multi-Singer and Musical Score Provided Mandarin Singing Corpus (2022), Lichao Zhang et al. [pdf]
Opencpop: A High-Quality Open Source Chinese Popular Song Corpus for Singing Voice Synthesis (2022), Yu Wang et al. [pdf]
WeSinger: Data-augmented Singing Voice Synthesis with Auxiliary Losses (2022), Zewang Zhang et al. [pdf]
WeSinger 2: Fully Parallel Singing Voice Synthesis via Multi-Singer Conditional Adversarial Training (2022), Zewang Zhang et al. [pdf]
The Reversible Residual Network: Backpropagation Without Storing Activations (2017), Aidan N. Gomez et al. [pdf]
Soft-DTW: a Differentiable Loss Function for Time-Series (2018), Marco Cuturi et al. [pdf]
FlowSeq: Non-Autoregressive Conditional Sequence Generation with Generative Flow (2019), Xuezhe Ma et al. [pdf]
Learning Problem-agnostic Speech Representations from Multiple Self-supervised Tasks (2019), Santiago Pascual et al. [pdf]
Self-supervised audio representation learning for mobile devices (2019), Marco Tagliasacchi et al. [pdf]
SinGAN: Learning a Generative Model from a Single Natural Image (2019), Tamar Rott Shaham et al. [pdf]
Audio2Face: Generating Speech/Face Animation from Single Audio with Attention-Based Bidirectional LSTM Networks (2019), Guanzhong Tian et al. [pdf]
Attention is Not Only a Weight: Analyzing Transformers with Vector Norms (2020), Goro Kobayashi et al. [pdf]