Uma lista de documentos e projetos sobre a síntese de fala de ponta, o texto em fala (TTS) , a síntese de voz de canto (SVS) , a conversão de voz (VC) , a conversão de voz (SVC) de canto (SVC) e obras interessantes relacionadas (como síntese musical , transcrição musical automática , previsão automática de MOS , ASR baseado em SSL , ... etc.).
Bem -vindo ao PR ou entre em contato comigo por e -mail ([email protected]) para atualizar papéis e obras.
IEEE/ACM TASLP, IEEE JSTSP, JSLHR, IEEE TPAMI
Neuraiips, ICLR, ICML, IJAI, AAAI, ACL, NAACL, EMNLP, ISMIR, ACM MM, ICASSP, Interspeech, ICME
Asru, Slt
[ 2022 ]
Learn2Sing 2.0: Difusão e alto-falante alvo baseado em informações mútuas, aprendendo com o professor de canto | Interseche 2022 | ✔️Code | Demonstração
Uma estrutura de representação de alto-falante hierárquica para conversão de voz com um tiro cantor | Interseche 2022 | Demonstração
Melhorando a conversão de voz com base em geração de onda adversária com sinais harmônicos | ICASSP 2022 | Demonstração
[ 2021 ]
DIFFSVC: Um modelo probabilístico de difusão para cantar conversão de voz | ASRU 2021 | Demonstração
Decomposição de voz de canto controlável e interpretável via Assemb-VC | Neurips 2021 Workshop | Demonstração
Rumo à conversão de voz de alta fidelidade com referência acústica e codificação preditiva contrastiva | 2021/10 | Demonstração
FASTSVC: Conversão de voz de canto de domínio cruzado rápido com modulação linear em termos de características | ICME 2021 | Demonstração
Conversão de voz de canto baseada em WaveNet não supervisionada usando aumento de pitch e abordagem em duas fases | 2021/07 | ✔️Code | Demonstração
[ 2020 ]
Conversão de voz cantada com tiro zero | Ismir 2020 | Demonstração
Gramas posteriores fonéticos baseados em muitos para muitos cantam conversão de voz via treinamento adversário | 2020/12 | Demo | Código não oficial
Durian-SC: Duração informada do sistema de conversão de voz baseado na rede de atenção | Interepesech 2020 | Demonstração
Conversão de voz não supervisionada de domínio cruzado | Interepesech 2020 | Demonstração
PitchNet: Conversão de voz não supervisionada com rede adversária de pitch | ICASSP 2020 | Demonstração
Vaw-Gan para cantar conversão de voz com dados de treinamento não paralelo | APSIPA 2020 | ✔️Code | Demonstração
M4Singer: Uma partitura de estilo múltiplo, multi-cantor e musical forneceu a mandarim cantar corpus | Neurips 2022 | ? Aplicar e download | Demonstração
NUS-48E Sung and Spoken Lyrics Corpus | ? Aplicar e download
NHSS: um discurso e um banco de dados paralelo cantando | ? Aplicar e download
[ 2022 ]
[ 2021 ]
Investigando representações de frequência de tempo para extração de recursos de áudio na classificação da técnica de canto | APSIPA 2021
Técnica de canto zero Conversão de canto | CMMR 2021
[ 2022 ]
Aprendendo representação de fala independente de ruído para conversão de voz de alta qualidade para falantes alvo barulhentos | Interseche 2022 | Demonstração
Glow-Wavegan 2: Síntese de texto para fala zero de alta qualidade e conversão de voz para qualquer qualquer coisa | Interseche 2022 | Demonstração
Conversão de voz baseada em difusão com esquema de amostragem de probabilidade máxima rápida | ICLR 2022 | ✔️Code | Demonstração
Yourtts: em direção a zero tts multi-alto-falantes e conversão de voz com tiro zero para todos | ICML 2022 | ✔️Code | Demo | Demo | Blog
Um estudo comparativo da conversão de voz baseada em representação de fala auto-supervisionada | IEEE JSTSP 2022/07
S3PRL-VC: estrutura de conversão de voz de código aberto com representações de fala auto-supervisionadas | ICASSP 2022 | ✔️Code
Uma comparação de unidades de fala discreta e suave para melhorar a conversão de voz | ICASSP 2022 | ✔️Code | Demonstração
Assembro-VC: conversão realista de voz montando as técnicas modernas de síntese de fala | ICASSP 2022 | ✔️Code | Demonstração
NVC-NET: Conversão de voz adversária de ponta a ponta | ICASSP 2022 | ✔️Code | Demonstração
Robusta, representação de fala variacional robusta aprendizado para conversão de voz com tiro zero | ICASSP 2022 | Demonstração
Treinando modelos robustos de conversão de voz com tiro zero com recursos auto-supervisionados | ICASSP 2022 | Demonstração
Rumo à conversão de voz de degradação-robust | ICASSP 2022
DGC-VECTOR: Um novo orador incorporando para conversão de voz com tiro zero | ICASSP 2022 | Demonstração
Transferência de estilo de voz de ponta a ponta Zero com convoluções variáveis de localização | 2022/05 | Demonstração
[ 2021 ]
Na modelagem de prosódia para conversão de voz baseada em ASR+TTS | ASRU 2021 | Demonstração
Análise e Síntese Neural: Reconstruindo o discurso de representações auto-supervisionadas | Neurips 2021 | Demo | Código não oficial
MediumVC: qualquer conversão de voz para qualquer um usando discursos de alto-falante sintético como recursos intermediários | 2021/10 | ✔️Code | Demonstração
Starganv2-VC: Uma estrutura diversificada, sem supervisão e não paralela para conversão de voz com som natural | Prêmio de Melhor Papel Intespeech 2021 | ✔️Code | Demonstração
S2VC: Uma estrutura para qualquer conversão de voz com representações pré-tenhadas auto-supervisionadas | Interseche 2021 | ✔️Code | Demonstração
Destangleamento de muitos para muitos do recurso de conversão de voz usando o autoencoder variacional | Interseche 2021 | ✔️Code | Demonstração
Resíntese de fala de representações auto-supervisionadas discretas e auto-supervisionadas | Interseche 2021 | Demonstração
Melhorando a transferência de estilo de voz com tiro zero por meio de representação semenda aprendizado | ICLR 2021
Transferência global de estilo ritmo sem transcrições de texto | ICML 2021 | ✔️Code
Novamente-VC: uma conversão de voz com um tiro usando orientação de ativação e normalização de instância adaptativa | ICASSP 2021 | ✔️Code | Demonstração
Qualquer conversão de voz para muitos com modelagem de sequência em sequência de localização | IEEE/ACM TASLP 2021/05 | ✔️Code | Demonstração
[ 2020 ]
Uma visão geral da conversão de voz e seus desafios: da modelagem estatística à aprendizagem profunda | IEEE/ACM TASLP 2020/11
Decomposição da fala não supervisionada via gargalo de informações triplas | ICML 2020 | ✔️Code
[ 2019 ]
Conversão de voz de um tiro separando representações de alto-falante e conteúdo com normalização da instância | Intespeech 2019 | ✔️Code
Autovc: transferência de estilo de voz com tiro zero com apenas perda de autoencoder | ICML 2019 | ✔️Code | Demonstração
Corpus CSTR VCTK: Corpus de vários falantes em inglês para CSTR Ferramentas de clonagem de voz | 2019 | ? Aplicar e download
AISHELL-3: Um corpus tts tts de múltiplos falantes e as linhas de base | 2020 | ? Aplicar e download | Demonstração
AISHELL-2: Transformando a Pesquisa de Mandarin ASR em escala industrial | 2018 | ? Aplicar e download
Aishell-1: um corpus de fala mandarim de código aberto e uma linha de base de reconhecimento de fala | 2017 | ? Aplicar e download
[ 2022 ]
Desembaleco do estilo emocional e identidade do alto -falante para conversão expressiva de voz | Interseche 2022 | Demonstração
Transferência de emoções cruzadas com base na compensação de prosódia para a síntese de fala de ponta a ponta | Interseche 2022 | Demonstração
Intensidade da emoção e seu controle para conversão de voz emocional | IEEE Transações em computação afetiva 2022/07 | ✔️Code | Demonstração
Conversão de emoção de fala sem texto usando representações discretas e decompostas | 202202 | Demonstração
[ 2021 ]
[ 2020 ]
Convertendo a emoção de alguém: em relação à conversão de voz emocional independente do falante | Interepesech 2020 | ✔️Code | Demonstração
Spectro de transformação e prosódia para conversão de voz emocional com dados de treinamento não paralelo | Odyssey 2020 | ✔️Code | Demonstração
[ 2022 ]
Mosso-Mosso: Um kit de ferramentas de processamento musical de ponta a ponta para cantar a síntese de voz | Interseche 2022 | ✔️Code
Singaug: Aumentação de dados para cantar a síntese de voz com estratégia de treinamento consistente de ciclo | Interseche 2022 | ✔️Code
Wesinger: síntese de voz de canto agente-agente com perdas auxiliares | Interseche 2022 | Demonstração
Wesinger 2: Síntese de voz de canto totalmente paralela por meio de treinamento adversário condicional de multi-cantor | 2022/08 | Demonstração
Abordagens de aprendizado profundo em tópicos de processamento de informações de canto | IEEE/ACM TASLP 2022/07
Aprendendo a beleza nas canções: voz neural de voz bonita | ACL 2022 | ✔️Code | Demonstração
Diffsinger: Síntese de voz cantando via mecanismo de difusão superficial | AAAI 2022 | ✔️Code | Demonstração
[ 2021 ]
[ 2020 ]
M4Singer: Uma partitura de estilo múltiplo, multi-cantor e musical forneceu a mandarim cantar corpus | Neurips 2022 | ? Aplicar e download | Demonstração
PopCs | AAAI 2022 | ? Aplicar e download
OpenCpop: um corpus de música popular chinesa de alta qualidade para cantar síntese de voz | Interseche 2022 | ? Aplicar e download
[ 2022 ]
Prodiff: Modelo de difusão rápida progressiva para texto em fala de alta qualidade | ACM MM 2022 | ✔️Code | Demonstração
BDDM: Modelos de difusão de denoising bilaterais para síntese de fala rápida e de alta qualidade | ICLR 2022 | ✔️Code | Demonstração
FastDiff: Um modelo de difusão condicional rápido para síntese de fala de alta qualidade | Ijcai 2022 | ✔️Code | Demonstração
[ 2022 ]
Vocoders de canto baseados em DDSP: um novo sintetizador baseado em subtrativo e uma avaliação abrangente | Ismir 2022 | ✔️Code | Demonstração
FastDiff: Um modelo de difusão condicional rápido para síntese de fala de alta qualidade | Ijcai 2022 | ✔️Code | Demonstração
Binauralgrad: Um modelo probabilístico de difusão condicional de dois estágios para síntese de áudio binaural | 2022/05 | Demonstração
[ 2021 ]
Multi-Singer: Vocoder de voz de canto múltiplo rápido com um corpus em larga escala | ACM MM 2021 | ? Aplicar e download | ✔️Code | Demonstração
WaveGrad 2: Refinamento iterativo para síntese de texto em fala | Interseche 2021 | Demonstração
Diffwave: um modelo de difusão versátil para síntese de áudio | ICLR 2021 | ✔️Code | Demonstração
WaveGrad: estimando gradientes para geração de formas de onda | ICLR 2021 | Demonstração
[ 2020 ]
HIFI-GAN: Redes adversárias generativas para síntese de fala eficiente e de alta fidelidade | Neurips 2020 | ✔️Code | Demonstração
Melgan multi-banda: geração de forma de onda mais rápida para texto em fala de alta qualidade | Interepesech 2020 | Demonstração
Godan de onda paralelo: um modelo de geração de formas de onda rápida baseada em redes adversárias generativas com espectrograma de várias resolução | ICASSP 2020 | Demo | Código não oficial
[ 2019 ]
Melgan: Redes adversárias generativas para síntese condicional da forma de onda | Neurips 2019 | ✔️Code | Demonstração
Para alcançar vocoding neural universal robusto | Intespeech 2019 | ✔️Code | Demo | Código não oficial
[ 2022 ]
Síntese musical multi-instrumento com difusão de espectrograma | Ismir 2022 | ✔️Code | Demonstração
Musika! Geração de forma de onda infinita rápida | Ismir 2022 | ✔️Code | Demonstração
[ 2022 ]
[ 2021 ]
[ 2022 ]
UNISPEECH-SAT: REPRESENTAÇÃO DE FOELO UNIVERSAL Aprendizando com o orador do orador pré-treinamento | ICASSP 2022 | ✔️Code | ✔️Code
Trade-off-offs de eficiência de desempenho em pré-treinamento não supervisionado para reconhecimento de fala | ICASSP 2022 | ✔️Code | ✔️Code
Pseudo-marcação para reconhecimento de fala multilíngue maciço | ICASSP 2022 | ✔️Code | ✔️Code
Wavlm: pré-treinamento auto-supervisionado em larga escala para processamento de fala da pilha completa | IEEE JSTSP 2022/06 | ✔️Code | ✔️Code
[ 2021 ]
XLS-R: Aprendizagem de discurso de discurso de discurso auto-supervisionada em escala | 2021/12 | ✔️Code | ✔️Code
Reconhecimento de fonemas transversal simples e eficaz de tiro zero | 2021/09 | ✔️Code | ✔️Code
Tera: Aprendizagem auto-supervisionada da representação do codificador de transformadores para a fala | IEEE/ACM TASLP 2021/08 | ✔️Code
UNISPEEL: Aprendizagem de representação de fala unificada com dados rotulados e não marcados | ICML 2021 | ✔️Code | ✔️Code | ✔️Code
Hubert: Aprendizagem de representação de fala auto-supervisionada por previsão mascarada de unidades ocultas | IEEE/ACM TASLP 2021/06 | ✔️Code | ✔️Code
[ 2020 ]
WAV2VEC 2.0: Uma estrutura para o aprendizado auto-supervisionado de representações de fala | Neurips 2020 | ✔️Code | ✔️Code
VQ-WAV2VEC: Aprendizagem auto-supervisionada de representações discretas de fala | ICLR 2020 | ✔️Code | ✔️Code
MockingJay: representação de fala não supervisionada Aprendendo com codificadores de transformadores bidirecionais profundos | ICASSP 2020 | ✔️Code
Aprendizagem de representação cruzada não supervisionada para reconhecimento de fala | 2020/06 | ✔️Code | ✔️Code
Fairseq S2T: modelagem rápida de fala para texto com Fairseq | AACL 2020 | ✔️Code | ✔️Code
[ 2019 ]
[ 2022 ]
[ 2021 ]
[ 2021 ]
[ 2022 ]
[ 2022 ]
[ 2021 ]
[ 2022 ]
[ 2021 ]
[ 2021 ]
Desafio de conversão de voz 2020 | ? Aplicar e download | ✔️Code
O desafio da Blizzard