Awesome Singing Voice Synthesis and Singing Voice Conversion do download - Awesome Singing Voice Synthesis and Singing Voice Conversion download de código fonte

Awesome Singing Voice Synthesis and Singing Voice Conversion

Código-Fonte de IA

1.0.0

Baixar

Síntese de voz de canto incrível e conversão de voz de canto

Uma lista de documentos e projetos sobre a síntese de fala de ponta, o texto em fala (TTS) , a síntese de voz de canto (SVS) , a conversão de voz (VC) , a conversão de voz (SVC) de canto (SVC) e obras interessantes relacionadas (como síntese musical , transcrição musical automática , previsão automática de MOS , ASR baseado em SSL , ... etc.).

Bem -vindo ao PR ou entre em contato comigo por e -mail ([email protected]) para atualizar papéis e obras.

Lista de papel

Revistas

IEEE/ACM TASLP, IEEE JSTSP, JSLHR, IEEE TPAMI

Conferências

Neuraiips, ICLR, ICML, IJAI, AAAI, ACL, NAACL, EMNLP, ISMIR, ACM MM, ICASSP, Interspeech, ICME

Workshops

Asru, Slt

Cantando conversão de voz (outras palavras -chave: SVC, transferência de estilo de canto)

[ 2022 ]

Learn2Sing 2.0: Difusão e alto-falante alvo baseado em informações mútuas, aprendendo com o professor de canto | Interseche 2022 | ✔️Code | Demonstração
Uma estrutura de representação de alto-falante hierárquica para conversão de voz com um tiro cantor | Interseche 2022 | Demonstração
Melhorando a conversão de voz com base em geração de onda adversária com sinais harmônicos | ICASSP 2022 | Demonstração

[ 2021 ]

DIFFSVC: Um modelo probabilístico de difusão para cantar conversão de voz | ASRU 2021 | Demonstração
Decomposição de voz de canto controlável e interpretável via Assemb-VC | Neurips 2021 Workshop | Demonstração
Rumo à conversão de voz de alta fidelidade com referência acústica e codificação preditiva contrastiva | 2021/10 | Demonstração
FASTSVC: Conversão de voz de canto de domínio cruzado rápido com modulação linear em termos de características | ICME 2021 | Demonstração
Conversão de voz de canto baseada em WaveNet não supervisionada usando aumento de pitch e abordagem em duas fases | 2021/07 | ✔️Code | Demonstração

[ 2020 ]

Conversão de voz cantada com tiro zero | Ismir 2020 | Demonstração
Gramas posteriores fonéticos baseados em muitos para muitos cantam conversão de voz via treinamento adversário | 2020/12 | Demo | Código não oficial
Durian-SC: Duração informada do sistema de conversão de voz baseado na rede de atenção | Interepesech 2020 | Demonstração
Conversão de voz não supervisionada de domínio cruzado | Interepesech 2020 | Demonstração
PitchNet: Conversão de voz não supervisionada com rede adversária de pitch | ICASSP 2020 | Demonstração
Vaw-Gan para cantar conversão de voz com dados de treinamento não paralelo | APSIPA 2020 | ✔️Code | Demonstração

Datas

M4Singer: Uma partitura de estilo múltiplo, multi-cantor e musical forneceu a mandarim cantar corpus | Neurips 2022 | ? Aplicar e download | Demonstração
NUS-48E Sung and Spoken Lyrics Corpus | ? Aplicar e download
NHSS: um discurso e um banco de dados paralelo cantando | ? Aplicar e download

Técnica de canto Classificação de conversão/técnica de canto

[ 2022 ]

CNN deformável e aprendizado de recursos de consciência de desequilíbrio para a classificação da técnica de canto | Interseche 2022

[ 2021 ]

Investigando representações de frequência de tempo para extração de recursos de áudio na classificação da técnica de canto | APSIPA 2021
Técnica de canto zero Conversão de canto | CMMR 2021

Datas

Vocalset: um conjunto de dados de voz cantando | ISMIR 2018 | ? Aplicar e download

Conversão de voz (outras palavras -chave: VC, clonagem de voz, transferência de estilo de voz)

[ 2022 ]

Aprendendo representação de fala independente de ruído para conversão de voz de alta qualidade para falantes alvo barulhentos | Interseche 2022 | Demonstração
Glow-Wavegan 2: Síntese de texto para fala zero de alta qualidade e conversão de voz para qualquer qualquer coisa | Interseche 2022 | Demonstração
Conversão de voz baseada em difusão com esquema de amostragem de probabilidade máxima rápida | ICLR 2022 | ✔️Code | Demonstração
Yourtts: em direção a zero tts multi-alto-falantes e conversão de voz com tiro zero para todos | ICML 2022 | ✔️Code | Demo | Demo | Blog
Um estudo comparativo da conversão de voz baseada em representação de fala auto-supervisionada | IEEE JSTSP 2022/07
S3PRL-VC: estrutura de conversão de voz de código aberto com representações de fala auto-supervisionadas | ICASSP 2022 | ✔️Code
Uma comparação de unidades de fala discreta e suave para melhorar a conversão de voz | ICASSP 2022 | ✔️Code | Demonstração
Assembro-VC: conversão realista de voz montando as técnicas modernas de síntese de fala | ICASSP 2022 | ✔️Code | Demonstração
NVC-NET: Conversão de voz adversária de ponta a ponta | ICASSP 2022 | ✔️Code | Demonstração
Robusta, representação de fala variacional robusta aprendizado para conversão de voz com tiro zero | ICASSP 2022 | Demonstração
Treinando modelos robustos de conversão de voz com tiro zero com recursos auto-supervisionados | ICASSP 2022 | Demonstração
Rumo à conversão de voz de degradação-robust | ICASSP 2022
DGC-VECTOR: Um novo orador incorporando para conversão de voz com tiro zero | ICASSP 2022 | Demonstração
Transferência de estilo de voz de ponta a ponta Zero com convoluções variáveis de localização | 2022/05 | Demonstração

[ 2021 ]

Na modelagem de prosódia para conversão de voz baseada em ASR+TTS | ASRU 2021 | Demonstração
Análise e Síntese Neural: Reconstruindo o discurso de representações auto-supervisionadas | Neurips 2021 | Demo | Código não oficial
MediumVC: qualquer conversão de voz para qualquer um usando discursos de alto-falante sintético como recursos intermediários | 2021/10 | ✔️Code | Demonstração
Starganv2-VC: Uma estrutura diversificada, sem supervisão e não paralela para conversão de voz com som natural | Prêmio de Melhor Papel Intespeech 2021 | ✔️Code | Demonstração
S2VC: Uma estrutura para qualquer conversão de voz com representações pré-tenhadas auto-supervisionadas | Interseche 2021 | ✔️Code | Demonstração
Destangleamento de muitos para muitos do recurso de conversão de voz usando o autoencoder variacional | Interseche 2021 | ✔️Code | Demonstração
Resíntese de fala de representações auto-supervisionadas discretas e auto-supervisionadas | Interseche 2021 | Demonstração
Melhorando a transferência de estilo de voz com tiro zero por meio de representação semenda aprendizado | ICLR 2021
Transferência global de estilo ritmo sem transcrições de texto | ICML 2021 | ✔️Code
Novamente-VC: uma conversão de voz com um tiro usando orientação de ativação e normalização de instância adaptativa | ICASSP 2021 | ✔️Code | Demonstração
Qualquer conversão de voz para muitos com modelagem de sequência em sequência de localização | IEEE/ACM TASLP 2021/05 | ✔️Code | Demonstração

[ 2020 ]

Uma visão geral da conversão de voz e seus desafios: da modelagem estatística à aprendizagem profunda | IEEE/ACM TASLP 2020/11
Decomposição da fala não supervisionada via gargalo de informações triplas | ICML 2020 | ✔️Code

[ 2019 ]

Conversão de voz de um tiro separando representações de alto-falante e conteúdo com normalização da instância | Intespeech 2019 | ✔️Code
Autovc: transferência de estilo de voz com tiro zero com apenas perda de autoencoder | ICML 2019 | ✔️Code | Demonstração

Datas

Corpus CSTR VCTK: Corpus de vários falantes em inglês para CSTR Ferramentas de clonagem de voz | 2019 | ? Aplicar e download
AISHELL-3: Um corpus tts tts de múltiplos falantes e as linhas de base | 2020 | ? Aplicar e download | Demonstração
AISHELL-2: Transformando a Pesquisa de Mandarin ASR em escala industrial | 2018 | ? Aplicar e download
Aishell-1: um corpus de fala mandarim de código aberto e uma linha de base de reconhecimento de fala | 2017 | ? Aplicar e download

Conversão de voz emocional

[ 2022 ]

Desembaleco do estilo emocional e identidade do alto -falante para conversão expressiva de voz | Interseche 2022 | Demonstração
Transferência de emoções cruzadas com base na compensação de prosódia para a síntese de fala de ponta a ponta | Interseche 2022 | Demonstração
Intensidade da emoção e seu controle para conversão de voz emocional | IEEE Transações em computação afetiva 2022/07 | ✔️Code | Demonstração
Conversão de emoção de fala sem texto usando representações discretas e decompostas | 202202 | Demonstração

[ 2021 ]

Dados limitados Conversão de voz emocional Aproveitando o texto em fala: treinamento de sequência para sequência de dois estágios | Interseche 2021 | ✔️Code | Demonstração

[ 2020 ]

Convertendo a emoção de alguém: em relação à conversão de voz emocional independente do falante | Interepesech 2020 | ✔️Code | Demonstração
Spectro de transformação e prosódia para conversão de voz emocional com dados de treinamento não paralelo | Odyssey 2020 | ✔️Code | Demonstração

Datas

Transferência de estilo emocional vista e invisível para conversão de voz com um novo conjunto de dados de fala emocional | ICASSP 2021 | ? Aplicar e download | Demonstração

Síntese de voz cantando (outras palavras -chave: SVS)

[ 2022 ]

Mosso-Mosso: Um kit de ferramentas de processamento musical de ponta a ponta para cantar a síntese de voz | Interseche 2022 | ✔️Code
Singaug: Aumentação de dados para cantar a síntese de voz com estratégia de treinamento consistente de ciclo | Interseche 2022 | ✔️Code
Wesinger: síntese de voz de canto agente-agente com perdas auxiliares | Interseche 2022 | Demonstração
Wesinger 2: Síntese de voz de canto totalmente paralela por meio de treinamento adversário condicional de multi-cantor | 2022/08 | Demonstração
Abordagens de aprendizado profundo em tópicos de processamento de informações de canto | IEEE/ACM TASLP 2022/07
Aprendendo a beleza nas canções: voz neural de voz bonita | ACL 2022 | ✔️Code | Demonstração
Diffsinger: Síntese de voz cantando via mecanismo de difusão superficial | AAAI 2022 | ✔️Code | Demonstração

[ 2021 ]

SINSY: Um profundo sistema de síntese de voz de canto baseado em rede neural | IEEE/ACM TASLP 2021/08 | ✔️Code

[ 2020 ]

Hifisinger: Rumo à síntese de voz neural de alta fidelidade | 2020/09 | Demo | Código não oficial

Datas

M4Singer: Uma partitura de estilo múltiplo, multi-cantor e musical forneceu a mandarim cantar corpus | Neurips 2022 | ? Aplicar e download | Demonstração
PopCs | AAAI 2022 | ? Aplicar e download
OpenCpop: um corpus de música popular chinesa de alta qualidade para cantar síntese de voz | Interseche 2022 | ? Aplicar e download

Síntese de fala de alta qualidade (outras palavras-chave: Texto-fala, TTS)

[ 2022 ]

Prodiff: Modelo de difusão rápida progressiva para texto em fala de alta qualidade | ACM MM 2022 | ✔️Code | Demonstração
BDDM: Modelos de difusão de denoising bilaterais para síntese de fala rápida e de alta qualidade | ICLR 2022 | ✔️Code | Demonstração
FastDiff: Um modelo de difusão condicional rápido para síntese de fala de alta qualidade | Ijcai 2022 | ✔️Code | Demonstração

Vocoder

[ 2022 ]

Vocoders de canto baseados em DDSP: um novo sintetizador baseado em subtrativo e uma avaliação abrangente | Ismir 2022 | ✔️Code | Demonstração
FastDiff: Um modelo de difusão condicional rápido para síntese de fala de alta qualidade | Ijcai 2022 | ✔️Code | Demonstração
Binauralgrad: Um modelo probabilístico de difusão condicional de dois estágios para síntese de áudio binaural | 2022/05 | Demonstração

[ 2021 ]

Multi-Singer: Vocoder de voz de canto múltiplo rápido com um corpus em larga escala | ACM MM 2021 | ? Aplicar e download | ✔️Code | Demonstração
WaveGrad 2: Refinamento iterativo para síntese de texto em fala | Interseche 2021 | Demonstração
Diffwave: um modelo de difusão versátil para síntese de áudio | ICLR 2021 | ✔️Code | Demonstração
WaveGrad: estimando gradientes para geração de formas de onda | ICLR 2021 | Demonstração

[ 2020 ]

HIFI-GAN: Redes adversárias generativas para síntese de fala eficiente e de alta fidelidade | Neurips 2020 | ✔️Code | Demonstração
Melgan multi-banda: geração de forma de onda mais rápida para texto em fala de alta qualidade | Interepesech 2020 | Demonstração
Godan de onda paralelo: um modelo de geração de formas de onda rápida baseada em redes adversárias generativas com espectrograma de várias resolução | ICASSP 2020 | Demo | Código não oficial

[ 2019 ]

Melgan: Redes adversárias generativas para síntese condicional da forma de onda | Neurips 2019 | ✔️Code | Demonstração
Para alcançar vocoding neural universal robusto | Intespeech 2019 | ✔️Code | Demo | Código não oficial

Síntese musical/síntese musical

[ 2022 ]

Síntese musical multi-instrumento com difusão de espectrograma | Ismir 2022 | ✔️Code | Demonstração
Musika! Geração de forma de onda infinita rápida | Ismir 2022 | ✔️Code | Demonstração

Transcrição musical automática

[ 2022 ]

MT3: transcrição musical multitarefa multitrack | ICLR 2022 | ✔️Code |

[ 2021 ]

Omnizart: uma caixa de ferramentas geral para transcrição musical automática | The Open Journal 2021/12 | ✔️Code | Demonstração

ASR auto-supervisionado/não supervisionado

[ 2022 ]

UNISPEECH-SAT: REPRESENTAÇÃO DE FOELO UNIVERSAL Aprendizando com o orador do orador pré-treinamento | ICASSP 2022 | ✔️Code | ✔️Code
Trade-off-offs de eficiência de desempenho em pré-treinamento não supervisionado para reconhecimento de fala | ICASSP 2022 | ✔️Code | ✔️Code
Pseudo-marcação para reconhecimento de fala multilíngue maciço | ICASSP 2022 | ✔️Code | ✔️Code
Wavlm: pré-treinamento auto-supervisionado em larga escala para processamento de fala da pilha completa | IEEE JSTSP 2022/06 | ✔️Code | ✔️Code

[ 2021 ]

XLS-R: Aprendizagem de discurso de discurso de discurso auto-supervisionada em escala | 2021/12 | ✔️Code | ✔️Code
Reconhecimento de fonemas transversal simples e eficaz de tiro zero | 2021/09 | ✔️Code | ✔️Code
Tera: Aprendizagem auto-supervisionada da representação do codificador de transformadores para a fala | IEEE/ACM TASLP 2021/08 | ✔️Code
UNISPEEL: Aprendizagem de representação de fala unificada com dados rotulados e não marcados | ICML 2021 | ✔️Code | ✔️Code | ✔️Code
Hubert: Aprendizagem de representação de fala auto-supervisionada por previsão mascarada de unidades ocultas | IEEE/ACM TASLP 2021/06 | ✔️Code | ✔️Code

[ 2020 ]

WAV2VEC 2.0: Uma estrutura para o aprendizado auto-supervisionado de representações de fala | Neurips 2020 | ✔️Code | ✔️Code
VQ-WAV2VEC: Aprendizagem auto-supervisionada de representações discretas de fala | ICLR 2020 | ✔️Code | ✔️Code
MockingJay: representação de fala não supervisionada Aprendendo com codificadores de transformadores bidirecionais profundos | ICASSP 2020 | ✔️Code
Aprendizagem de representação cruzada não supervisionada para reconhecimento de fala | 2020/06 | ✔️Code | ✔️Code
Fairseq S2T: modelagem rápida de fala para texto com Fairseq | AACL 2020 | ✔️Code | ✔️Code

[ 2019 ]

Aprendizagem de representação com codificação preditiva contrastiva | 2019/07 | ✔️Code

Previsão automática de MOS

[ 2022 ]

The Voicemos Challenge 2022 | Interseche 2022

[ 2021 ]

Utilizando representações auto-supervisionadas para previsão do MOS | Interseche 2021 | ✔️Code

Aumento dos dados da fala

[ 2021 ]

Aumentando os dados Aprendizagem contrastiva de representações de fala no domínio do tempo | SLT 2021 | ✔️Code

Inserção de fala

[ 2022 ]

Retrievertts: Modelagem Fatores decompostos para inserção de fala baseada em texto | Interseche 2022 | Demonstração

Melhoria da fala

[ 2022 ]

Modelo probabilístico de difusão condicional para aprimoramento da fala | ICASSP 2022 | ✔️Code

[ 2021 ]

Um estudo sobre aprimoramento da fala com base no modelo probabilístico de difusão | APSIPA 2021

Prosódia e consciência

[ 2022 ]

Modelagem generativa de idiomas falada com consciência de prosódia sem texto | ACL 2022 | ✔️Code | Demonstração

[ 2021 ]

Discurso Bert Incorporação para melhorar a prosódia em TTS neural | ICASSP 2021 | ✔️Code | Demonstração

Ataque adversário

[ 2021 ]

Defendendo sua voz: ataque adversário à conversão de voz | SLT 2021 | ✔️Code | Demonstração

Kits de ferramentas

Kits de ferramentas ASR

S3PRL Toolkit
Wenet

Kits de ferramentas TTS

Natspeech: uma estrutura de texto para fala não autorregressiva
Coqui.ai tts
ESPNET: kit de ferramentas de processamento de fala de ponta a ponta

Kits de ferramentas de processamento de áudio/música

Muskit: kits de ferramentas de processamento de música de código aberto
NNAUDIO: Processamento de áudio usando a Rede de Convolução Pytorch 1D

Anotação de dados/ alinhamento/ kits de ferramentas

Praat: Fazendo fonética por computador
Parselmouth - Praat em Python, The Pythonic Way
Montreal forçou o alinhador

Outras estruturas e kits de ferramentas

? Difusores
Fairseq: Facebook AI Research Sequence-to Sevence Toolkit

Competições

Desafio de conversão de voz 2020 | ? Aplicar e download | ✔️Code
O desafio da Blizzard

Referências

Documentos de síntese de fala de fala impressionantes
Projetos impressionantes de conversão de voz
Documentos TTS
? Documentos TTS
Artigo de síntese de fala
Modelos de difusão impressionantes
Documentos com código: conversão de voz
Documentos com código: Cantando a conversão de voz
Documentos com código: síntese de voz cantando
Fonte aberto incrível: conversão de voz
Uma lista de sites de demonstração para pesquisa automática de geração de música
ICASSP 2021 Lista de papel-vc

Expandir

Informações adicionais

Versão 1.0.0
Tipo Código-Fonte de IA
Data da Última Atualização 2025-09-15
tamanho 8.76KB
Vindo de Github

Aplicativos Relacionados

awesome citygml

2024-11-13
awesome generative ai guide

2024-11-05
GLM 4 Voice

2024-11-02
Retrieval based Voice Conversion WebUI

2024-11-01
O anúncio incrível

2022-08-08
Interface SMS ilimitada do GOOGLE VOICE

2009-11-07

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
ML stack

Código-Fonte de IA

1.0.0
awesome free chatgpt

Código-Fonte de IA

1.0.0
pywin_contextmenu

Código-Fonte de IA

Version update
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos