Tudo sobre discurso
Este repositório organiza artigos, materiais de aprendizagem, codifica com o objetivo de entender a fala. Há outro repositório para o aprendizado de máquina/profundo aqui.
Para dos:
- Organize estrelas
- Adicione mais papéis
- papéis para ler:
- Fala = t: transdutor para TTS e além
TTS
TTS
- DC-TTS [[Paper]] [Pytorch] [Tensorflow]
- LightSpeech da Microsoft [[Paper]] [Código]
- SpeechFormer [[Paper]] [Código]
- Tacotron não atento [Paper] [Pytorch]
- Tacotron paralelo 2 [[Paper]] [Código]
- FCL-Taco2: versão rápida, controlável e leve do tacotron2 [[Paper]] [código]
- Transformador TTS: Síntese de fala neural com rede de transformadores [[Paper]] [Código]
- VITs: AutoEncoder variacional condicional com aprendizado adversário para a fala de ponta a ponta [[Paper]] [Código]
- Reformer-tts (Adaptação do Reformador ao TTS) [Código]
TTS baseado no rápido (ver [link])
Conversão de voz / clonagem de voz / incorporação do alto -falante
- Stargan-VC: Conversão de voz de muitos para muitos não paralela com redes adversárias generativas de estrela [[Paper]] [Código]
- Clonagem de voz neural com poucas amostras de áudio (Baidu) [[Paper]] [Código]
- Assembro-VC: Conversão de voz realista montando as técnicas modernas de síntese de fala [[Paper]] [Código]
- UNET-TTS: Melhorando o alto-falante e a transferência de estilo invisíveis na clonagem de voz de um tiro [Paper] [Código]
- FragmentVC: qualquer conversão de voz por qualquer coisa por extração de extração e fusão de fragmentos de voz de granulação fina com atenção [[Paper]] [Código]
- VectorquantizedCPC: Codificação preditiva contrastiva para vetores para descoberta de unidades acústicas e conversão de voz [[Paper]] [Código]
- Cotatron: codificador de fala guiada por transcrição para qualquer conversão de voz para muitos sem dados paralelos [[Paper]] [código]
- Novamente-VC: uma conversão de voz com um tiro usando orientação de ativação e normalização de instância adaptativa [[Paper]] [código]
- Autovc: transferência de estilo de voz com tiro zero com apenas perda de autoencoder [[Paper]] [Código]
- SC-GLOWTTS: Um modelo eficiente de texto para discussão de vários falantes de tiro zero [código]
- Palestrante profundo: um sistema de incorporação de alto-falante neural de ponta a ponta [[Paper]] [código]
- VQMIVC: Conversão de voz One-Shot (Any-To Any) [[Paper]] [Código]
Estilo (emoção, prosódia)
- Smart-TTS único TTS emocional [código]
- Transferência de emoção cruzada do alto -falante [[Paper]] [Código]
- Autopst: transferência global de estilo ritmo sem transcrições de texto [[Paper]] [código]
- Transformando o espectro e a prosódia para conversão de voz emocional com dados de treinamento não paralelo [[Paper]] [Código]
- Estilização neural de referência múltipla com consistência do ciclo adversário [[Paper]] [código]
- Aprendendo representações latentes para controle de estilo e transferência na síntese de fala de ponta a ponta (Tacotron-vAe) [[Paper]] [Código]
- Time Domain Neural Audio Style Transfer (NIPS 2017) [[Paper]] [Código]
- Meta-Stylespeech e Stylespeech [[Paper]] [Código]
- Transferência de emoções transversal com base na normalização da camada conditino do alto-falante e treinamento semi-supervisionado na fala em fala [[Paper]] [Código]
Transversal
- TTS de troca de código de ponta a ponta com modelo de linguagem transversal
- mandarim e inglês
- transversal e multi-falante
- Linha de base: "Construindo um sistema TTS neural-lingual misto com apenas dados monolíngues"
- Construindo um sistema TTS neural-lingual misto com apenas dados monolíngues
- Transferência de aprendizado, controle de estilo e perda de reconstrução de alto-falantes para tiro zero multilíngue multi-falante texto em fala em idiomas de baixo recurso
- tem muitas boas referências
- Explorando a desvencher com o VQ-VQ-VAE multilíngue e monolíngues [Paper] [Código]
Relacionado à música
- Aprendendo a beleza das canções: Voice de canto neural Beautifier (ACL 2022) [[Paper]] [Código]
- Discurso para cantar (Interspeech 2020) [[Paper]] [Código]
- Diffsinger: Síntese de voz cantando via mecanismo de difusão superficial (AAAI 2022) [[Paper]] [Código]
- Uma Rede Universal de Tradução de Música (ICLR 2019)
- Jukebox: Um modelo generativo para música (OpenAI) [Paper] [Código]
Kits de ferramentas
- IMS Toucan Speech Synthese Toolkit [Paper] [Código]
- Crepe Pitch Tracker [Código]
- Speechbrain - Ferramentas úteis para facilitar a pesquisa da fala [código]
Vocoders
Atenção
ASR
- Rumo ao entendimento da linguagem falada de ponta a ponta
Classificação de fala, detecção, filtro, etc.
- HTS-AT: Um transformador hierárquico de áudio-semântico para classificação e detecção de som [[Paper]] [código]
- Sistema de botefilter do Google AI [[Paper]] [Código]
- Reconhecimento de emoção de ponta a ponta aprimorado usando mecanismo de auto-atenção e aprendizado multitarefa (Interspeech 2019) [[Paper]] [Código]
- Reconhecimento de emoções multimodais com fusão de recursos auto-supervisionados baseados em Transformer [[Paper]] [código]
- Reconhecimento de emoções do discurso usando incorporações WAV2VEC 2.0 (Interspeech 2021) [[Paper]] [Código]
- Explorando WAV2VEC 2.0 Ajuste fino para melhorar o reconhecimento de emoção de fala [[Paper]] [Código]
- Repensando os modelos CNN para classificação de áudio [[Paper]] [Código]
- Reconhecimento de emoção baseado em EEG usando Sincnet [[Paper]] [Código]
Verificação do alto -falante
- Cruz Cross Atending Pooling para verificação do alto -falante (IEEE SLT 2021) [[Paper]] [Código]
Linguística
Conjuntos de dados
- VGGSOUND: um conjunto de dados de áudio visual em larga escala [[Paper]] [código]
- CSS10: Uma coleção de dados de discursos de fala única para 10 Langauges [código]
- IEMOCAP: 12 horas de dados audiovisuais com 10 atores masculinos e femininos [site]
- Voxceleb [repo]
Aumentação de dados
- Audiomentations (Aumentação rápida de dados de áudio em Pytorch) [Código]
Alinhadores
- Montreal forçou o alinhador
Dados (pré) processamento / aumento
- Dados (pré) processamento
- Pronúncia coreana e romanização com base no módulo Wikcionário Ko-Pron Lua [código]
- Processamento de sinal de áudio [código]
- Características fonológicas (para o artigo "Recursos fonológicos para síntese de fala multilíngue de 0 tiros") [[Paper]] [Código]
- Smart-G2P (Alterar expressões em inglês e kanji na frase coreana na pronúncia coreana) [código]
- Pacote de conversão de grafema para fonema Kakao para "mandarim" [código]
- Ferramenta de fala webverse [código]
Verificação
- MCD [Repo]
- O código funciona, mas não tenho certeza se está certo. Os números MCD são um pouco altos demais para pares de áudios semelhantes.
Outra pesquisa que pode ajudar
- Texto para síntese de imagem
- Audiomae (AutoEncoders mascarados que ouvem) [Código]
Organizações
- DeepMind [Repo]
- Openai [repo]
- Clube House: Weeklyarxivtalk [Repo]
Outros repositórios para se referir a - discurso incluído/relacionado
- Lista de pesquisadores de discurso [repositório]
- Jackson-Kang [Repo]
- ML de Rosinalidade [Repo]
- ivallesp [repo]
- Discurso de Ddlbojack pré -treinamento [repo]
- Transferência de estilo de Fuzhenxin em texto [repo]
Materiais de aprendizagem
- Palestra de processamento de sinal digital [link]
- O SpeechBook de Ratsgo [link]
- Curso YSDA em processamento de fala [Código]
- NHN FORWARD YouTube Video [link]