All About Speech Download - All About Speech Download

All About Speech

Código-Fonte de IA

1.0.0

Baixar

Tudo sobre discurso

Este repositório organiza artigos, materiais de aprendizagem, codifica com o objetivo de entender a fala. Há outro repositório para o aprendizado de máquina/profundo aqui.

Para dos:

Organize estrelas
Adicione mais papéis
- papéis para ler:
  1. Fala = t: transdutor para TTS e além

TTS

TTS
- DC-TTS [[Paper]] [Pytorch] [Tensorflow]
- LightSpeech da Microsoft [[Paper]] [Código]
- SpeechFormer [[Paper]] [Código]
- Tacotron não atento [Paper] [Pytorch]
- Tacotron paralelo 2 [[Paper]] [Código]
- FCL-Taco2: versão rápida, controlável e leve do tacotron2 [[Paper]] [código]
- Transformador TTS: Síntese de fala neural com rede de transformadores [[Paper]] [Código]
- VITs: AutoEncoder variacional condicional com aprendizado adversário para a fala de ponta a ponta [[Paper]] [Código]
- Reformer-tts (Adaptação do Reformador ao TTS) [Código]
TTS baseado no rápido (ver [link])
Conversão de voz / clonagem de voz / incorporação do alto -falante
- Stargan-VC: Conversão de voz de muitos para muitos não paralela com redes adversárias generativas de estrela [[Paper]] [Código]
- Clonagem de voz neural com poucas amostras de áudio (Baidu) [[Paper]] [Código]
- Assembro-VC: Conversão de voz realista montando as técnicas modernas de síntese de fala [[Paper]] [Código]
- UNET-TTS: Melhorando o alto-falante e a transferência de estilo invisíveis na clonagem de voz de um tiro [Paper] [Código]
- FragmentVC: qualquer conversão de voz por qualquer coisa por extração de extração e fusão de fragmentos de voz de granulação fina com atenção [[Paper]] [Código]
- VectorquantizedCPC: Codificação preditiva contrastiva para vetores para descoberta de unidades acústicas e conversão de voz [[Paper]] [Código]
- Cotatron: codificador de fala guiada por transcrição para qualquer conversão de voz para muitos sem dados paralelos [[Paper]] [código]
- Novamente-VC: uma conversão de voz com um tiro usando orientação de ativação e normalização de instância adaptativa [[Paper]] [código]
- Autovc: transferência de estilo de voz com tiro zero com apenas perda de autoencoder [[Paper]] [Código]
- SC-GLOWTTS: Um modelo eficiente de texto para discussão de vários falantes de tiro zero [código]
- Palestrante profundo: um sistema de incorporação de alto-falante neural de ponta a ponta [[Paper]] [código]
- VQMIVC: Conversão de voz One-Shot (Any-To Any) [[Paper]] [Código]
Estilo (emoção, prosódia)
- Smart-TTS único TTS emocional [código]
- Transferência de emoção cruzada do alto -falante [[Paper]] [Código]
- Autopst: transferência global de estilo ritmo sem transcrições de texto [[Paper]] [código]
- Transformando o espectro e a prosódia para conversão de voz emocional com dados de treinamento não paralelo [[Paper]] [Código]
- Estilização neural de referência múltipla com consistência do ciclo adversário [[Paper]] [código]
- Aprendendo representações latentes para controle de estilo e transferência na síntese de fala de ponta a ponta (Tacotron-vAe) [[Paper]] [Código]
- Time Domain Neural Audio Style Transfer (NIPS 2017) [[Paper]] [Código]
- Meta-Stylespeech e Stylespeech [[Paper]] [Código]
- Transferência de emoções transversal com base na normalização da camada conditino do alto-falante e treinamento semi-supervisionado na fala em fala [[Paper]] [Código]
Transversal
- TTS de troca de código de ponta a ponta com modelo de linguagem transversal
  - mandarim e inglês
  - transversal e multi-falante
  - Linha de base: "Construindo um sistema TTS neural-lingual misto com apenas dados monolíngues"
- Construindo um sistema TTS neural-lingual misto com apenas dados monolíngues
- Transferência de aprendizado, controle de estilo e perda de reconstrução de alto-falantes para tiro zero multilíngue multi-falante texto em fala em idiomas de baixo recurso
  - tem muitas boas referências
- Explorando a desvencher com o VQ-VQ-VAE multilíngue e monolíngues [Paper] [Código]
Relacionado à música
- Aprendendo a beleza das canções: Voice de canto neural Beautifier (ACL 2022) [[Paper]] [Código]
- Discurso para cantar (Interspeech 2020) [[Paper]] [Código]
- Diffsinger: Síntese de voz cantando via mecanismo de difusão superficial (AAAI 2022) [[Paper]] [Código]
- Uma Rede Universal de Tradução de Música (ICLR 2019)
- Jukebox: Um modelo generativo para música (OpenAI) [Paper] [Código]
Kits de ferramentas
- IMS Toucan Speech Synthese Toolkit [Paper] [Código]
- Crepe Pitch Tracker [Código]
- Speechbrain - Ferramentas úteis para facilitar a pesquisa da fala [código]
Vocoders
Atenção
- Atenção local [código]

ASR

Rumo ao entendimento da linguagem falada de ponta a ponta

Classificação de fala, detecção, filtro, etc.

HTS-AT: Um transformador hierárquico de áudio-semântico para classificação e detecção de som [[Paper]] [código]
Sistema de botefilter do Google AI [[Paper]] [Código]
Reconhecimento de emoção de ponta a ponta aprimorado usando mecanismo de auto-atenção e aprendizado multitarefa (Interspeech 2019) [[Paper]] [Código]
Reconhecimento de emoções multimodais com fusão de recursos auto-supervisionados baseados em Transformer [[Paper]] [código]
Reconhecimento de emoções do discurso usando incorporações WAV2VEC 2.0 (Interspeech 2021) [[Paper]] [Código]
Explorando WAV2VEC 2.0 Ajuste fino para melhorar o reconhecimento de emoção de fala [[Paper]] [Código]
Repensando os modelos CNN para classificação de áudio [[Paper]] [Código]
Reconhecimento de emoção baseado em EEG usando Sincnet [[Paper]] [Código]

Verificação do alto -falante

Cruz Cross Atending Pooling para verificação do alto -falante (IEEE SLT 2021) [[Paper]] [Código]

Linguística

Conjuntos de dados

VGGSOUND: um conjunto de dados de áudio visual em larga escala [[Paper]] [código]
CSS10: Uma coleção de dados de discursos de fala única para 10 Langauges [código]
IEMOCAP: 12 horas de dados audiovisuais com 10 atores masculinos e femininos [site]
Voxceleb [repo]

Aumentação de dados

Audiomentations (Aumentação rápida de dados de áudio em Pytorch) [Código]

Alinhadores

Montreal forçou o alinhador

Para coreano [link]

Dados (pré) processamento / aumento

Dados (pré) processamento

Pronúncia coreana e romanização com base no módulo Wikcionário Ko-Pron Lua [código]
Processamento de sinal de áudio [código]
Características fonológicas (para o artigo "Recursos fonológicos para síntese de fala multilíngue de 0 tiros") [[Paper]] [Código]
Smart-G2P (Alterar expressões em inglês e kanji na frase coreana na pronúncia coreana) [código]
Pacote de conversão de grafema para fonema Kakao para "mandarim" [código]
Ferramenta de fala webverse [código]