Tout sur la parole
Ce référentiel organise des articles, du matériel d'apprentissage, des codes dans le but de comprendre la parole. Il y a un autre référentiel pour l'apprentissage de la machine / en profondeur ici.
À dos:
- Organiser les étoiles
- Ajouter plus de papiers
- Documents à lire:
- Discours = t: transducteur pour TTS et au-delà
Tts
Tts
- Dc-tts [[papier]] [pytorch] [TensorFlow]
- LightSpeech de Microsoft [[papier]] [Code]
- SpeechFormer [[Paper]] [Code]
- Tacotron non aimable [papier] [pytorch]
- Tacotron parallèle 2 [[papier]] [Code]
- FCL-TACO2: version rapide, contrôlable et légère de Tacotron2 [[papier]] [Code]
- Transformateur TTS: synthèse de la parole neurale avec réseau de transformateur [[papier]] [code]
- VITS: Autoencoder variationnel conditionnel avec apprentissage contradictoire pour le texte à la fin à la parole de bout en bout [[Paper]] [Code]
- Reformier-tts (adaptation du réformateur à TTS) [code]
TTS basés sur une invite (voir [lien])
Conversion vocale / clonage vocal / enceinte
- Stargan-VC: Conversion vocale non parallèle de plusieurs à plusieurs avec des réseaux adversariaux génératifs de Star [[Paper]] [Code]
- Clonage de voix neuronale avec peu d'échantillons audio (baidu) [[papier]] [code]
- ASSEMPLE: Conversion de la voix réaliste en assemblant des techniques de synthèse de la parole modernes [[papier]] [Code]
- UNET-TTS: Amélioration du transfert de haut-parleur et de style invisible dans un clonage vocal à un coup [papier] [code]
- FragmentVC: Conversion vocale n'importe quoi par extraction de bout en bout et fusion des fragments vocaux à grain fin [[papier]] [Code]
- VectorquantizedCPC: codage prédictif contrasté en fonction du vecteur pour la découverte d'unité acoustique et la conversion vocale [[papier]] [Code]
- Cotatron: Encodeur de la parole guidée par transcription pour la conversion vocale de tout-à-plusieurs sans données parallèles [[papier]] [Code]
- Encore une fois-VC: une conversion vocale à un coup utilisant un guidage d'activation et une normalisation des instances adaptative [[papier]] [Code]
- AutoVC: transfert de style vocal zéro avec uniquement Autoencoder Loss [[Paper]] [Code]
- SC-GLOWTTS: Un modèle de texte-vocale multi-pardeur efficace [Code]
- Président profond: un système d'intégration de haut-parleur neuronal de bout en bout [[papier]] [code]
- VQMIVC: Conversion vocale One-Shot (Any-to-Any) [[Paper]] [Code]
Style (émotion, prosodie)
- Smart-tts unique émotionnel TTS [code]
- Transfert d'émotion de haut-parleur [[papier]] [code]
- Autopst: transfert de style rythmique global sans transcriptions de texte [[papier]] [code]
- Transformer le spectre et la prosodie pour la conversion vocale émotionnelle avec des données de formation non parallèles [[papier]] [Code]
- Stylisation TTS neuronale multi-référence avec cohérence du cycle adversaire [[papier]] [Code]
- Apprendre des représentations latentes pour le contrôle du style et le transfert dans la synthèse de la parole de bout en bout (Tacotron-VAE) [[Paper]] [Code]
- Time Domain Neural Audio Style Transfer (NIPS 2017) [[Paper]] [Code]
- Meta-Stylespeech et Stylespeech [[Paper]] [Code]
- Transfert d'émotion à haut-parleur basé sur la normalisation de la couche conditino du haut-parleur et la formation semi-supervisée en texte vocale [[papier]] [Code]
Cross-lingual
- TTS de commutation de code de bout
- mandarin et anglais
- cross-lingual et multi-ordres
- Baseline: "Construire un système TTS neuronal mixte avec seulement des données monolingues"
- Construire un système de TTS neuronal mixte avec seulement des données monolingues
- Transférer l'apprentissage, le contrôle du style et la perte de reconstruction des haut-parleurs pour un texte vocable multilingue multi-voleur sur les langues à faible ressource
- a beaucoup de bonnes références
- Exploration du démontage avec VQ-Vae VQ-VAE multilingue et monolitique [Code]
Lié à la musique
- Apprendre la beauté dans les chansons: Neural Singing Voice BEATIFIER (ACL 2022) [[Paper]] [Code]
- Speech to Singing (Interspeech 2020) [[Paper]] [Code]
- DiffSinger: Singing Vocation Synthesis via un mécanisme de diffusion superficiel (AAAI 2022) [[Paper]] [Code]
- Un réseau de traduction musicale universel (ICLR 2019)
- Jukebox: un modèle génératif pour la musique (Openai) [papier] [Code]
Kits d'outils
- IMS Toucan Speech Synthesis Toolkit [Paper] [Code]
- Crepe Pitch Tracker [Code]
- Speechbrain - Outils utiles pour faciliter la recherche vocale [Code]
Vocodeurs
Attention
ASR
- Vers la compréhension de la langue parlée de bout en bout
Classification de la parole, détection, filtre, etc.
- HTS-AT: un transformateur audio hiérarchique token-sémantique pour la classification et la détection sonore [[papier]] [Code]
- Système VoiceFilter de Google AI [[Paper]] [Code]
- Amélioration de la reconnaissance des émotions de la parole de bout en bout en utilisant le mécanisme de l'attention et l'apprentissage multitâche (Intere-Speech 2019) [[Paper]] [Code]
- Reconnaissance d'émotions multimodales avec la fusion de fonctionnalités auto-supervisées basée sur Tranformer [[papier]] [Code]
- Reconnaissance des émotions à partir de la parole à l'aide de WAV2VEC 2.0 Embeddings (IntereSpeech 2021) [[Paper]] [Code]
- Explorer WAV2VEC 2.0 Fonction pour une amélioration de la reconnaissance des émotions de la parole [[Paper]] [Code]
- Repenser les modèles CNN pour la classification audio [[papier]] [Code]
- Reconnaissance des émotions basée sur l'EEG utilisant Sincnet [[papier]] [Code]
Vérification de l'orateur
- Crossventif Poolling pour la vérification des haut-parleurs (IEEE SLT 2021) [[Paper]] [Code]
Linguistique
Ensembles de données
- VGGSOUND: un ensemble de données audio-visuel à grande échelle [[papier]] [Code]
- CSS10: Une collection de DATSET de discours unique pour 10 langauges [code]
- IEMOCAP: 12 heures de données audiovisuelles avec 10 acteurs masculins et féminins [site Web]
- Voxceleb [Repo]
Augmentation des données
- Audiomentations (augmentation des données audio rapide dans Pytorch) [Code]
Aligneurs
- Montréal Forced Aligner
Données (pré) traitement / augmentation
- Traitement des données (pré)
- Prononciation coréenne et romanisation basée sur le module Wiktionary KO-Pron LUA [Code]
- Traitement du signal audio [code]
- Caractéristiques phonologiques (pour l'article "Caractéristiques phonologiques pour la synthèse de la parole multilingue 0-Shot") [[Paper]] [Code]
- Smart-G2P (changer les expressions anglaises et kanji en phrase coréenne en prononciation coréenne) [Code]
- Package de conversion Kakao Graphème à Phonème pour "Mandarin" [Code]
- Outil de discours sur le Web [code]
Vérification
- MCD [Repo]
- Le code fonctionne, mais je ne sais pas si c'est juste. Les numéros MCD sont un peu trop élevés, même pour des paires d'audio similaires.
Autres recherches qui peuvent aider
- Synthèse de texte à l'image
- Audiomae (autoencoders masqués qui écoutent) [code]
Organisations
- DeepMind [Repo]
- Openai [repo]
- Club House: WeeklyArxivTalk [Repo]
Autres référentiels pour se référer - discours inclus / liés
- Liste des chercheurs en discours [Repo]
- Jackson-kang [repo]
- ML [Repo] de la rosinalité
- IVallesp [Repo]
- Le discours de Ddlbojack pré-entraînement [Repo]
- Transfert de style de Fuzhenxin dans le texte [Repo]
Matériel d'apprentissage
- Conférence de traitement du signal numérique [lien]
- Le livre de discours de Ratsgo [lien]
- Cours YSDA dans le traitement de la parole [Code]
- NHN VIDEO YOUTUBE AVANT [Lien]