Je travaille sur plusieurs tâches de traitement du langage naturel depuis longtemps. Un jour, j'avais envie de dessiner une carte du champ NLP où je gagne ma vie. Je suis sûr que je ne suis pas la seule personne qui veut voir en un coup d'œil quelles tâches sont en PNL.
J'ai fait de mon mieux pour couvrir autant de tâches possibles dans la PNL, mais il est vrai que c'est loin d'être exhaustif uniquement en raison de mon manque de connaissances. Et les références sélectionnées sont biaisées vers les récentes réalisations de l'apprentissage en profondeur. Je m'attends à ce que cela sert de point de départ lorsque vous êtes sur le point de creuser dans la tâche. Je vais continuer à mettre à jour ce dépôt moi-même, mais ce que j'espère vraiment, c'est que vous collaborez sur ce travail. N'hésitez pas à m'envoyer une demande de traction!
13 octobre 2017.
par Kyubyong
Examiné et mis à jour par YJ Choe le 18 octobre 2017.
PAPER automatique de texte à l'aide de réseaux de neuronesPAPER une approche neuronale du score d'essais automatiséCHALLENGE Kaggle: The Hewlett Foundation: Scoring d'essais automatiséPROJECT (moteur de notation amélioré de l'IA) WIKIPAPER Deep Speech 2: Reconnaissance vocale de bout en bout en anglais et mandarinPAPER Wavenet: un modèle génératif pour l'audio brutPROJECT une implémentation TensorFlow de l'architecture DeepSpeech de BaiduPROJECT Speech the Text Wavenet: Niveau de bout en bout Reconnaissance de la parole anglaise en utilisant Wavenet de DeepMindCHALLENGE le 5e défi de séparation de la parole et de reconnaissance de la paroleDATA Le 5e défi de séparation de la parole et de reconnaissance de la paroleDATA CSTR VCTK CorpusDATA ASR CorpusDATA -TELLEDATA Ted-Lium CorpusDATA Open Speech and Language RessourcesDATA voix commune WIKIBOOK le résumé de texte automatiquePAPER à l'aide de réseaux de neuronesPAPER avec des réseaux de neurones récursifs et son application à un résumé à plusieurs documentsDATA (TAC)DATA (DUC) INFO sur la coreférencePAPER pour les modèles de coreférence de mentionPAPER améliorant la résolution de la coreférence par des représentations distribuées au niveau de l'entité d'apprentissageCHALLENGE CONLL 2012 Tâche partagée: modélisation de la coréfection multilingue sans restriction dans les ontonotesCHALLENGE CONLL 2011 Tâche partagée: modélisation de la coréférence sans restriction dans les ontonotesCHALLENGE Semval 2018 Tâche 4: Identification des personnages sur les dialogues multipartite PAPER un réseau neuronal de coder à coder multicouche pour la correction d'erreur grammaticalePAPER pour la correction d'erreur grammaticalePAPER pour la correction de la phraseCHALLENGE CONLL-2013 Tâche partagée: correction d'erreur grammaticaleCHALLENGE CONLL-2014 Tâche partagée: Correction d'erreur grammaticaleDATA NUS non commerciale Research / Trial Corpus LicenceDATA Lang-8 Corpa de l'apprenantDATA Cornell Movie - Dialogs CorpusPROJECT Correcteur de texte profondPRODUCT Deep Grammar PAPER pour (presque) n'importe quelle languePAPER polyglotte: une étude de cas dans l'apprentissage de la représentation phonétique inter-gonétiquePAPER pour la conversion de graphème au phonèmePROJECTPROJECT G2P_EN: un module Python simple pour la conversion de graphème anglais à phonèmeDATA de prononciation multilingues PAPER Automatic Sarcasm Detection: une enquêtePAPER pour le sarcasme: faire de la détection du sarcasme en temps opportun, contextuel et très personnelPAPER sur Twitter: une approche de modélisation comportementaleCHALLENGE SEMEVAL-2017 Tâche 6: #hashtagwars: Apprendre un sens de l'humourCHALLENGE SEMEVAL-2017 Tâche 7: Détection et interprétation des jeux de mots anglaisDATA commentaires sarcastiques de RedditDATA Sarcasm Corpus v2DATA Sarcasm Amazon Reviews Corpus WIKIPAPER le problème de mise à la terre du symbolePAPER des phonèmes aux images: niveaux de représentation dans un modèle neuronal récurrent de l'apprentissage des langues visuellementPAPER de la phonologie dans un modèle neuronal récurrent de discours ancréPAPER pour la mise à la terre des langues axée sur les tâchesPAPER Sound-Word2Vec: Apprentissage des représentations de mots fondées sur des sonsCOURSE Molding à la vision et au contrôleWORKSHOP à la terre pour la robotique WIKIPAPER à l'aide de réseaux de neurones profondsPAPER avec de petits réseaux à partageCHALLENGE 2015 Évaluation de la reconnaissance linguistique WIKITOOLKIT Kenlm Language Model ToolkitPAPER Distribué les représentations des mots et des phrases et leur compositionnalitéPAPER avec réseaux de neurones récurrentsPAPERTHESIS Modèles de langage statistique basés sur les réseaux de neuronesDATA Penn TreebankTUTORIAL TensorFlow Tutoriel sur la modélisation de la langue avec des réseaux de neurones récurrents WIKIPAPER et étiquetage morphologique avec lemmingTOOLKIT wordnet lemmatizerDATA TreeBank-3 WIKIPAPER Lipnet: Lipreading au niveau de bout en boutPAPER dans la naturePAPER Reconnaissance de la parole visuelle à grande échellePROJECT Lip Reading - Cross Audio-Visual Reconnaissance à l'aide de réseaux de neurones convolutionnels 3DPRODUCT liopaDATA Le Corpus audiovisuel de la grilleDATA L'ensemble de données de la BBC-Oxford «Multi-View Lip Reading Sendas» (MV-LRS) PAPER en apprenant conjointement à aligner et à traduirePAPER en temps linéairePAPER est tout ce dont vous avez besoinPAPER six défis pour la traduction de la machine neuronalePAPER et neuronal non superviséCHALLENGE le neuvième atelier ACL 2014 sur la traduction de la machine statistiqueCHALLENGE EMNLP 2017 Deuxième conférence sur la traduction automatique (WMT17)DATA opensubtitles2016DATA Wit3: Inventaire Web des pourparlers transcrits et traduitsDATA Le Corpus du domaine éducatif QCRI (QED)PAPER pour séquencePAPER non supervisé prélèvement pour la séquence à l'apprentissage des séquencesPAPER Système de traduction de la machine neuronale du papier de Google: activer la traduction zéro-shotTOOLKIT sous-mot de traduction machine neuronale avec codage des paires d'octets (BPE)TOOLKIT traduction de machines neuronales multiplesTOOLKIT OpenNMT: boîte à outils open source pour la traduction de la machine neuronale WIKIPAPER en utilisant la séquence de caractères pour séquencer l'apprentissageCHALLENGE Sigmorphon 2016 Tâche partagée: réinflexion morphologiqueDATA Sigmorphon2016 WIKI entité wikiPAPER robuste et entité collective Désambigation à travers des intérêts sémantiques WIKI Named-Entity RecognitionPAPER pour la reconnaissance des entités nomméesPROJECT OSU Twitter outils NLPCHALLENGE la reconnaissance des entités nommées dans TwitterCHALLENGE Conll 2002 Indépendant de la langue Nommé la reconnaissance des entitésCHALLENGE Introduction à la Tâche partagée CONLL-2003: Indépendant de la langue Nommé Reconnaissance d'entitéDATA Conll-2002 Ner CorpusDATA Conll-2003 NER CorpusDATA Noix nommées entités Reconnaissance dans Twitter Tâche partagéeTOOLKIT Stanford nommé Entité Reconnaître PAPER et dépliage des autoencodeurs récursifs pour la détection de paraphrasePROJECT Paralex: Apprentissage axé sur la paraphrase pour répondre à des questions ouvertesCHALLENGE SEMEVAL-2015 Tâche 1: paraphrase et similitude sémantique dans TwitterDATA Microsoft Research Paraphrase CorpusDATA Microsoft Research Video Description CorpusDATA Pascal DataSetDATA Flickr DataSetDATA l'ensemble de données de maladieDATA PPDB: la base de données de paraphraseDATA Wikianswers Paraphrase Corpus PAPER avec réseaux LSTM résiduels empilésDATA avec réseaux LSTM résiduels empilésCODE Génération de paraphrase neuronale avec réseaux LSTM résiduels empilésPAPER un cadre génératif profond pour la génération de paraphrasesPAPER paraphrasant revisité avec la traduction de la machine neurale WIKITOOLKIT the Stanford Parser: un analyseur statistiqueTOOLKIT Spacy ParserPAPER comme langue étrangèrePAPER un analyseur de dépendance rapide et précis à l'aide de réseaux de neuronesPAPER Analyse sémantique universelleCHALLENGE CONLL 2017 Tâche partagée: analyse multilingue du texte brut aux dépendances universellesCHALLENGE CONLL 2016 Tâche partagée: analyse de discours peu profond multilingueCHALLENGE CONLL 2015 Tâche partagée: analyse de discours superficielCHALLENGE SEMEVAL-2016 Tâche 8: Les représentations de signification peuvent être abstraites, mais cette tâche est concrète! WIKIPAPER avec des modèles de mémoire à court terme à long terme bidirectionnels et une perte auxiliairePAPER du marquage de partie du discours non supervisé avec des modèles markov cachés ancreDATA TreeBank-3TOOLKIT nltk.tag package WIKI PinyinPAPER pour moteur de méthode d'entrée de pinyin chinoisPROJECT Transliterator chinois neural WIKI RépondrePAPER Demandez-moi n'importe quoi: réseaux de mémoire dynamique pour le traitement du langage naturelPAPER pour la réponse aux questions visuelles et textuellesCHALLENGE la question de la question de la question de la questionCHALLENGE NTCIR-8: Accès avancé de l'information inter-flingue (ACLIA)CHALLENGE Clef Question répondant à la pisteCHALLENGE SEMEVAL-2017 Tâche 3: Réponse des questions communautairesCHALLENGE SEMEVAL-2018 Tâche 11: Compréhension de la machine à l'aide de connaissances de bon sensDATA Mme Marco: ensemble de données de compréhension de la lecture de la machine MicrosoftDATA Maluuba NewsqaDATA : plus de 100 000 questions pour la compréhension de la machine du texteDATA GraphQuertions: une question riche en caractéristiques répondant à un ensemble de donnéesDATA Story Test et rocstories corpusDATA Microsoft Research Wikiqa CorpusDATA DeepMind Q&R DataSetDATA QasentDATA Réponse WIKIPAPER une approche d'apprentissage en profondeur pour l'extraction relationnelle à partir du contexte d'interaction dans le paradigme de la fabrication socialeCHALLENGE SEMEVAL-2018 Tâche 7 Extraction et classification des relations sémantiques dans les articles scientifiques WIKIBOOKPAPER de bout en bout de l'apprentissage de l'étiquetage des rôles sémantique à l'aide de réseaux de neurones récurrentsPAPER avec des intérêts de trajet de dépendancePAPER : ce qui fonctionne et quelle est la prochaine étapeCHALLENGE CONLL-2005 Tâche partagée: étiquetage des rôles sémantiquesCHALLENGE CONLL-2004 Tâche partagée: étiquetage des rôles sémantiquesTOOLKIT Illinois Semantic Role Équier (SRL)DATA Conll-2005 Tâche partagée: étiquetage des rôles sémantiques WIKIPAPER une évaluation quantitative et qualitative de la détection des limites des phrases pour le domaine cliniqueTOOLKIT NLTK TokenizersDATA Le Corpus national britanniqueDATA -TELLE WIKIINFO Awesome Sentiment AnalysisCHALLENGE Kaggle: UMICH SI650 - Classification des sentimentsCHALLENGE SEMEVAL-2017 Tâche 4: Analyse des sentiments sur TwitterCHALLENGE SEMEVAL-2017 Tâche 5: Analyse des sentiments à grain fin sur les microblogs financiers et les nouvellesPROJECT SenticNetPROJECT Stanford NLP Group Sentiment AnalysisDATA Multi-Domain Sentiment Dataset (version 2.0)DATA Stanford Sentiment TreebankDATA Twitter Sentiment CorpusDATA Twitter Sentiment Analysis Training CorpusDATA Afinn: Liste des mots anglais évalués pour Valence PAPER sans segmentation temporellePAPER : forme de main de bout en bout et reconnaissance de la langue des signes continueDATA rwth-phoenix-weherDATA AsllrpPROJECT Signall PAPER chantant la synthèse vocale basée sur des réseaux de neurones profondsPAPER un neural paramétrique chantant synthétiseur modélisant le timbre et l'expression de chansons naturellesPRODUCT Vocaloid: Technologie et logiciels de synthèse vocale développés par YamahaCHALLENGE de la session spéciale Interesteech 2016 Singing Synthesis Challenge "combler l'écart" WORKSHOP NLP + CSS: Ateliers sur le traitement du langage naturel et les sciences sociales informatiquesTOOLKIT Les hommes aiment également faire du shopping: réduire l'amplification des biais de genre à l'aide de contraintes au niveau du corpusTOOLKIT Online Variational Bayes pour l'allocation latente Dirichlet (LDA)GROUP le laboratoire de connaissances de l'Université de Chicago WIKIPAPER de la séparation des sources audio aveugles àPAPER des masques et des réseaux de neurones récurrents profonds pour la séparation des sources monauralesCHALLENGE (SISEC)CHALLENGE de la séparation de la parole et du défi de la parole de carillon WIKIPAPER DNN Clustering de haut-parleurs pour la diarité du haut-parleurPAPER Méthodes non supervisées pour la diarisation des haut-parleurs: une approche intégrée et itérativePAPER à visual basée sur la fusion bayésienne spatio-temporelleCHALLENGE une riche évaluation de la transcription WIKIPAPER un nouveau schéma de reconnaissance des conférenciers à l'aide d'un réseau neuronal profond sensible phonétiquementPAPER Networks de neurones profonds pour une vérification de l'orage dépendant du texte de l'empreinte de petite empreintePAPER profond: un système d'incorporation de haut-parleur neuronal de bout en boutPROJECT Voice Vector: Laquelle des stars hollywoodiennes est la plus similaire à ma voix?CHALLENGE l'évaluation de la reconnaissance des conférenciers (SRE)INFO Y a-t-il des suggestions pour des bases de données gratuites pour la reconnaissance des conférenciers?DATA Voxceleb2: reconnaissance profonde de haut-parleurs WIKI Speech_segmentationPAPER par les enfants de 8 mois: lorsque les indices de la parole comptent plus que les statistiquesPAPER Segmentation des mots non supervisés et découverte de lexique à l'aide de mots acoustiquesPAPER Découverte du lexique non supervisé à partir de l'entrée acoustiquePAPER a faiblement supervisé la découverte de terme parlé à l'aide d'informations secondaires inter-linguesDATA Callhome Spanish Speech WIKIPAPER Natural TTS Synthesis en conditionnant les prédictions du wavenet sur le spectrogramme MELPAPER Wavenet: un modèle génératif pour l'audio brutPAPER Tacotron: Vers la synthèse de la parole de bout en boutPAPER Deep Voice 3: 2000 Speaker neuronal text-to-dispeechPAPER Système de texte vocal à dispection efficace basé sur des réseaux de convolution profonde avec une attention guidéeDATA the World English BibleDATADATA Données DonnéesCHALLENGE Blizzard Challenge 2017PRODUCT lyrebirdPROJECT le projet FestvoxTOOLKIT Merlin: le système de synthèse de la parole basé sur le réseau neuronal (NN) WIKIBOOK : théorie et pratiquePAPER une étude expérimentale sur l'amélioration de la parole BasedondeepNeuralNetworkPAPER une approche de régression de l'amélioration de la parole BasedondeepNeuralNetworksPAPER basée sur un autoencoder de débit profond WIKI engeantPAPER un réseau neuronal de rétropropagation pour améliorer l'arabeTOOLKIT nltk tigers WIKIPAPER pour la classification des séquences: analyse et application à l'extraction des termes clés et à la détection des actes de dialogue WIKIPAPER une enquête sur les approches de similitude du textePAPER apprenant à classer les paires de texte courtes avec des réseaux de neurones profonds convolutionnelsPAPER Amélioration des représentations sémantiques des réseaux de mémoire à long terme structurés à court termeCHALLENGE SEMEVAL-2014 Tâche 3: similitude sémantique de niveau transversalCHALLENGE SEMEVAL-2014 Tâche 10: similitude textuelle sémantique multilingueCHALLENGE SEMEVAL-2017 Tâche 1: similitude textuelle sémantiqueWIKI sémantique similitude textuelle wiki WIKIPAPER alignement des phrases de Wikipedia standard à Wikipedia simplePAPER dans la recherche actuelle de simplification de texte: les nouvelles données peuvent aiderDATA newsela WIKIPROJECT avec TensorFlowPAPER Textual Impacture avec des attentions et une composition structuréesCHALLENGE SEMEVAL-2014 Tâche 1: Évaluation des modèles sémantiques de distribution de composition sur des phrases complètes grâce à la relation sémantique et à l'implication textuelleCHALLENGE SEMEVAL-2013 Tâche 7: L'analyse conjointe de la réponse des étudiants et le 8e défi de reconnaissance de la textuelle WIKIINFO des scripts non latinsPAPER une approche d'apprentissage en profondeur de la translittération des machinesCHALLENGE News 2016 Tâche partagée sur la translittération des entités nomméesPROJECT Neural Japanese Translitteration - pouvez-vous faire mieux que le clavier SwiftKey ™? PAPER phonétique postériorgrams pour la conversion vocale de plusieurs à un sans formation de données parallèlesPROJECT de réseaux de neurones profonds pour la conversion vocale (transfert de style vocal) dans TensorFlowPROJECT une implémentation du système de conversion vocale à l'aide de graines phonétiquesCHALLENGE de la conversion de la voix du défi 2016CHALLENGE de la conversion de la voix du défi 2018DATA de données de synthèse de la parole CMU_arcticDATA Timit Corpus de discours continu acoustique-phonétique WIKI Mot IncorceddingTOOLKIT gensim: word2vecTOOLKIT FastTextTOOLKIT Glove: Global Vectors for Word RepresentationINFO où obtenir un modèle pré-entraînéPROJECT Vectors de mots pré-formésPROJECT Vectors de mots pré-formés de plus de 30 languesPROJECT Polyglot: représentations de mots distribués pour PNL multilinguePROJECT BPEMB: Une collection d'incorporation de sous-mots pré-formées dans 275 languesCHALLENGE Semval 2018 Tâche 10 Capturation d'attributs discriminantsPAPER bilingue bilingue pour la traduction machine basée sur des phrasesPAPER une enquête sur les modèles d'intégration interlignes INFO Qu'est-ce que la prédiction des mots?PAPER la prédiction du caractère basé sur le modèle de langage de réseau neuronal récurrentPAPER une prédiction de mots basée sur l'apprentissage en profondeur intégréPAPER évaluant la prédiction des mots: Économies de frappe de cramponDATA Une prédiction de mots basée sur l'apprentissage en profondeur intégréPROJECT Word Prédiction à l'aide de réseaux de neurones convolutionnels - pouvez-vous faire mieux que le clavier iPhone ™?CHALLENGE SEMEVAL-2018 Tâche 2, prédiction des emoji multilingues WIKIPAPER neural segmentation des mots apprentissage pour chinoisPROJECT Network de neurones convolutionnels pour la segmentation des mots chinoisTOOLKIT Stanford Word SegmenterTOOLKIT NLTK Tokenizers DATA Word-Sense DisambiguationPAPER Train-O-Matic: Sense de mots supervisée à grande échelle Désambigation dans plusieurs langues sans données de formation manuelleDATA Train-O-Matic DataDATA babelnet