Ressource impressionnante pour PNL
Nouvelle mise à jour: réseau de capsule, détection de sarcasme
Table des matières
- Table des matières
- Bibliothèques
- Mathématiques Essesntial
- Dictionnaire
- Lexique
- Analyse
- Discours
- Modèle de langue
- Détection du sarcasme
- Traduction automatique
- Génération de texte
- Classification de texte
- Résumé de texte
- Sentiment
- Intégration de mot / document
- Représentation des mots
- Réponse à la question
- Extraction d'informations
- Inférence du langage naturel
- Réseaux de capsule
- Bon sens
- Autre
- Contribuer
Bibliothèques utiles
- La conférence CS231N de Numpy Stanford traite de Numpy, qui est fondamental dans les calculs d'apprentissage automatique.
- NLTK C'est une suite de bibliothèques et de programmes pour le traitement symbolique et statistique du langage naturel
- TensorFlow Un tutoriel fourni par TensorFlow. Il donne de grandes explications sur les bases avec des aides visuelles. Utile dans la PNL profonde
- Pytorch Un tutoriel génial sur Pytorch fourni par Facebook avec une grande qualité.
- Tensor2tensor Séquence en séquence Kit d'outils par Google écrit dans TensorFlow.
- Fairseq Sequence to Sequence Tool Kit par Facebook Écrit en Pytorch.
- Étreindre les transformateurs de face Une bibliothèque basée sur le transformateur fourni par un visage étreint qui permet un accès facile à des modèles pré-formés. L'une des principales bibliothèques PNL aux développeurs non seulement mais aussi les chercheurs.
- Tokenistes de visage étreignant une bibliothèque de tokenzer que le visage étreint maintient. Il augmente les opérations rapides car les fonctions clés sont écrites en rouille. Les derniers tokenus tels que BPE peuvent être essayés avec des tokenseurs de visage étreints.
- Spacy Un tutoriel écrit par Ines, le développeur principal de la notable Spacy.
- TorchText Un tutoriel sur TorchText, un package qui rend le prétraitement des données à portée de main. A plus de détails que la documentation officielle.
- La bibliothèque open source de la phrase Google qui construit un vocabulaire basé sur le BPE à l'aide d'informations sur les sous-mots.
- Bibliothèque Gensim Python pour la modélisation des sujets, l'indexation des documents et la récupération de similitude avec de grandes corpus.
- Polyglot un pipeline en langage naturel qui prend en charge des applications multilingues massives.
- TextBlob fournit une API simple pour la plongée dans les tâches de traitement du langage naturel (NLP) communes telles que le marquage de la parole, l'extraction des phrases nominales, l'analyse des sentiments, la classification, la traduction, l'intégration WordNet, l'analyse, l'inflexion des mots
- Quépy un cadre Python pour transformer les questions en langage naturel en requêtes dans un langage de requête de base de données.
- Module d'extraction Web de modèle pour Python, avec des outils pour le grattage, le traitement du langage naturel, l'apprentissage automatique, l'analyse de réseau et la visualisation
Mathématiques essentielles
- Statistiques et probabilités
- Statistiques 110 Une conférence sur la probabilité qui peut être facilement comprise par les étudiants majeurs non d'ingénierie.
- Les statistiques de Brandon Foltz, les conférences de probabilité et de statistiques de Brandon Foltz, sont publiées sur YouTube et sont plutôt courtes, de sorte qu'elles peuvent être facilement accessibles pendant les trajets quotidiens.
- Algèbre linéaire
- Awesome Conférence d'algèbre linéaire du professeur Gilbert Strang.
- Essence de l'algèbre linéaire Conférence algébrique linéaire sur la chaîne YouTube 3Blue1Brown
- Bases
- Mathematics for Machine Learning Book sur toutes les connaissances mathématiques accompagnées d'apprentissage automatique.
- Essence de la conférence de calcul du calcul par le canal 3Blue1Brown mentionné ci-dessus, utile pour ceux qui veulent également un aperçu du calcul.
Dictionnaire
- Dictionnaire bilingue
- CC-cedict Un dictionnaire bilingue entre l'anglais et le chinois.
- Dictionnaire de prononcé
- CMUDICT Le dictionnaire de prononcé de l'Université Carnegie Mellon est un dictionnaire de prononciation lisible par machine open source pour l'anglais nord-américain qui contient plus de 134 000 mots et leurs prononciations.
Lexique
- PDEV Pattern Dictionary of English Verbes.
- Verbnet un lexique qui regroupe les verbes en fonction de leur comportement de liaison sémantique / syntaxique.
- Framenet un lexique basé sur la sémantique à cadre.
- WordNet un lexique qui décrit les relations sémantiques (comme la synonymie et l'hyperonymie) entre les mots individuels.
- Propbank un corpus d'un million de mots de texte anglais, annoté avec des étiquettes de rôle pour les verbes; et un lexique définissant ces rôles d'argument par verbe.
- Nombank a un ensemble de données marque les ensembles d'arguments qui cooccur avec les noms dans le corpus propbank (le corpus du Wall Street Journal de la Penn Treebank), tout comme Propbank enregistre ces informations pour les verbes.
- SemLink un projet dont l'objectif est de relier différentes ressources lexicales via un ensemble de mappages. (Verbnet, propbank, framenet, wordnet)
- Frater Framester est un centre entre Framenet, Wordnet, Verbnet, Babelnet, Dbpedia, Yago, Dolce-Zero, ainsi que d'autres ressources. Framester ne crée pas simplement un graphique de connaissances fortement connecté, mais applique également un traitement formel rigoureux pour la sémantique de cadre de Fillmore, permettant une interrogation et un raisonnement à part entière à part entière sur le graphique de connaissances conjoint basé sur le cadre conjoint.
Analyse
- PTB le Penn Treebank (PTB).
- Dépendances universelles Les dépendances universelles (UD) sont un cadre pour l'annotation grammaticale inter-linguistiquement cohérente et un effort communautaire ouvert avec plus de 200 contributeurs produisant plus de 100 bancs d'arbres en plus de 60 langues.
- Tweebank Tweebank V2 est une collection de tweets anglais annotés dans des dépendances universelles qui peuvent être exploitées pour la formation des systèmes PNL pour améliorer leurs performances sur les textes de médias sociaux.
- Ensembles de données SEMEVAL-2016 Tâche 9 (Parsing de dépendance sémantique chinoise).
Discours
- PDTB2.0 PDTB, version 2.0. Annote 40600 Relations de discours, distribuées dans les cinq types suivants: explicite, implicite, etc.
- PDTB3.0 Dans la version 3, 13 000 jetons supplémentaires ont été annotés, certaines annotations par paire ont été standardisées, de nouveaux sens ont été inclus et le corpus a été soumis à une série de vérifications de cohérence.
- Back-traduction annotée Relations de discours implicites Cette ressource contient des instances de relation de discours implicites annotées. Ces phrases sont annotées automatiquement par la rétro-traduction des corpus parallèles.
- DiscouleSechineseTedtalks Cet ensemble de données comprend l'annotation pour 16 conférences TED en chinois.
Modèle de langue
- PTB Penn Treebank Corpus en version LM.
- Google Billion Word Dataset 1 milliard de mots de modélisation du langage des mots.
- Wikitext L'ensemble de données de modélisation de la langue wikitext est une collection de plus de 100 millions de jetons extraits de l'ensemble d'articles vérifiés bons et en vedette sur Wikipedia. Comparé à la version prétraitée de Penn Treebank (PTB), Wikitext-2 est plus 2 fois plus grand et Wikitext-103 est plus de 110 fois plus grand.
Détection du sarcasme
- Le détecteur de sarcasme contextuel Cascade (Cascade) adopte une approche hybride de la modélisation axée sur le contenu et le contexte pour la détection du sarcasme dans les discussions sur les médias sociaux en ligne. En outre, ils ont utilisé des extracteurs de fonctionnalités basés sur le contenu tels que les réseaux de neurones convolutionnels
- Un aperçu plus approfondi des tweets sarcastiques utilisant des réseaux de neurones convolutionnels profonds International Journal of Advanced Research in Computer Engineering & Technology, Volume 6, numéro 1, janvier 2017. Ils proposent un système automatisé pour la détection du sarcasme sur Twitter en utilisant des fonctionnalités liées au sentiment
- Adarnn Adaptive Recursive Neural Network (ADARNN) pour la classification des sentiments Twitter dépendante de la cible. Il propage de manière adaptative les sentiments des mots à cibler en fonction du contexte et des relations syntaxiques entre eux
- Détection du sarcasme avec des réseaux neuronaux convolutionnels profonds. Le modèle apprend des fonctionnalités locales dans les couches inférieures qui sont ensuite converties en fonctionnalités globales dans les couches supérieures.
Traduction automatique
- Europarl Le corpus parallèle Europarl est extrait de la procédure du Parlement européen. Il comprend des versions dans 21 langues européennes: romanique (français, italien, espagnol, portugais, roumain), germanique (anglais, néerlandais, allemand, danois, suédois), slavik (bulgare, tchèque, polonais, slovaque, slovène), finni-ugurique (finlandais, Hungarien, estonien), balte (Latvian, éclairé), et greek.
- Uncorpus Le Corpus parallèle des Nations Unies v1.0 est composé de documents officiels et d'autres documents parlementaires des Nations Unies qui se trouvent dans le domaine public.
- CWMT Les données ZH-EN collectées et partagées par China Workshop on Machine Translation (CWMT). Il existe trois types de données pour la traduction machine chinoise-anglais: le texte chinois monolingue, le texte chinois-anglais parallèle, le texte à référence multiple.
- Données de formation du modèle de langue monolingue WMT, telles que la rampe de la Crawl News dans CS de en fi ro ru tr tr et les données parallèles.
- Opus Opus est une collection croissante de textes traduits du Web. Dans le projet OPUS, nous essayons de convertir et d'aligner les données en ligne gratuites, d'ajouter une annotation linguistique et de fournir à la communauté un corpus parallèle accessible au public.
Génération de texte
- Article automatique de Tencent commentant un ensemble de données chinois à grande échelle avec des millions de commentaires réels et un sous-ensemble annoté par l'homme caractérisant la qualité variable des commentaires. Cet ensemble de données se compose d'environ 200 000 articles de presse et de commentaires humains de 4,5 millions ainsi que de métadonnées riches pour les catégories d'articles et les votes des commentaires des utilisateurs.
- Récapitulation
- BigPatent Un ensemble de données de résumé se compose de 1,3 million d'enregistrements de documents de brevet américains ainsi que de résumés abstraits écrits humains.
- Data-to-Text
- Wikipedia Person and Animal Dataset Cet ensemble de données recueille 428 748 personnes et 12 236 Animal Infobox avec description basée sur Wikipedia Dump (2018/04/01) et Wikidata (2018/04/12).
- Wikibio Cet ensemble de données rassemble 728 321 biographies de Wikipedia. Il vise à évaluer les algorithmes de génération de texte. Pour chaque article, il fournit le premier paragraphe et l'infobox (tous deux tokenisés).
- Rotowire Cet ensemble de données se compose de résumés de jeux de basket-ball NBA (écrits par l'homme) alignés avec leurs scores de boîte et de ligne correspondants.
- Détails MLB dans la génération de données sur le texte avec modélisation des entités, ACL 2019
Classification de texte
- 20 NEWSGROUPS L'ensemble de données de 20 groupes de discussion est une collection d'environ 20 000 documents de groupe de discussion, partitionnés (presque) uniformément dans 20 groupes de presse différents.
- AG Corpus of News Articles AG est une collection de plus d'un million d'articles de presse.
- Yahoo-Answers-Topic-Classification Ce corpus contient 4 483 032 questions et leurs réponses correspondantes de Yahoo! Service de réponses.
- Google-Snippets Cet ensemble de données contient les résultats de recherche Web liés à 8 domaines différents tels que l'entreprise, les ordinateurs et l'ingénierie.
- Benchmarkingzeroshot Ce référentiel contient le code et les données du papier EMNLP2019 "Benchmarking Zero-Shot Text Classification: DataSets, Évaluation et Approche d'impression".
Résumé de texte
- Résumé de texte avec Gensim L'implémentation Gensim est basée sur l'algorithme populaire "Textrank"
- Résumé de texte non supervisé Article génial décrivant le résumé de texte à l'aide de la phrase intégrés
- Amélioration de l'abstraction du résumé de texte proposant deux techniques d'amélioration
- Résumé de texte et catégorisation plus liés aux données scientifiques et liées à la santé
- Résumé de texte avec TensorFlow. Une étude de base sur le résumé de texte de 2016
Sentiment
- MPQA 3.0 Ce corpus contient des articles de presse et d'autres documents de texte annotés manuellement pour les opinions et autres états privés (c.-à-d. Croyances, émotions, sentiments, spéculations, etc.). Les principaux changements dans cette version du corpus MPQA sont les ajouts de nouvelles annotations ETarget (entité / événement).
- SentiWordNet SentiWordNet est une ressource lexicale pour l'exploitation d'opinion. SentiWordNet attribue à chaque synset de WordNet trois scores de sentiment: positivité, négativité, objectivité.
- NRC Word-Emotion Association Lexicon Le NRC Emotion Lexicon est une liste de mots anglais et de leurs associations avec huit émotions de base (colère, peur, anticipation, confiance, surprise, tristesse, joie et dégoût) et deux sentiments (négatifs et positifs).
- Stanford Sentiment TreeBank SST est l'ensemble de données de l'article: modèles profonds récursifs pour la composition sémantique sur un sentiment Treebank Richard Socher, Alex Perelygin, Jean Wu, Jason Chuang, Christopher Manning, Andrew NG et Christopher Potts Conference on Empirical Methods in Natural Language Processing (EMNLP 2013)
- SEMEVAL-2013 Twitter Semeval 2013 Twitter Dataset, qui contient une annotation de sentiment au niveau de la phrase.
- Sentihood Sentihood est un ensemble de données pour la tâche d'analyse des sentiments basés sur l'aspect ciblé, qui contient 5215 phrases. Sentihood: ensemble de données d'analyse des sentiments basés sur l'aspect ciblé pour les quartiers urbains, Coling 2016 .
- SEMEVAL-2014 Tâche 4 Cette tâche concerne l'analyse des sentiments basés sur l'aspect (ABSA). Deux ensembles de données spécifiques au domaine pour les ordinateurs portables et les restaurants, composés de plus de 6 000 phrases avec des annotations humaines au niveau des aspects fins ont été fournis pour une formation.
Intégration de mot / document
- Le meilleur actuel des intégres universels de mots / phrases. Il encode les mots et les phrases dans des vecteurs denses de longueur fixe pour améliorer considérablement le traitement des données textuelles.
- Document Incorpore avec les vecteurs de paragraphe 2015. De Google.
- Demo de démonstration de mot gant.
- FastText Une bibliothèque pour l'apprentissage des incorporations de mots et de la classification du texte créé par le laboratoire de recherche AI (Fair) de Facebook avec de nombreux modèles pré-entraînés
- Classification de texte avec Word2Vec Implémentation pratique sur la façon de faire la classification du texte avec Word2Vec à l'aide de Glove
- Document Introduction à l'introduction aux bases et à l'importance des intérêts de documents
- Des incorporations de mots pour documenter les distances intoduce la distance de Word Mover (WMD) qui mesure la dissimilarité entre deux documents texte comme la quantité minimale de distance dont les mots intégrés d'un document doivent "voyager" pour atteindre les mots intégrés d'un autre document.
- Tutoriel DOC2VEC sur l'ensemble de données Lee
- Les incorporations de mots dans Python avec Spacy et Gensim
- Le Bert illustré, Elmo et co. (Comment la NLP a craqué l'apprentissage du transfert). Déc 2018.
- Représentes de mots contextualisés profonds. Elmo. Implémentation de Pytorch. Implémentation TF
- Réglage fin pour la classification du texte. Code d'implémentation.
- Apprentissage supervisé des représentations de phrases universelles à partir des données d'inférence du langage naturel. Montre comment les représentations de phrases universelles formées à l'aide des données supervisées
- Appris dans la traduction: vecteurs de mots contextualisés. Cove utilise un encodeur LSTM profond d'un modèle de séquence à séquence attentionnel formé pour la traduction automatique (MT) pour contextualiser les vecteurs de mots
- Réprésentations distribuées des phrases et des documents. Vectors de paragraphe. Voir le tutoriel DOC2VEC à Gensim
- Sense2Vec. Une méthode rapide et précise pour la désambiguïsation du sens des mots dans les incorporations de mots neuronaux
- Sauter les vecteurs de pensée. Un modèle d'encodeur-décodeur qui essaie de reconstruire les phrases environnantes d'un passage codé
- Séquence à l'apprentissage des séquences avec des réseaux de neurones. Il utilise un LSTM multicouche pour mapper la séquence d'entrée sur un vecteur d'une dimensionnalité fixe, puis un autre LSTM profond pour décoder la séquence cible du vecteur
- Le pouvoir incroyable des vecteurs de mots. Matériel lié à Word2Vec de différents cinq articles de recherche
- Embeddings de chaîne contextuels pour l'étiquetage des séquences. Les propriétés comprennent qu'ils (a) sont formés sans aucune notion explicite de mots, et (b) sont contextualisés par leur texte environnant
- Bert a expliqué - modèle de langue de pointe pour la PNL. Une grande explication des principes fondamentaux du fonctionnement de Bert.
- Examen des modèles basés sur Bert. Et quelques indices / aperçus récents sur ce qui rend Bert si efficace
Représentation des mots
- Incorporation de mots
- Google News Word2Vec Le modèle contient des vecteurs 300 dimensions pour 3 millions de mots et phrases qui se sont entraînés sur une partie de Google News Dataset (environ 100 milliards de mots).
- GLANT VECTEURS DE MOTS pré-formés pré-formés à l'aide de gants. Wikipedia + Gigaword 5, Crawl Common, Twitter.
- Vectors de mot pré-formés pré-entraînés à texte rapide pour 294 langues, formées sur Wikipedia à l'aide de FastText.
- BPEMB BPEMB est une collection d' incorporation de sous-mots pré-formée dans 275 langues, basée sur le codage des octets-paires (BPE) et formé sur Wikipedia.
- Mot basé sur la dépendance incorporant des incorporations de mots pré-formées basées sur les informations de dépendance , à partir de Word Embeddings basés sur la dépendance, ACL 2014 ..
- Meta-Embeddings effectue des ensembles de versions d'intégration de mots pré-entraînés, à partir de méta-emballages: incorporation de mots de meilleure qualité via des ensembles d'ensembles d'incorporation, ACL 2016.
- Vectors pré-formés LexVEC basés sur le modèle d'intégration du mot lexvec . Crawl commun, Wikipedia anglais et Newscrawl.
- Muse Muse est une bibliothèque Python pour les incorporations de mots multilingues, qui fournissent des incorporations multilingues pour 30 langues et 110 dictionnaires bilingues à travers à grande échelle.
- CWV Ce projet fournit plus de 100 vecteurs de mots chinois (intégres) formés avec différentes représentations (denses et clairsemées), des caractéristiques contextuelles (mot, ngram, caractère, et plus) et corpa.
- CharnGram2Vec Ce référentiel prévoit le code réimplémentaire pour les incorporations N-grammes de caractère pré-formation présentées dans le papier conjoint de plusieurs tâches (JMT), un modèle conjoint de plusieurs tâches: cultiver un réseau neuronal pour plusieurs tâches NLP, EMNLP2017 .
- Représentation des mots avec contexte
- Les représentations contextuelles pré-formées ELMO à partir de modèles de langage bidirectionnel à grande échelle fournissent de grandes améliorations pour presque toutes les tâches NLP supervisées.
- Bert Bert , ou B idirectionnel, les représentations de coder des ransformateurs, est une nouvelle méthode de représentations linguistiques de pré-formation qui obtient des résultats de pointe sur un large éventail de tâches de traitement du langage naturel (NLP). (2018.10)
- OpenGPT GPT-2 est un grand modèle linguistique basé sur un transformateur avec 1,5 milliard de paramètres, formés sur un ensemble de données de 8 millions de pages Web. GPT-2 est formé avec un objectif simple: prédire le mot suivant, compte tenu de tous les mots précédents dans un texte.
Réponse à la question
- Compréhension de la lecture de la machine
- Squad Stanford Question Answard DataSet (Squad) est un nouvel ensemble de données de compréhension en lecture, composé de questions posées par des travailleurs de mi-temps sur un ensemble d'articles Wikipedia, où la réponse à chaque question est un segment de texte ou de portée, du passage de lecture correspondant.
- CMRC2018 CMRC2018 est publié par le deuxième atelier d'évaluation sur la compréhension de la lecture des machines chinoises. L'ensemble de données est composé par près de 20 000 questions réelles annotées par Human sur les paragraphes Wikipedia.
- DCRD Delta Reading Comprehension Dataset est un ensemble de données de compréhension de lecture de machines chinoises traditionnels ouverts (MRC), il contient 10 014 paragraphes de 2 108 articles Wikipedia et plus de 30 000 questions générées par des annotateurs.
- Triviaqa Triviaqa comprend 95 000 paires de réponses aux questions rédigées par des amateurs de trivia et des documents de preuve recueillis indépendamment, six par question en moyenne, qui fournissent une supervision lointaine de haute qualité pour répondre aux questions. Cet ensemble de données provient du domaine Wikipedia et du domaine Web.
- Newsqa Newsqa est un ensemble de données de compréhension en lecture de machine provenant de la foule de paires de questions et réponses de 120k.
- Harvestingqa Ce dossier contient l'ensemble de données de paires QA au niveau d'un million de paragraphe (divisé en train, développeur et ensemble de test) décrit dans: Récolte des paires de questions de question de niveau paragraphe de Wikipedia (ACL 2018).
- Propara Propara vise à promouvoir la recherche dans la compréhension du langage naturel dans le contexte du texte procédural. Cela nécessite d'identifier les actions décrites dans le paragraphe et de suivre les changements d'état qui se produisent aux entités impliquées.
- MCScript MCScript est un nouvel ensemble de données pour la tâche de compréhension des machines axé sur les connaissances de bon sens. Il comprend 13 939 questions sur 2 119 textes narratifs et couvre 110 scénarios quotidiens différents. Chaque texte est annoté avec l'un des 110 scénarios.
- MCScript2.0 MCScript2.0 est un corpus de compréhension machine pour l'évaluation de bout en bout des connaissances du script. Il contient environ. 20 000 questions sur environ. 3 500 textes, crowdsourcés sur la base d'un nouveau processus de collecte qui se traduit par des questions difficiles. La moitié des questions ne peuvent pas être répondues des textes de lecture, mais nécessitent l'utilisation du bon sens et, en particulier, des connaissances du script.
- CommniseQa CommniseNenSonQa est une nouvelle question à choix multiples répondant à un ensemble de données qui nécessite différents types de connaissances de bon sens pour prédire les bonnes réponses. Il contient 12 102 questions avec une réponse correcte et quatre réponses à distracteur.
- Narrativeqa narrativeqa comprend la liste des documents avec des résumés Wikipedia, des liens vers des histoires complètes et des questions et réponses. Pour une description détaillée de ceci, consultez le document "Le défis de compréhension de la lecture narrativeqa".
- Hotpotqa Hotpotqa est un ensemble de données répondant à des questions multiples naturelles, avec une solide supervision pour soutenir les faits afin de permettre aux systèmes de réponse aux questions plus explicatives.
- Identification des questions en double / similaire
- Quora Question Paies Quora Question Paires Dataset se compose de plus de 400 000 lignes de paires de doublons de question de question potentielles. [Format de version Kaggle]
- Demandez à Ubuntu ce dépôt contient une collection prétraitée de questions tirées de Askubuntu.com 2014 Corpus Dump. Il est également livré avec 400 * 20 annotations mannuel, marquant des paires de questions comme «similaires» ou «non similaires», à partir de la récupération de questions semi-supervisées avec des convolutions fermées, NAACL2016 .
Extraction d'informations
- Entité
- Shimaoka à grain fin, cet ensemble de données contient deux ensembles de données standard et accessibles au public pour la classification des entités à grain fin, fourni dans un format de jeton prétraité, détails dans les architectures neuronales pour la classification du type d'entité à grain fin, EACL 2017 .
- Entité ultra-fin Tapage d'une nouvelle tâche de typage entité: Compte tenu d'une phrase avec une mention d'entité, l'objectif est de prédire un ensemble de phrases de forme libre (par exemple, gratte-ciel, auteur-compositeur ou criminel) qui décrivent des types appropriés pour l'entité cible.
- Nested Named Entity Corpus un ensemble de données entités à grain fin et imbriqué au-dessus de la partie complète du journal de Wall Street de la Penn Treebank (PTB), dont l'annotation comprend 279 795 mentions de 114 types d'entités avec jusqu'à 6 couches de nidification.
- La reconnaissance de l'entité nommée sur le commutateur de code (CS) à commutation de code est le phénomène par lequel les locuteurs multilingues basculent entre leurs langues communes dans une communication écrite ou parlée. Il contient les données de formation et de développement pour les systèmes de réglage et de test dans les paires de langue suivantes: espagnol-anglais (SPA-ENG) et arabe-égyptien standard moderne (MSA EGY).
- MIT Movie Corpus Le MIT Movie Corpus est un corpus de formation et de test sémantiquement au format bio. Les corpus ENG sont des requêtes simples et le corpus Trivia10K13 est des requêtes plus complexes.
- MIT Restaurant Corpus Le MIT Restaurant Corpus est un corpus de formation et de test sémantiquement au format bio.
- Extraction de relation
- Des ensembles de données de relations sémantiques annotées recommandent que ce référentiel contient des ensembles de données annotés qui peuvent être utilisés pour former des modèles supervisés pour la tâche de l'extraction des relations sémantiques.
- Tacred Tacred est un ensemble de données d'extraction de relations à grande échelle avec 106 264 exemples construits sur les nouvelles et le texte Web du corpus utilisé dans les défis annuels de la population de base de connaissances (TAC KBP). Les détails de l'attention de la position et des données supervisées améliorent le remplissage des créneaux, EMNLP 2017 .
- Fewrel Fewrel est un ensemble de données de classification des relations à quelques coups, qui comprend 70 000 phrases en langage naturel exprimant 100 relations annotées par des travailleurs de la foule.
- SEMEVAL 2018 TASSE7 LE SCRIPAT DES DONNÉES ET ÉVALUATION DE LA FORMATION POUR SEMEVAL 2018 Tâche 7: Extraction et classification des relations sémantiques dans les articles scientifiques.
- Chinois-littérature-ner-re est un ensemble de données de reconnaissance d'entité et d'extraction de relation au niveau du discours pour le texte de la littérature chinoise. Il contient 726 articles, 29 096 phrases et plus de 100 000 caractères au total.
- Événement
- ACE 2005 Données de formation Le corpus se compose de données de différents types annotés pour les entités, les relations et les événements a été créé par le consortium de données linguistiques avec le soutien du programme ACE, dans trois langues: anglais, chinois, arabe.
- Corpus d'urgence chinois (CEC) Corpus d'urgence chinois (CEC) est construit par Data Semantic Laboratory à l'Université de Shanghai. Ce corpus est divisé en 5 catégories - tremblement de terre, incendie, accident de la circulation, attaque terroriste et intoxication des aliments.
- L'évaluation des événements TAC-KBP est un sous-piste de la population de base de connaissances TAC (KBP), qui a commencé à partir de 2015. L'objectif de la population de base de connaissances TAC (KBP) est de développer et d'évaluer les technologies pour peupler les bases de connaissances (KBS) à partir de texte non structuré.
- Les données narratives d'évaluation de la cloze évaluent la compréhension d'un script en prédisant l'événement suivant compte tenu de plusieurs événements contextuels. Détails dans l'apprentissage non supervisé des schémas narratifs et de leurs participants, ACL 2009 .
- Événement Tensor A Évaluation Dataset sur la génération de schéma / similitude des phrases / Cloze narratif, qui est proposé par des représentations d'événements avec des compositions basées sur le tenseur, AAAI 2018 ..
- SEMEVAL-2015 Tâche 4 Chronologie: Commande d'événements inter-documents. Compte tenu d'un ensemble de documents et d'une entité cible, la tâche consiste à créer un calendrier d'événements lié à cette entité, à savoir à détecter, à ancrer dans le temps et à commander les événements impliquant l'entité cible.
- La description de l'événement plus riche se compose de coreference, de pontage et de relations d'événements (relations temporelles, causales, sous-événements et de rapports) annotations sur 95 nowswire anglais, forum de discussion et documents texte narratifs, couvrant tous les événements, les temps et les entités non éventilles dans chaque document.
- INSCRIPT L'INSCRICT CORPUS contient un total de 1000 textes narratifs crowdsourcés via Amazon Mechanical Turc. Il est annoté avec des informations de script sous la forme d'événements spécifiques au scénario et d'étiquettes des participants.
- AutoLabevent les données des travaux dans la génération de données automatiquement étiquetée pour l'extraction d'événements à grande échelle, ACL2017 .
- EventInframenet Les données des travaux sur le tir de Framenet pour améliorer la détection automatique des événements, ACL2016 .
- Entre-temps, le Corpus en attente (l'événement multilingue de NewsReader et Time Corpus) se compose d'un total de 480 articles de presse: 120 articles de Wikinews anglais sur quatre sujets et leurs traductions en espagnol, italien et néerlandais. Il a été annoté manuellement à plusieurs niveaux, notamment des entités, des événements, des informations temporelles, des rôles sémantiques et des événements intra-documentés et inter-documents et la coréférence de l'entité.
- Bionlp-St 2013 BIONLP-ST 2013 présente les six tâches d'extraction d'événements: extraction d'événements de génie pour la construction de la base de connaissances NFKB, génétique du cancer, conservation de la voie, annotation des corpus avec la régulation des gènes ontologie, réseau de régulation des gènes chez les bactéries et les biotophes de bactéries (annotation sémantique par une ontologie).
- Événement Relations temporelles et causales
- Schéma de relation causale et temporelle (CARES), qui est unique pour capturer simultanément un ensemble de relations temporelles et causales compatibles entre les événements. Caters contient un total de 1 600 phrases dans le contexte de 320 nouvelles à cinq phrases échantillonnées de Rocstories Corpus.
- Causal-timebank causal-timebank est le corpus de banc de temps tiré de la tâche tempeval-3, qui met de nouvelles informations sur la causalité sous forme de signaux C et d'annotation des clinks. 6 811 événements (seulement des événements instanciés par tag de makeinstance de TIMEML), 5 118 tlinks (liens temporels), 171 csignals (signaux causaux), 318 clinks (liens causaux).
- EventCausalityData L'ensemble de données EventCausality fournit des annotations causales relativement denses sur 25 articles de Nivewire collectés auprès de CNN en 2010.
- EventStoryline Un ensemble de données de référence pour la détection de relation temporelle et causale.
- Tempeval-3 La tâche partagée Tempeval-3 vise à faire avancer la recherche sur le traitement temporel de l'information.
- TemporalcausalReason un ensemble de données avec une annotation des relations temporelles et causales. Les relations temporelles ont été annotées en fonction du schéma proposé dans "un schéma d'annotation multi-axes pour les relations temporelles de l'événement" en utilisant Crowdflower; Les relations causales ont été cartographiées de la "EventCausalityData".
- Timebank TimeBank 1.2 contient 183 articles de presse qui ont été annotés avec des informations temporelles, ajoutant des événements, des temps et des liens temporels (TLINKS) entre les événements et les temps.
- TimeBank-EventTime Corpus Cet ensemble de données est un sous-ensemble du corpus TimeBank avec un nouveau schéma d'annotation pour ancrer les événements dans le temps. Description détaillée.
- Factualité de l'événement
- UW Event Factuality DataSet TELLET Cet ensemble de données contient des annotations de texte du corpus Tempeval-3 avec des étiquettes d'évaluation des factualités.
- Factbank 1.0 FactBank 1.0, se compose de 208 documents (plus de 77 000 jetons) de Newswire et de reportages de nouvelles dans lesquels les mentions d'événements sont annotées avec leur degré de factualité.
- EngagementBank Le EngagementBank est un corpus de 1 200 discours naturels dont la phrase finale contient un prédicat en inclination de clause sous un opérateur d'annulation (question, modale, négation, antécédent de conditionnel).
- UDS Sémantique de décomposition universelle Il s'est produit un ensemble de données, couvre l'intégralité des dépendances universelles anglaises v1.2 (EUD1.2) Treebank, un ensemble de données de factualité des événements importants.
- Dlef a un ensemble de données de factualité d'événement de niveau de document (DLEF), qui comprend la source (anglais et chinois), directives détaillées pour la factualité de l'événement au niveau du document et de la phrase.
- Coreférence de l'événement
- BEC 1.0 Ce corpus se compose d'une collection de documents de nouvelles Google annotés avec des informations de coreférence à l'intérieur et entre le document. Les documents sont regroupés en fonction du cluster Google News, chaque groupe de documents représentant le même événement séminal (ou sujet).
- EECB 1.0 Par rapport à la BCE 1.0, cet ensemble de données est étendu dans deux directions: (i) des phrases entièrement annotées, et (ii) les relations de coreférence de l'entité. De plus, les annotateurs ont supprimé les relations autres que la coréfection (par exemple, sous-événement, objectif, lié, etc.).
- ECB + Le CEC + Corpus est une extension de la BCE 1.0. Un composant corpus nouvellement ajouté se compose de 502 documents appartenant aux 43 sujets de la BCE mais qui décrivent différents événements fondateurs de ceux déjà capturés dans la BCE.
- Extraction d'informations ouvertes
- OIE-Benchmark Ce référentiel contient du code pour convertir les annotations QA-SRL en extractions ouvertes et comparer les analyseurs ouverts à un corpus de référence converti.
- Neuralopenie A Training Dataas Tradial de Neural Open Information Extraction , ACL 2018. Voici un total de 36 247 584 paires de tuplei, Tupleces extraits de Wikipedia Dump à l'aide d'Openie4.
- Autre
- Wikilinks a fait un ensemble de données de désambiguïsation à grande échelle nommé de fragments de texte du Web, ce qui est nettement plus bruyant et plus difficile que les ensembles de données basés sur les informations existantes.
Inférence du langage naturel
- SNLI Le Corpus SNLI (version 1.0) est une collection de paires de phrases anglaises écrites de 570K écrites par l'homme étiquetées manuellement pour une classification équilibrée avec les étiquettes, la contradiction et le neutre, soutenant la tâche de l'inférence du langage naturel (NLI), également connu sous le nom de reconnaissance de la réception de la textuelle (RTE).
- Multinli Le Corpus multi-genres du langage naturel (multinli) est une collection provenant de paires de phrases de 433k annotées avec des informations d'impression textuelle. Le corpus est modélisé sur le corpus SNLI, mais diffère en qui couvre une gamme de genres de texte parlé et écrit, et soutient une évaluation distinctive de généralisation du genre intermédiaire.
- L'ensemble de données Scitail The Scitail est un ensemble de données d'importance créé à partir d'examens scientifiques à choix multiples et de phrases Web. Le domaine rend cet ensemble de données différent de nature des ensembles de données précédents, et il se compose de phrases plus factuelles plutôt que de descriptions de scène.
- PAWS Un nouvel ensemble de données avec 108 463 paraphrases bien formées et des paires non paraphrases avec un chevauchement lexical élevé. PAWS: paraphrase adversaires du mot brouillage
Réseaux de capsule
- Investigating Capsule Networks with Dynamic Routing for Text Classification.It show how capsule networks exhibit significant improvement when transfer single-label to multi-label text classification over the competitors
- Attention-Based Capsule Networks with Dynamic Routing for Relation Extraction. They explore the capsule networks used for relation extraction in a multi-instance multi-label learning framework and propose a novel neural approach based on capsule networks with attention mechanisms
- Identifying Aggression and Toxicity in Comments using Capsule Network. 2018. It is early days for Capsule Networks, which was introduced by Geoffrey Hinton, et al., in 2017 as an attempt to introduce an NN architecture superior to the classical CNNs. The idea aims to capture hierarchincal relationships in the input layer through dynamic routing between "capsules" of neurons. Due likely to the affinitity of the theme of addressing hierarchical complexities, the idea's extention to the NLP field has since been a sujbect of active research, such as in the papers listed above.
- Dynamic Routing Between Capsules.They propose an iterative routing-by-agreement mechanism: A lower-level capsule prefers to send its output to higher level capsules whose activity vectors have a big scalar product with the prediction coming from the lower-level capsule
- Matrix Ccapsules With Expectation-Maximization Routing. The transformation matrices of capsule net are trained discriminatively by backpropagating through the unrolled iterations of EM between each pair of adjacent capsule layers
Commonsense
- ConceptNet ConceptNet is a multilingual knowledge base, representing words and phrases that people use and the common-sense relationships between them.
- Commonsense Knowledge Representation ConceptNet-related resources. Details in Commonsense Knowledge Base Completion. Proc. of ACL, 2016
- ATOMIC, an atlas of everyday commonsense reasoning, organized through 877k textual descriptions of inferential knowledge. ATOMIC focuses on inferential knowledge organized as typed if-then relations with variables.
- SenticNet SenticNet provides a set of semantics, sentics, and polarity associated with 100,000 natural language concepts. SenticNet consists of a set of tools and techniques for sentiment analysis combining commonsense reasoning, psychology, linguistics, and machine learning.
Autre
- QA-SRL This dataset use question-answer pairs to model verbal predicate-argument structure. The questions start with wh-words (Who, What, Where, What, etc.) and contains a verb predicate in the sentence; the answers are phrases in the sentence.
- QA-SRL 2.0 This repository is the reference point for QA-SRL Bank 2.0, the dataset described in the paper Large-Scale QA-SRL Parsing, ACL 2018.
- NEWSROOM CORNELL NEWSROOM is a large dataset for training and evaluating summarization systems. It contains 1.3 million articles and summaries written by authors and editors in the newsrooms of 38 major publications.
- CoNLL 2010 Uncertainty Detection The aim of this task is to identify sentences in texts which contain unreliable or uncertain information. Training Data contains biological abstracts and full articles from the BioScope (biomedical domain) corpus and paragraphs from Wikipedia possibly containing weasel information.
- COLING 2018 automatic identification of verbal MWE Corpora were annotated by human annotators with occurrences of verbal multiword expressions (VMWEs) according to common annotation guidelines. For example, "He picked one up ."
- Scientific NLP
- PubMed 200k RCT PubMed 200k RCT is new dataset based on PubMed for sequential sentence classification. The dataset consists of approximately 200,000 abstracts of randomized controlled trials, totaling 2.3 million sentences.
- Automatic Academic Paper Rating A dataset for automatic academic paper rating (AAPR), which automatically determine whether to accept academic papers. The dataset consists of 19,218 academic papers by collecting data on academic pa- pers in the field of artificial intelligence from the arxiv.
- ACL Title and Abstract Dataset This dataset gathers 10,874 title and abstract pairs from the ACL Anthology Network (until 2016).
- SCIERC A dataset includes annotations for entities, relations, and coreference clusters in scientific articles.
- SciBERT SciBERT is a BERT model trained on scientific text. A broad set of scientific nlp datasets under the data/ directory across ner, parsring, pico and text classification.
- 5AbstractsGroup The dataset contains academic papers from five different domains collected from the Web of Science, namely business, artifical intelligence, sociology, transport and law.
- SciCite A new large dataset of citation intent from Structural Scaffolds for Citation Intent Classification in Scientific Publications
- ACL-ARC A dataset of citation intents in the computational linguistics domain (ACL-ARC) introduced by Measuring the Evolution of a Scientific Field through Citation Frames .
- GASP The dataset consists of list of cited abstracts associated with the corresponding source abstract. The goal is to generete the abstract of a target paper given the abstracts of cited papers.
Contribute Contributions welcome!