Großartige Ressource für NLP
Neues Update: Kapselnetz, Sarkasmuserkennung
Inhaltsverzeichnis
- Inhaltsverzeichnis
- Bibliotheken
- EsseNtial Mathematics
- Wörterbuch
- Lexikon
- Parsing
- Diskurs
- Sprachmodell
- Erkennung von Sarkasmus
- Maschinelle Übersetzung
- Textgenerierung
- Textklassifizierung
- Textübersicht
- Gefühl
- Wort/Dokumenteinbettungen
- Wortdarstellung
- Frage Antwort
- Informationsextraktion
- Inferenz der natürlichen Sprache
- Kapselnetzwerke
- Gesunder Menschenverstand
- Andere
- Beitragen
Nützliche Bibliotheken
- Numpy Stanfords Vortrag CS231N befasst sich mit Numpy, was für Berechnungen für maschinelles Lernen von grundlegender Bedeutung ist.
- NLTK Es ist eine Reihe von Bibliotheken und Programmen für symbolische und statistische Verarbeitung natürlicher Sprache
- Tensorflow Ein Tutorial von TensorFlow. Es gibt großartige Erklärungen zu den Grundlagen mit visuellen Hilfsmitteln. Nützlich in tiefen NLP
- Pytorch Ein fantastisches Tutorial über Pytorch von Facebook mit großer Qualität.
- Tensor2tensor -Sequenz zum Sequenz -Tool -Kit von Google in TensorFlow geschrieben.
- Fairseq Sequenz zum Sequenz -Tool -Kit von Facebook in Pytorch geschrieben.
- Umarme Gesichtstransformatoren Eine Bibliothek basierend auf dem Transformator, das durch das Umarmung des Gesichts bereitgestellt wird, das einen einfachen Zugriff auf vorgebildete Modelle ermöglicht. Eine der wichtigsten NLP -Bibliotheken nicht nur für Entwickler, sondern auch für Forscher.
- Umarmung von Face Tokenizern eine Tokenizer -Bibliothek, die das umarmte Gesicht behält. Es steigert schnelle Operationen, da die wichtigsten Funktionen in Rost geschrieben sind. Die neuesten Tokenisierer wie BPE können mit umarmenden Gesichtsstokener ausprobiert werden.
- Spacy Ein Tutorial von Ines, dem Kernentwickler des bemerkenswerten Spacy.
- Torchtext Ein Tutorial über Torchtext, ein Paket, mit dem die Datenvorverarbeitung zur Hand genommen wird. Hat mehr Details als die offizielle Dokumentation.
- Die Open-Source-Bibliothek von Suripiece Google, die BPE-basierte Vokabular unter Verwendung von Subword-Informationen erstellt.
- Gensim Python -Bibliothek für Themenmodellierung, Dokumentindexierung und Ähnlichkeitsabruf mit großen Korpora.
- Polyglott eine natürliche Sprachpipeline, die massive mehrsprachige Anwendungen unterstützt.
- TextBlob bietet einfache API zum Eintauchen in die Aufgaben der gemeinsamen natürlichen Sprachverarbeitung (NLP) wie Teil des Speech-Tagging, Nomenphrasextraktion, Stimmungsanalyse, Klassifizierung, Übersetzung, Wordnet-Integration, Analyse, Wortwesen
- Quepy Ein Python -Framework zur Umwandlung natürlicher Sprache in Abfragen in einer Datenbank -Abfragesprache.
- Muster -Web -Mining -Modul für Python mit Tools zum Schaschen, Verarbeitung natürlicher Sprache, maschinelles Lernen, Netzwerkanalyse und Visualisierung
Essentielle Mathematik
- Statistiken und Wahrscheinlichkeiten
- Statistik 110 Eine Vorlesung über Wahrscheinlichkeit, die von Nicht-Engineering-Hauptstudenten leicht verstanden werden kann.
- Die Statistik von Brandon Foltz Brandon Foltz von Brandon Foltz und Statistiken werden auf YouTube veröffentlicht und sind ziemlich kurz, sodass beim täglichen Pendelverkehr leicht zu erreichen ist.
- Lineare Algebra
- Lineare Algebra Awesome Vortrag von Professor Gilbert Strang.
- Essenz linearer Algebra -Algebraik -Vorlesung auf YouTube Channel 3Blue1Brown
- Grundlagen
- Mathematik für maschinelles Lernbuch über alle mathematischen Kenntnisse, die mit maschinellem Lernen begleitet sind.
- Essenz des Calculus Calculus Lecture durch den oben erwähnten Kanal 3Blue1Brown, hilfreich für diejenigen, die einen Überblick über den Kalkül wünschen.
Wörterbuch
- Zweisprachiger Wörterbuch
- CC-Cedict Ein zweisprachiges Wörterbuch zwischen Englisch und Chinesisch.
- Aussprechen des Wörterbuchs
- CMUDICT Das Aussprechen des Carnegie Mellon University ist ein maschinelles, maschinelles Aussprachenwörterbuch für nordamerikanische Englisch, das über 134.000 Wörter und ihre Aussprachen enthält.
Lexikon
- PDEV -Muster -Wörterbuch der englischen Verben.
- Verbnet Ein Lexikon, das Verben basierend auf ihrem semantischen/syntaktischen Verknüpfungsverhalten gruppiert.
- Framenet Ein Lexikon, das auf Rahmensemantik basiert.
- WordNet Ein Lexikon, das semantische Beziehungen (wie Synonymie und Hyperonymie) zwischen einzelnen Wörtern beschreibt.
- PropBank Ein Korpus mit einer Million englischen Textwörtern, der mit Argumentrollenbezeichnungen für Verben kommentiert; und ein Lexikon, das diese Argumentenrollen pro Verbbasis definiert.
- Nombank a Dataset markiert die Argumente, die mit Substantiven im PropBank Corpus (dem Wall Street Journal Corpus of the Penn Treebank) mit Substantiven cooccuriert, genau wie PropBank solche Informationen für Verben aufzeichnet.
- Semlink Ein Projekt, dessen Ziel es ist, verschiedene lexikalische Ressourcen über eine Reihe von Zuordnungen miteinander zu verbinden. (Verbnet, PropBank, Framenet, WordNet)
- Framester Framester ist ein Hub zwischen Framenet, Wordnet, Verbnet, Babelnet, Dbpedia, Yago, Dolce-Zero sowie anderen Ressourcen. Framester erstellt nicht einfach ein stark verbundenes Wissensgraphen, sondern wendet auch eine strenge formale Behandlung für Fillmores Rahmensemantik an, wodurch vollwertige Eulenabfragen und Argumentation auf dem erstellten gemeinsamen Rahmen-basierten Wissensgraphen ermöglicht werden.
Parsing
- PTB Die Penn Treebank (PTB).
- Universelle Abhängigkeiten Universal Deponcies (UD) sind ein Rahmen für kreuzklingelistisch konsequente grammatikalische Annotation und eine offene Community-Bemühungen, wobei über 200 Mitwirkende mehr als 100 Baumbanken in über 60 Sprachen produzieren.
- Tweebank Tweebank V2 ist eine Sammlung englischer Tweets, die in universellen Abhängigkeiten kommentiert werden, die für die Schulung von NLP -Systemen ausgenutzt werden können, um ihre Leistung in Social -Media -Texten zu verbessern.
- Semeval-2016 Aufgabe 9 SEMEVAL-2016 Task 9 (chinesische Semantische Abhängigkeitsanalyse) Datensätze.
Diskurs
- PDTB2.0 PDTB, Version 2.0. Anmerkungen für die Kennzeichnung 40600 Diskursbeziehungen, verteilt in die folgenden fünf Arten: explizit, implizit usw.
- PDTB3.0 In Version 3 wurden weitere 13.000 Token kommentiert, bestimmte paarweise Annotationen wurden standardisiert, neue Sinne wurden eingeschlossen und der Korpus unterlag einer Reihe von Konsistenzprüfungen.
- Backtranslation kommentierte implizite Diskursbeziehungen Diese Ressource enthält kommentierte implizite Diskursbeziehungs-Instanzen. Diese Sätze werden automatisch durch die Rücktranslation der parallelen Korpora kommentiert.
- DiscourSechinesetedTalks Dieser Datensatz enthält Annotation für 16 TED -Gespräche auf Chinesisch.
Sprachmodell
- PTB Penn Treebank Corpus in LM -Version.
- Google Billion Word Dataset 1 Milliarde Word Sprachmodellierungsbenchmark.
- Wikitext Das Wikitext -Sprachmodellierungsdatensatz ist eine Sammlung von über 100 Millionen Token, die aus dem Satz verifiziertes Gut und vorgestellten Artikeln über Wikipedia extrahiert werden. Im Vergleich zur vorverarbeiteten Version von Penn Treebank (PTB) ist Wikitext-2 über 2-mal größer und Wikitext-103 ist über das 110-fache größer.
Erkennung von Sarkasmus
- Cascade Contextual Sarkasm Detektor (CASCADE) verwendet einen hybriden Ansatz sowohl der inhaltlich als auch der kontextgesteuerten Modellierung für die Erkennung von Sarkasmus in Online-Diskussionen in den Online-Medien. Ferner verwendeten sie inhaltsbasierte Feature-Extraktoren wie Faltungsnetzwerke mit Faltungsstücken
- Ein tieferer Blick auf sarkastische Tweets unter Verwendung von tiefen Faltungsverkäufen Neuronal Networks International Journal of Advanced Research in Computer Engineering & Technology, Band 6, Ausgabe 1, Januar 2017. Sie schlagen ein automatisiertes System zur Erkennung von Sarkasmus auf Twitter vor
- Adarnn Adaptive Rekursives neuronales Netzwerk (ADARNN) für die zielabhängige Twitter-Stimmungsklassifizierung. Es verbreitet die Gefühle von Wörtern adaptiv, um abhängig vom Kontext und den syntaktischen Beziehungen zwischen ihnen zu zielen
- Erkennen von Sarkasmus mit tiefem mittelschwerem mittlerem Artikel. Es schlägt vor, zunächst ein Stimmungsmodell (basierend auf einem CNN) für die Lernstimmungs-spezifische Merkmalextraktion zu trainieren. Das Modell lernt lokale Merkmale in unteren Schichten, die dann in den höheren Schichten in globale Merkmale umgewandelt werden.
Maschinelle Übersetzung
- Europarl Der Europarl Parallel Corpus wird aus den Verfahren des Europäischen Parlaments gewonnen. Es umfasst Versionen in 21 europäischen Sprachen: romanisch (französisch, italienisch, spanisch, portugiesisch, rumänisch), germanisch (englisch, holländisch, deutsch, dänisch, schwedisch), slawik (bulgarisch, tschechisch, polnisch, slowak, slowene), finniugric (finnisch, ungarisch, estonisch), baltisch (latvisch) und latvisch (latvisch) und graparisch.
- Uncorpus Die Parallele Corpus V1.0 der Vereinten Nationen bestehen aus offiziellen Aufzeichnungen und anderen parlamentarischen Dokumenten der Vereinten Nationen, die öffentlich zugänglich sind.
- CWMT Die von China Workshop on Machine Translation (CWMT) Community gesammelten und geteilten ZH-EN-Daten. Es gibt drei Arten von Daten für die chinesisch-englische maschinelle Übersetzung: einsprachiger chinesischer Text, paralleler chinesisch-englischer Text, mehrfache Text.
- WMT Monolingual Sprachmodell -Trainingsdaten wie gemeinsame Kriechen Nachrichten in CS de en fi ro ru tr und parallelen Daten.
- Opus Opus ist eine wachsende Sammlung übersetzter Texte aus dem Web. Im Opus -Projekt versuchen wir, kostenlose Online -Daten umzuwandeln und auszurichten, sprachliche Annotation hinzuzufügen und der Community einen öffentlich verfügbaren parallelen Korpus zur Verfügung zu stellen.
Textgenerierung
- Tencent Automatischer Artikel, der einen groß angelegten chinesischen Datensatz mit Millionen von realen Kommentaren und einer von Menschen ankündigten Untergruppe kommentiert, die die variierende Qualität der Kommentare charakterisiert. Dieser Datensatz besteht aus rund 200K -Nachrichtenartikeln und 4,5 -m -menschlichen Kommentaren sowie reichhaltigen Meta -Daten für Artikelkategorien und Benutzerstimmen von Kommentaren.
- Zusammenfassung
- BigPatent Ein Zusammenfassungspunkt -Datensatz besteht aus 1,3 Millionen Datensätzen von US -Patentdokumenten sowie menschlichen schriftlichen abstraaktiven Zusammenfassungen.
- Daten-zu-Text
- Wikipedia -Person und Tierdatensatz Dieser Datensatz sammelt 428.748 Person und 12.236 Animal InfoBox mit Beschreibung basierend auf Wikipedia Dump (2018/04/01) und Wikidata (2018/04/12).
- Wikibio Dieser Datensatz versammelt 728.321 Biografien aus Wikipedia. Es zielt darauf ab, Algorithmen zur Textgenerierung zu bewerten. Für jeden Artikel bietet es den ersten Absatz und den Infobox (beide tokenisiert).
- Rotowire Dieser Datensatz besteht aus (von Menschen geschriebenen) NBA-Basketballspielzusammenfassungen, die mit ihren entsprechenden Box- und Zeilencores ausgerichtet sind.
- MLB-Details in der Daten-zu-Text-Erzeugung mit Entitätsmodellierung, ACL 2019
Textklassifizierung
- 20Newsgroups Der 20 Newsgroups -Datensatz ist eine Sammlung von ungefähr 20.000 Newsgroup -Dokumenten, die (nahezu) gleichmäßig in 20 verschiedenen Newsgroups verteilt sind.
- AGs Korpus von Nachrichtenartikeln AG ist eine Sammlung von mehr als 1 Million Nachrichtenartikeln.
- Yahoo-Answer-Topic-Klassifizierung Dieser Korpus enthält 4.483.032 Fragen und ihre entsprechenden Antworten von Yahoo! Beantwortet Service.
- Google-Snippets Dieser Datensatz enthält die Web-Suchergebnisse in Bezug auf 8 verschiedene Domänen wie Unternehmen, Computer und Engineering.
- Benchmarkkingzeroshot Dieses Repository enthält den Code und die Daten für das EMNLP2019-Papier "Benchmarking-Null-Shot-Textklassifizierung: Datensätze, Bewertung und Einsatzansatz".
Textübersicht
- Textübersicht mit Gensim Die Gensim -Implementierung basiert auf dem beliebten "Textrank" -Algorithmus
- Unüberwachter Textbefugnis Fantastischer Artikel, der die Textübersicht unter Verwendung von Satzempfetten beschreibt
- Verbesserung der Abstraktion in der Textübersicht, in der zwei Techniken zur Verbesserung vorgeschlagen werden
- Textübersicht und Kategorisierung mehr im Zusammenhang mit wissenschaftlichen und gesundheitsbezogenen Daten
- Textübersicht mit TensorFlow. Eine grundlegende Studie zur Textübersicht von 2016
Gefühl
- MPQA 3.0 Dieser Korpus enthält Nachrichtenartikel und andere Textdokumente, die manuell für Meinungen und andere private Staaten (dh Überzeugungen, Emotionen, Gefühle, Spekulationen usw.) kommentiert haben. Die Hauptänderungen in dieser Version des MPQA Corpus sind die Ergänzungen von neuen Etarget -Anmerkungen (Entität/Ereignis).
- SentiWordNet SentiWordnet ist eine lexikalische Ressource für Meinungen. SentiWordNet weist jeder Synset von WordNet drei Sentiment -Scores zu: Positivität, Negativität, Objektivität.
- NRC-Wort-Emotion-Assoziation Lexikon Das NRC-Emotionslebnis ist eine Liste englischer Wörter und ihre Assoziationen mit acht grundlegenden Emotionen (Wut, Angst, Vorfreude, Vertrauen, Überraschung, Traurigkeit, Freude und Ekel) und zwei Gefühle (negativ und positiv).
- Stanford Sentiment Treebank SST ist der Datensatz des Papiers: rekursive tiefe Modelle für semantische Kompositionalität über eine Sentiment TreeBank Richard Socker, Alex Perelygin, Jean Wu, Jason Chuang, Christopher Manning, Andrew NG und Christopher Potts Conference über empirische Methoden in Natural Sprache (Emnlp 2013)
- SEMEVAL-2013 Twitter Semeval 2013 Twitter-Datensatz, das Annotation auf Phrase-Ebene enthält.
- Sentihood Sentihood ist ein Datensatz für die Aufgabe der gezielten, auf Aspektbasis basierenden Stimmungsanalyse, die 5215 Sätze enthält. Sentihood: Zartigte Aspektbasis -Stimmungsanalyse -Datensatz für städtische Stadtteile, Coling 2016 .
- SEMEVAL-2014 Aufgabe 4 Diese Aufgabe befasst sich mit der Aspekt-basierten Stimmungsanalyse (ABSA). Zwei domänenspezifische Datensätze für Laptops und Restaurants, die aus über 6K-Sätzen mit menschlichen Annotationen auf feinkörniger Aspekt-Ebene bestehen, wurden zur Ausbildung bereitgestellt.
Wort/Dokumenteinbettungen
- Das aktuelle Best of Universal Word/Satz Einbettungen. Es codieren Wörter und Sätze in dichten Vektoren mit fester Länge, um die Verarbeitung von Textdaten drastisch zu verbessern.
- Dokumenteinbettung in Absatzvektoren 2015. Von Google.
- Handschuhwort -Einbettung Demo Demo der Verwendung von Handschuhwort -Einbettungen
- FastText Eine Bibliothek zum Erlernen von Worteinbettungen und Textklassifizierung, die durch Facebooks AI Research (Fair) Labor mit vielen vorbereiteten Modellen erstellt wurde
- Textklassifizierung mit WORD2VEC Praktische Implementierung, wie die Textklassifizierung mit Word2VEC mit dem Handschuh durchführt
- Dokumenteinbettung Einführung in die Grundlagen und die Bedeutung von Dokumenteinbettungen
- Aus Word -Einbettungen zum Dokumentieren von Entfernungen intoduliert die Entfernung von Word Mover (WMD), die die Unähnlichkeit zwischen zwei Textdokumenten als minimale Entfernung misst, die die eingebetteten Wörter eines Dokuments "reisen" müssen, um die eingebetteten Wörter eines anderen Dokuments zu erreichen.
- DOC2VEC -Tutorial im Lee -Datensatz
- Worteinbettungen in Python mit Spacy und Gensim
- Die illustrierten Bert, Elmo und co. (Wie NLP das Lernen von Transferern geknackt). Dezember 2018.
- Tiefes kontextualisiertes Wort Repräsentationen. Elmo. Pytorch -Implementierung. TF -Implementierung
- Feinabstimmung für die Textklassifizierung. Implementierungscode.
- Übersichtliches Lernen von universellen Satzdarstellungen aus natürlichen Sprachinferenzdaten. Zeigt, wie universelle Satzdarstellungen mit den überwachten Daten trainiert wurden
- In Übersetzung gelernt: kontextualisierte Wortvektoren. Cove verwendet einen tiefen LSTM-Encoder aus einem Aufmerksamkeitssequenz-zu-Sequenz
- Verteilte Darstellungen von Sätzen und Dokumenten. Absatzvektoren. Siehe Doc2VEC -Tutorial bei Gensim
- Sense2Vec. Eine schnelle und genaue Methode zur Disambiguierung von Wortsinn bei neuronalen Wortbettendings
- Überspringen Sie denkt Vektoren. Ein Encoder-Decoder-Modell, das versucht, die umgebenden Sätze einer codierten Passage zu rekonstruieren
- Sequenz zum Sequenzlernen mit neuronalen Netzwerken. Es verwendet eine mehrschichtige LSTM, um die Eingangssequenz einem Vektor einer festen Dimensionalität und dann einer weiteren tiefen LSTM zuzuordnen, um die Zielsequenz aus dem Vektor zu dekodieren
- Die erstaunliche Kraft der Wortvektoren. Material im Zusammenhang mit Word2VEC aus verschiedenen fünf Forschungsarbeiten
- Kontextbezogene String -Einbettungen für die Sequenzmarkierung. Zu den Eigenschaften gehören, dass sie (a) ohne expliziten Wörterbegriff ausgebildet werden, und (b) werden durch ihren umgebenden Text kontextualisiert
- Bert erklärte - hochmodernes Sprachmodell für NLP. Eine große Erklärung der Grundlagen der Funktionsweise von Bert.
- Überprüfung von Bert -basierten Modellen. Und einige jüngste Hinweise/Einblicke in das, was Bert so effektiv macht
Wortdarstellung
- Worteinbettung
- Google News Word2Vec Das Modell enthält 300-dimensionale Vektoren für 3 Millionen Wörter und Phrasen, die in einem Teil des Google News-Datensatzes trainiert wurden (etwa 100 Milliarden Wörter).
- Vorausgebildete mit Handschuh vorgebrachte vorgeschriebene Wortvektoren. Wikipedia + Gigaword 5, Common Crawl, Twitter.
- FastText PreAted PreAnted Word Vektoren für 294 Sprachen, die auf Wikipedia mit FastText trainiert wurden.
- BPEMB BPEMB ist eine Sammlung von vorgeborenen Subword-Einbettungen in 275 Sprachen, die auf Byte-Pair-Codierung (BPE) basieren und auf Wikipedia trainiert werden.
- Abhängig basierte Wort einbettet vorgeschaltetes Worteinbettungsdings basierend auf Abhängigkeitsinformationen , von abhängig basierten Worteinbettungen, ACL 2014 .
- Meta-Embeddings führt Ensembles einiger vorbereiteter Worteinbettungsversionen aus Meta-Embeddings aus: höherwertige Wort-Einbettungen über Ensembles von Einbettungssätzen, ACL 2016.
- LexVEC-vorgeborene Vektoren auf der Grundlage des LexVec-Wortbettungsmodells . Common Crawl, English Wikipedia und Newscrawl.
- Muse Muse ist eine Python-Bibliothek für mehrsprachige Worteinbettungen, die mehrsprachige Einbettungen für 30 Sprachen und zweisprachige Grundwörterbücher mit großem Maßstab liefert.
- CWV Dieses Projekt enthält mehr als 100 chinesische Wortvektoren (Einbettungen), die mit unterschiedlichen Darstellungen (dicht und spärlich), Kontextmerkmale (Wort, Ngram, Charakter und mehr) und Corpora geschult sind.
- charngram2Vec Dieses Repository hat den neu implementierten Code für das in einem gemeinsame Aufgaben-Papier (JMT) vorgestellte Voraussetzungszeichen n-gram-Einbettungen zur Verfügung gestellt, einem gemeinsamen Modell mit vielen Aufgaben: Anbau eines neuronalen Netzwerks für mehrere NLP-Aufgaben, EMNLP2017 .
- Wortdarstellung mit Kontext
- ELMO-vorgeschriebene kontextbezogene Darstellungen aus großartigen bidirektionalen Sprachmodellen bieten große Verbesserungen für fast alle beaufsichtigten NLP-Aufgaben.
- Bert Bert , oder biktionale E- NCODER -EPRESSIGNATIONS aus T- RANSFORMALERS ist eine neue Methode für die Repräsentationen vor dem Training, die hochmoderne Ergebnisse zu einer Vielzahl von Aufgaben der natürlichen Sprachverarbeitung (NLP) erzielt. (2018.10)
- OpenGPT GPT-2 ist ein großes transformatorbasiertes Sprachmodell mit 1,5 Milliarden Parametern, das auf einem Datensatz von 8 Millionen Webseiten geschult ist. GPT-2 ist mit einem einfachen Ziel ausgebildet: Vorhersage des nächsten Wortes angesichts aller vorherigen Wörter in einem Text.
Frage Antwort
- Maschinenleseverständnis
- Squad Stanford Frage zur Beantwortung des Datensatzes (Squad) ist ein neuer Datensatz für das Leseverständnis, das aus Fragen von Crowdworkern auf einer Reihe von Wikipedia -Artikeln besteht, in denen die Antwort auf jede Frage ein Segment von Text oder Spannweite aus der entsprechenden Lesepassage ist.
- CMRC2018 CMRC2018 wird vom zweiten Bewertungsworkshop zum Reading des chinesischen Maschinenverständnisses veröffentlicht. Der Datensatz besteht aus nahezu 20.000 realen Fragen, die Hu-Man in Wikipedia-Absätzen kommentiert haben.
- DCRD Delta Reading Referasion Dataset ist ein offener Datensatz für das traditionelle chinesische Maschinenlesung (MRC). Sie enthält 10.014 Absätze aus 2.108 Wikipedia -Artikeln und über 30.000 Fragen, die von Annotatoren generiert wurden.
- Triviaqa triviaqa umfasst 95.000 Fragen-Antwortenpaare, die von Trivia-Enthusiasten verfasst und unabhängig voneinander befragte Dokumente gesammelt wurden, die im Durchschnitt sechs pro Frage gesammelt wurden, die eine qualitativ hochwertige entfernte Aufsicht für die Beantwortung der Fragen bieten. � Dieser Datensatz stammt aus der Wikipedia -Domain und der Webdomäne.
- Newsqa Newsqa ist ein Crowd-Sourcing-Maschinen-Reading-Verständnis-Datensatz von 120K-Q & A-Paaren.
- HarvestingQa Dieser Ordner enthält den QA-Pair-Datensatz auf Absatzebene (in Zug, Dev und Testset aufgeteilt) in: Ernte-Fragen-Antwortenpaare auf Absatzebene aus Wikipedia (ACL 2018).
- Propara Propara zielt darauf ab, die Forschung im Verständnis der natürlichen Sprache im Kontext des prozeduralen Textes zu fördern. Dies erfordert die Identifizierung der im Absatz beschriebenen Maßnahmen und Verfolgung von Zustandsänderungen an den beteiligten Unternehmen.
- McScript McScript ist ein neuer Datensatz für die Aufgabe des Maschinenverständnisses, das sich auf das Wissenskenntnis konzentriert. Es umfasst 13.939 Fragen zu 2.119 narrativen Texten und deckt 110 verschiedene alltägliche Szenarien ab. Jeder Text ist mit einem von 110 Szenarien kommentiert.
- McScript2.0 McScript2.0 ist ein Maschinenverständniskorpus für die End-to-End-Bewertung des Skriptwissens. Es enthält ca. 20.000 Fragen zu ca. 3.500 Texte, Crowdsourcing basierend auf einem neuen Sammlungsprozess, der zu herausfordernden Fragen führt. Die Hälfte der Fragen kann nicht aus den Lesetexten beantwortet werden, erfordern jedoch die Verwendung von gesunden Menschenverstand und insbesondere von Skriptkenntnissen.
- CommonSenseqa CommonSenseqa ist ein neues Multiple-Choice-Frage-Beantwortungsdatensatz, für das verschiedene Arten von Commonsisen-Kenntnissen erforderlich sind, um die richtigen Antworten vorherzusagen. Es enthält 12.102 Fragen mit einer korrekten Antwort und vier Distraktorantworten.
- NarrativeQa narrativeqa enthält die Liste der Dokumente mit Wikipedia -Zusammenfassungen, Links zu vollständigen Geschichten sowie Fragen und Antworten. Für eine detaillierte Beschreibung des Papiers "The NarrativeQa Reading Realsion Challenge".
- Hotpotqa Hotpotqa ist eine Frage, die den Datensatz beantwortet, der natürliche, Multi-Hop-Fragen enthält, mit einer starken Überwachung für die Unterstützung von Fakten, um erläuterbare Fragen zur Beantwortung von Fragen zu ermöglichen.
- Doppelte/ähnliche Frageidentifikation
- Quora -Fragepaare Quora -Fragepaare Dataset besteht aus über 400.000 Zeilen potenzieller Fragen doppelte Paare. [Kaggle Versionsformat]
- Fragen Sie Ubuntu Dieses Repo enthält eine vorverarbeitete Sammlung von Fragen, die von Corpus Dump von Askubuntu.com 2014 gestellt wurden. Es wird außerdem mit 400*20 Mannual-Annotationen geliefert, die Paare von Fragen als "ähnlich" oder "nicht-ähnlich" markieren, aus halbübergreifenden Fragen Abruf mit Gated-Konvolutionen, NAACL2016 .
Informationsextraktion
- Juristische Person
- Shimaoka feinkörnig Dieser Datensatz enthält zwei Standard- und öffentlich verfügbare Datensätze für die Klassifizierung der feinkörnigen Entität, die in einem vorverarbeiteten Format zur Verfügung gestellt wird, Details in neuronalen Architekturen für die Klassifizierung des Typs mit feinen körnigem Unternehmen, EACL 2017 .
- Ultra-Fine-Unternehmen, die eine neue Entitätsteilung tippen: Wenn Sie einen Satz mit einer Entität erwähnen, ist es das Ziel, eine Reihe von Freiformphrasen (z. B. Wolkenkratzer, Songwriter oder Verbrecher) vorherzusagen, die geeignete Typen für die Zieleinheit beschreiben.
- Nested Named Entity Corpus Ein feinkörniger, verschachtelter namens Entity-Datensatz über den vollständigen Teil des Wall Street Journal des Penn Treebank (PTB), der 279.795 Erwähnungen von 114 Entitätstypen mit bis zu 6 Schichten von Nesting umfasst.
- Die genannte Entitätserkennung von codesanierten Datencode-Schalter (CS) ist das Phänomen, durch das mehrsprachige Sprecher zwischen ihren gemeinsamen Sprachen in schriftlicher oder gesprochener Kommunikation hin und her wechseln. Es enthält die Trainings- und Entwicklungsdaten für das Tuning- und Testsysteme in den folgenden Sprachpaaren: Spanisch-Englisch (SPA-Eng) und moderner arabisch-ägyptischer Standard-Standard (MSA-EGY).
- MIT Movie Corpus The MIT Movie Corpus ist ein semantisch markiertes Trainings- und Testkorpus im Bioformat. Das Eng Corpus sind einfache Abfragen, und das Trivia10K13 -Korpus sind komplexere Abfragen.
- MIT Restaurant Corpus Das MIT Restaurant Corpus ist ein semantisch markiertes Trainings- und Testkorpus im Bioformat.
- Beziehungsextraktion
- Datensätze mit annotierten semantischen Beziehungen empfehlen dieses Repository, mit der kommenden Datensätze verwendet werden können, mit denen beaufsichtigte Modelle für die Aufgabe der semantischen Beziehungsextraktion trainiert werden können.
- Tacred Tacred ist ein groß angelegter Datensatz für die Beziehungsextraktion mit 106.264 Beispielen, die über Newswire und Web Text aus dem in den jährlichen TAC-Wissensbasis-Populationsbevölkerung (TAC KBP) verwendeten Korpus aufgebaut sind. Details in positionbewussten Aufmerksamkeit und überwachten Daten verbessern die Slot-Füllung, EMNLP 2017 .
- Nur wenige Wenigrel ist ein nur weniger Schuss-Relation-Klassifizierungsdatensatz, der 70.000 natürliche Sprachsätze enthält, in denen 100 Beziehungen, die von Crowdworkern kommuniziert wurden, ausdrücken.
- Semeval 2018 Task7 Die Schulungs- und Bewertungsskript für Semeval 2018 Aufgabe 7: Semantische Beziehungsextraktion und Klassifizierung in wissenschaftlichen Arbeiten.
- Chinese-Literatur-NER-RE Ein diskurter Ebene-Namen-Entitätserkennung und -beziehungs-Extraktionsdatensatz für chinesische Literaturtext. Es enthält insgesamt 726 Artikel, 29.096 Sätze und über 100.000 Zeichen.
- Ereignis
- ACE 2005 Trainingsdaten Der Korpus besteht aus Daten verschiedener Typen, die für Entitäten, Beziehungen und Ereignisse mit Unterstützung des ACE -Programms in drei Sprachen erstellt wurden: Englisch, Chinesisch, Arabisch.
- Das chinesische Notfallcorpus (CEC) Chinese Emergency Corpus (CEC) wird vom Datensemantiklabor der Shanghai University gebaut. Dieser Korpus ist in 5 Kategorien unterteilt - Erdbeben, Feuer, Verkehrsunfall, Terroranschlag und Vergiftung von Nahrung.
- Die Bewertung der TAC-KBP-Ereignisereignisse ist eine Unterspur in der TAC-Wissensbasis-Population (KBP), die ab 2015 begann. Das Ziel der TAC-Wissensbasis-Population (KBP) ist es, Technologien zur Bevölkerung von Wissensbasis (KBS) aus unstrukturiertem Text zu entwickeln und zu bewerten.
- Erzählende Zapfenbewertungsdaten bewerten das Verständnis eines Skripts durch Vorhersage des nächsten Ereignisses bei mehreren Kontextereignissen. Details zum unbeaufsichtigten Erlernen von Erzählschemas und ihren Teilnehmern, ACL 2009 .
- Ereigniszensor Ein Evaluierungsdatensatz über Schema-Generierung/Satz Ähnlichkeit/narrative Lücke, der von Ereignisdarstellungen mit Tensor-basierten Kompositionen vorgeschlagen wird, AAAI 2018 .
- SEMEVAL-2015 TASK 4 Zeitleiste: Cross-Dokumentereignis-Bestellung. Angesichts einer Reihe von Dokumenten und einer Zielentität besteht die Aufgabe darin, eine Ereigniszeitleiste zu erstellen, die sich auf diese Entität bezieht, dh zum Erkennen, Anker in der Zeit und der Bestellung der Ereignisse, an denen die Zieleinheit beteiligt ist, zu erkennen, zu verankern.
- Die Beschreibung der Red Richer-Ereignis besteht aus den Annotationen für Ereignis-Ereignis-Beziehungen (zeitliche, kausale, subenereignisliche und berichtende Beziehungen) gegenüber 95 englischen Newswire, Diskussionsforum und Erzähltextdokumenten, die alle Ereignisse, Zeiten und nicht-Eventive-Unternehmen in jedem Dokument behandeln.
- INSCIPT Der InScript -Korpus enthält insgesamt 1000 narrative Texte, die über Amazon Mechanical Turk gekrönt wurden. Es ist mit Skriptinformationen in Form von szenariospezifischen Ereignissen und Teilnehmern mit Skriptinformationen kommentiert.
- Autolabelvent Die Daten der Arbeiten in der automatisch gekennzeichneten Datenerzeugung für die Extraktion mit großem Maßstab, ACL2017 .
- EventInframenet Die Daten der Arbeiten zur Nutzung von Framenet zur Verbesserung der automatischen Ereigniserkennung, ACL2016 .
- In der Zwischenzeit besteht der Corpus in der Zwischenzeit (der Nachrichtenreader mehrsprachige Ereignis und Time Corpus) aus insgesamt 480 Nachrichtenartikeln: 120 English Wikinews Artikel zu vier Themen und deren Übersetzungen auf Spanisch, Italienisch und Niederländisch. Es wurde manuell auf mehreren Ebenen annotiert, einschließlich Entitäten, Ereignissen, zeitlichen Informationen, semantischen Rollen sowie Intra-Dokument- und Cross-Document-Ereignis sowie Entitätskoreferenz.
- BionLP-ST 2013 BionLP-ST 2013 zeigt die sechs Event-Extraktionsaufgaben: Genia-Event-Extraktion für NFKB-Wissensbasiskonstruktion, Krebsgenetik, Pathway-Kuration, Korpusannotation mit Genregulierung Ontologie, Genregulationsnetzwerk in Bakterien und Bakterienbiotopen (semantische Annotation durch eine Ontologie).
- Ereignisstempor- und kausale Beziehungen
- CATTER Kausales und zeitliches Beziehungsschema (Caters), das einzigartig ist, wenn er gleichzeitig eine in den Vorkragen erfasste Reihe von zeitlichen und kausalen Beziehungen zwischen Ereignissen erfasst. Caters enthält insgesamt 1.600 Sätze im Kontext von 320 Kurzgeschichten von fünf Sentenz, die aus dem Rokstories Corpus stammen.
- Die Kausalkausbank-Timal-T-TimeBank ist der Zeitbankkorpus, der aus der Tempeval-3-Aufgabe entnommen wurde, wodurch neue Informationen über die Kausalität in Form von C-Signalen und Annotation angegeben werden. 6.811 Ereignisse (nur instanziierte Ereignisse von MakeInstance Tag von Timeml), 5.118 Tlinks (zeitliche Links), 171 CIGNALS (Kausalsignale), 318 Klinke (kausale Links).
- EventCausalityData Der EventCausality -Datensatz bietet relativ dichte kausale Annotationen zu 25 Newswire -Artikeln, die 2010 von CNN gesammelt wurden.
- EventStoryline Ein Benchmark -Datensatz für die Erkennung zeitlicher und kausaler Beziehung.
- TEMPEVAL-3 Die gemeinsame Aufgabe Tempeval-3 zielt darauf ab, die Forschung zur zeitlichen Informationsverarbeitung voranzutreiben.
- Temporalcausalreasoning eines Datensatzes mit Annotation der zeitlichen und kausalen Beziehungen. Die zeitlichen Beziehungen wurden auf der Grundlage des in "ein Mehrachse-Annotationsschemas für die temporalen Beziehungen ereignisstechnischen Beziehungen" vorgeschlagenen Programms mit Crowdflower annotiert. Die kausalen Beziehungen wurden aus der "EventCausalityData" abgebildet.
- Die TimeBank TimeBank 1.2 enthält 183 Nachrichtenartikel, die mit zeitlichen Informationen und Hinzufügen von Ereignissen, Zeiten und zeitlichen Links (TLinks) zwischen Ereignissen und Zeiten annotiert wurden.
- TimeBank-Eventtime Corpus Dieser Datensatz ist eine Teilmenge des Zeitbankkorpus mit einem neuen Annotationsschema zum rechtzeitigen Ankereignis. Detaillierte Beschreibung.
- Veranstaltung Tatsachen
- UW-Ereignis-Fakten-Datensatz Dieser Datensatz enthält Annotationen von Text aus dem Tempeval-3-Korpus mit Sachlichkeitsbewertungsbezeichnungen.
- FactBank 1.0 FactBank 1.0 besteht aus 208 Dokumenten (über 77.000 Token) aus Newswire und Broadcast News Reports, in denen die Event -Erwähnungen mit ihrem Grad an Tatsachen kommentiert werden.
- EngagementBank the EngagementBank ist ein Korpus von 1.200 natürlich vorkommenden Diskursen, deren endgültiger Satz ein Prädikat für das Prezika aus dem Abstand enthält (Frage, Modal, Negation, Vorauszug der bedingten).
- UDS Universal Decompositional Semantics Es geschahen Datensatz, deckt die Gesamtheit der englischen universellen Abhängigkeiten v1.2 (EUD1.2) Treebank, ein großer Ereignis -Tatsache -Datensatz, ab.
- DLEF Eine Dokument-Level-Ereignis-Tatsache (DLEF) -DATASET, die die Quelle (Englisch und Chinesisch) enthält, detaillierte Richtlinien für die Tatsache auf Dokument- und Satzebene.
- Ereigniskordeferen
- EZB 1.0 Dieser Korpus besteht aus einer Sammlung von Google-Nachrichtendokumenten, die mit den Coreference-Informationen innerhalb und der Cross-Dokument-Ereignisanmerkungen kommuniziert wurden. Die Dokumente sind gemäß dem Google News -Cluster gruppiert, wobei jede Gruppe von Dokumenten das gleiche wegweisende Ereignis (oder das gleiche Thema) darstellt.
- EECB 1.0 im Vergleich zu EZB 1.0 wird dieser Datensatz in zwei Richtungen erweitert: (i) vollständig kommentierte Sätze und (ii) Entitätskorferenzbeziehungen. Darüber hinaus entfernten Annotatoren andere Beziehungen als die Koreferenz (z. B. Subvention, Zweck, verwandte usw.).
- EZB+ Der EZB+ Corpus ist eine Erweiterung der EZB 1.0. Eine neu hinzugefügte Korpuskomponente besteht aus 502 Dokumenten, die zu den 43 Themen der EZB gehören, die unterschiedliche wegweisende Ereignisse beschreiben, als die bereits in der EZB aufgenommenen EZB.
- Offene Informationsextraktion
- OIE-Benchmark Dieses Repository enthält Code zum Konvertieren von QA-SRL-Annotationen in Open-IE-Extraktionen und zum Vergleich von offenen Parsers mit einem konvertierten Benchmark-Korpus.
- Neuralopenie Ein Trainingsdatensatz von Neuronal Open Information Extraction , ACL 2018. Hier sind insgesamt 36.247.584 HSENTENDE, TUPLEI -Paare, die aus Wikipedia Dump unter Openie4 extrahiert wurden.
- Andere
- Wikilinks hat einen großflächigen Datensatz für Entitäts-Disambiguation von Textfragmenten aus dem Web, das wesentlich laut und herausfordernder ist als vorhandene Nachrichtenbasis-Datensätze.
Inferenz der natürlichen Sprache
- SNLI the SNLI Corpus (Version 1.0) ist eine Sammlung von 570K-menschlich geschriebenen englischen Satzpaaren, die manuell für eine ausgewogene Klassifizierung mit den Beschriftungen, die miteinander verbunden, widerlegt und neutral gekennzeichnet sind und die Aufgabe der Inferenz der Natursprache (NLI) unterstützt (NLI), die auch als Erkennen von Texuellen bekannt ist (RTE).
- Multinli Der Multi-Genre Natural Language Inference (Multinli) Corpus ist eine Crowd-Sourcing-Sammlung von 433K-Satzpaaren, die mit Informationen zu textbezogenen Informationen kommuniziert sind. Das Korpus ist auf dem SNLI-Korpus modelliert, unterscheidet sich jedoch in der Abdeckung einer Reihe von Spitzen- und geschriebenen Textgenres und unterstützt eine unverwechselbare Generalisierungsbewertung der Generalisierung.
- SCITAIL Der Scitail-Datensatz ist ein ausgebildeter Datensatz, das aus Multiple-Choice-Science-Prüfungen und Web-Sätzen erstellt wurde. Die Domain macht diesen Datensatz von früheren Datensätzen unterschiedlich und besteht eher aus sachlichen Sätzen als aus Szenenbeschreibungen.
- Pfoten einen neuen Datensatz mit 108.463 gut geformten Paraphrase und Nicht-Paraphrase-Paaren mit hoher lexikalischer Überlappung. Pfoten: Umschaffung von Gegnern von Wortkrampfen
Kapselnetzwerke
- Investigating Capsule Networks with Dynamic Routing for Text Classification.It show how capsule networks exhibit significant improvement when transfer single-label to multi-label text classification over the competitors
- Attention-Based Capsule Networks with Dynamic Routing for Relation Extraction. They explore the capsule networks used for relation extraction in a multi-instance multi-label learning framework and propose a novel neural approach based on capsule networks with attention mechanisms
- Identifying Aggression and Toxicity in Comments using Capsule Network. 2018. It is early days for Capsule Networks, which was introduced by Geoffrey Hinton, et al., in 2017 as an attempt to introduce an NN architecture superior to the classical CNNs. The idea aims to capture hierarchincal relationships in the input layer through dynamic routing between "capsules" of neurons. Due likely to the affinitity of the theme of addressing hierarchical complexities, the idea's extention to the NLP field has since been a sujbect of active research, such as in the papers listed above.
- Dynamic Routing Between Capsules.They propose an iterative routing-by-agreement mechanism: A lower-level capsule prefers to send its output to higher level capsules whose activity vectors have a big scalar product with the prediction coming from the lower-level capsule
- Matrix Ccapsules With Expectation-Maximization Routing. The transformation matrices of capsule net are trained discriminatively by backpropagating through the unrolled iterations of EM between each pair of adjacent capsule layers
Gesunder Menschenverstand
- ConceptNet ConceptNet is a multilingual knowledge base, representing words and phrases that people use and the common-sense relationships between them.
- Commonsense Knowledge Representation ConceptNet-related resources. Details in Commonsense Knowledge Base Completion. Proc. of ACL, 2016
- ATOMIC, an atlas of everyday commonsense reasoning, organized through 877k textual descriptions of inferential knowledge. ATOMIC focuses on inferential knowledge organized as typed if-then relations with variables.
- SenticNet SenticNet provides a set of semantics, sentics, and polarity associated with 100,000 natural language concepts. SenticNet consists of a set of tools and techniques for sentiment analysis combining commonsense reasoning, psychology, linguistics, and machine learning.
Andere
- QA-SRL This dataset use question-answer pairs to model verbal predicate-argument structure. The questions start with wh-words (Who, What, Where, What, etc.) and contains a verb predicate in the sentence; the answers are phrases in the sentence.
- QA-SRL 2.0 This repository is the reference point for QA-SRL Bank 2.0, the dataset described in the paper Large-Scale QA-SRL Parsing, ACL 2018.
- NEWSROOM CORNELL NEWSROOM is a large dataset for training and evaluating summarization systems. It contains 1.3 million articles and summaries written by authors and editors in the newsrooms of 38 major publications.
- CoNLL 2010 Uncertainty Detection The aim of this task is to identify sentences in texts which contain unreliable or uncertain information. Training Data contains biological abstracts and full articles from the BioScope (biomedical domain) corpus and paragraphs from Wikipedia possibly containing weasel information.
- COLING 2018 automatic identification of verbal MWE Corpora were annotated by human annotators with occurrences of verbal multiword expressions (VMWEs) according to common annotation guidelines. For example, "He picked one up ."
- Scientific NLP
- PubMed 200k RCT PubMed 200k RCT is new dataset based on PubMed for sequential sentence classification. The dataset consists of approximately 200,000 abstracts of randomized controlled trials, totaling 2.3 million sentences.
- Automatic Academic Paper Rating A dataset for automatic academic paper rating (AAPR), which automatically determine whether to accept academic papers. The dataset consists of 19,218 academic papers by collecting data on academic pa- pers in the field of artificial intelligence from the arxiv.
- ACL Title and Abstract Dataset This dataset gathers 10,874 title and abstract pairs from the ACL Anthology Network (until 2016).
- SCIERC A dataset includes annotations for entities, relations, and coreference clusters in scientific articles.
- SciBERT SciBERT is a BERT model trained on scientific text. A broad set of scientific nlp datasets under the data/ directory across ner, parsring, pico and text classification.
- 5AbstractsGroup The dataset contains academic papers from five different domains collected from the Web of Science, namely business, artifical intelligence, sociology, transport and law.
- SciCite A new large dataset of citation intent from Structural Scaffolds for Citation Intent Classification in Scientific Publications
- ACL-ARC A dataset of citation intents in the computational linguistics domain (ACL-ARC) introduced by Measuring the Evolution of a Scientific Field through Citation Frames .
- GASP The dataset consists of list of cited abstracts associated with the corresponding source abstract. The goal is to generete the abstract of a target paper given the abstracts of cited papers.
Contribute Contributions welcome!