Chinesischer und englischer NLP -Datensatz. Sie können klicken, um zu suchen.
Sie können Ihr Strom einbringen, indem Sie Datensatzinformationen hochladen. Nach dem Hochladen von fünf oder mehr Datensätzen und der Überprüfung kann der Student als Projektverträge verwendet werden und zeigt sie an.
ClueAai Toolkit: Drei Minuten und drei Codezeilen, um die NLP -Entwicklung zu vervollständigen (Zero Sample Learning)

Wenn es ein Problem mit dem Datensatz gibt, senden Sie bitte ein Problem.
Alle Datensätze stammen aus dem Internet und sind nur zur einfachen Extraktion organisiert. Wenn es Verstöße oder andere Probleme gibt, kontaktieren Sie uns bitte rechtzeitig, um sie zu löschen.
| AUSWEIS | Titel | Datum aktualisieren | Datensatzanbieter | Lizenz | veranschaulichen | Schlüsselwörter | Kategorie | Papieradresse | Bemerkung |
|---|---|---|---|---|---|---|---|---|---|
| 1 | CCKS2017 Chinesische Identifizierung der elektronischen Fallnamensentität | Mai 2017 | Peking Jimuyun Health Technology Co., Ltd. | Die Daten stammen aus den realen elektronischen Krankenaktendaten der Cloud Hospital -Plattform mit insgesamt 800 Elementen (Einzelbesuchsaufzeichnungen mit Einzelpatienten) und wurden mit Desensibilisierung behandelt. | Elektronische Krankenakte | Genannte Entitätserkennung | chinesisch | ||
| 2 | CCKS2018 Chinesische Identifizierung der chinesischen Personalbeschreibung von Fall | 2018 | Yidu Cloud (Peking) Technology Co., Ltd. | Die Bewertungsaufgabe der Erkennung von Electronic Medical Records -Entitätserkennung von CCKS2018 enthält 600 markierte Texte für elektronische Krankenakten, für die insgesamt fünf Entitäten, einschließlich anatomischer Teile, unabhängiger Symptome, Symptombeschreibungen, Operationen und Arzneimittel, erforderlich sind. | Elektronische Krankenakte | Genannte Entitätserkennung | chinesisch | ||
| 3 | MSRRA -Datensatz für Entitätskindungen im Microsoft Asia Research Institute | MSRA | Die Daten stammen von MSRA, das Kennzeichnungsformular lautet Bio und es gibt insgesamt 46.365 Einträge | MSRA | Genannte Entitätserkennung | chinesisch | |||
| 4 | 1998 People's Daily Corpus Set Entity Identification Annotation Set Set | Januar 1998 | Menschen täglich | Die Datenquelle ist 1998 die tägliche People's Daily und das Kennzeichnungsformular ist Bio mit insgesamt 23.061 Einträgen. | 98 Menschen täglich | Genannte Entitätserkennung | chinesisch | ||
| 5 | Boson | Bosendaten | Die Datenquelle ist Boson, das Kennzeichnungsformular ist BMEO und es gibt insgesamt 2.000 Einträge | Boson | Genannte Entitätserkennung | chinesisch | |||
| 6 | Ahnung Feinkorn Ner | 2020 | HINWEIS | Der Datensatz von Cluener2020 basiert auf dem Textklassifizierungsdatensatz Thuktc der Tsinghua University, der einige Daten für die Annotation für feinkörnige Benennungsentität auswählt. Die ursprünglichen Daten stammen von Sina News RSS. Die Daten enthalten 10 Etikettenkategorien, der Trainingssatz enthält insgesamt 10.748 Korpus und der Verifizierungssatz von insgesamt 1.343 Korpus. | Feinkörnig; Keule | Genannte Entitätserkennung | chinesisch | ||
| 7 | Conll-2003 | 2003 | CNTs - Sprachtechnologiegruppe | Die Daten stammen aus der Conll-2003-Aufgabe, die vier Kategorien, einschließlich Per, loc, org und mis | Conll-2003 | Genannte Entitätserkennung | Papier | Englisch | |
| 8 | Weibo -Entitätserkennung | 2015 | https://github.com/hltcoe/golden-horse | EMNLP-2015 | Genannte Entitätserkennung | ||||
| 9 | Seufhan Bakeoff 2005 | 2005 | MSR/PKU | Bakeoff-2005 | Genannte Entitätserkennung |
| AUSWEIS | Titel | Datum aktualisieren | Datensatzanbieter | Lizenz | veranschaulichen | Schlüsselwörter | Kategorie | Papieradresse | Bemerkung |
|---|---|---|---|---|---|---|---|---|---|
| 1 | Newsqa | 2019/9/13 | Microsoft Research Institute | Der Zweck des Maluuba Newsqa-Datensatzes besteht darin, Forschungsergebnissen zu unterstützen, die Algorithmen aufbauen, die Fragen beantworten können, die Verständnis- und Argumentationsfähigkeiten auf Menschenebene erfordern. Es enthält mehr als 12.000 Nachrichtenartikel und 120.000 Antworten mit durchschnittlich 616 Wörtern pro Artikel und 2 bis 3 Antworten pro Frage. | Englisch | QA | Papier | ||
| 2 | Kader | Stanford | Der Stanford Frage und Antwort -Datensatz (Squad) ist ein Datensatz für das Leseverständnis, das aus Fragen besteht, die auf einer Reihe von Artikeln zu Wikipedia aufgeworfen wurden. Die Antwort auf jede Frage ist ein Textabsatz, der aus dem entsprechenden Leseabschnitt stammen kann, oder die Frage kann unanständig sein. | Englisch | QA | Papier | |||
| 3 | Einfache Frage | Der Datensatz ist ein einfaches einfaches Fragen- und Beantwortungssystem, das auf Speichernetzwerken basiert, und bietet eine Multi-Task-Frage und beantwortete Datensatz mit 100K-Antworten auf einfache Fragen. | Englisch | QA | Papier | ||||
| 4 | Wikiqa | 2016/7/14 | Microsoft Research Institute | Um die tatsächlichen Informationsanforderungen gewöhnlicher Benutzer widerzuspiegeln, verwendet Wikiqa Bing -Abfrageprotokolle als Quelle des Problems. Jede Frage links zu einer Wikipedia -Seite, die Antworten hat. Da der Zusammenfassungsabschnitt der Wikipedia -Seite grundlegende und häufig wichtigste Informationen zu diesem Thema enthält, werden die Sätze in diesem Abschnitt als Kandidatenantworten verwendet. Mit Hilfe von Crowdsourcing enthält der Datensatz 3047 Fragen und 29258 Sätze, von denen 1473 Sätze als Antwort -Sätze für die entsprechende Frage gekennzeichnet sind. | Englisch | QA | Papier | ||
| 5 | CMEDQA | 2019/2/25 | Zhang Sheng | Die Daten aus dem medizinischen Online -Forum enthalten 54.000 Fragen und die entsprechenden ungefähr 100.000 Antworten. | chinesisch | QA | Papier | ||
| 6 | CMEDQA2 | 2019/1/9 | Zhang Sheng | Die erweiterte Version von CMEDQA enthält etwa 100.000 medizinische Fragen und entsprechende etwa 200.000 Antworten. | chinesisch | QA | Papier | ||
| 7 | Webmedqa | 2019/3/10 | Er Junqing | Eine medizinische Online -Frage- und Beantwortung des Datensatzes mit 60.000 Fragen und 310.000 Antworten und enthält die Kategorien von Fragen. | chinesisch | QA | Papier | ||
| 8 | XQA | 2019/7/29 | Tsinghua Universität | Dieser Artikel erstellt hauptsächlich eine geöffnete offene Frage und beantwortete Datensatz für offene Frage und Antwort. Der Datensatz (Trainingssatz, Testsatz) enthält hauptsächlich neun Sprachen und mehr als 90.000 Fragen und Antworten. | Mehrsprachig | QA | Papier | ||
| 9 | Amazonqa | 2019/9/29 | Amazonas | Die Carnegie Mellon University schlug eine kommentarische QA-Modellaufgabe vor, die auf die Schmerzpunkte wiederholter Antworten auf Fragen auf der Amazon-Plattform reagierte, dh unter Verwendung früherer Q & A zur Beantwortung eines bestimmten Produkts fasst das QA-System automatisch eine Antwort an Kunden zusammen. | Englisch | QA | Papier | ||
| 9 | Amazonqa | 2019/9/29 | Amazonas | Die Carnegie Mellon University schlug eine kommentarische QA-Modellaufgabe vor, die auf die Schmerzpunkte wiederholter Antworten auf Fragen auf der Amazon-Plattform reagierte, dh unter Verwendung früherer Q & A zur Beantwortung eines bestimmten Produkts fasst das QA-System automatisch eine Antwort an Kunden zusammen. | Englisch | QA | Papier |
| AUSWEIS | Titel | Datum aktualisieren | Datensatzanbieter | Lizenz | veranschaulichen | Schlüsselwörter | Kategorie | Papieradresse | Bemerkung |
|---|---|---|---|---|---|---|---|---|---|
| 1 | NLPCC2013 | 2013 | CCF | Weibo Corpus, gekennzeichnet mit 7 Emotionen: wie Ekel, Glück, Traurigkeit, Wut, Überraschung, Angst. Größe: 14 000 Weibo Posts, 45 431 Sätze | NLPCC2013, Emotion | Stimmungsanalyse | Papier | ||
| 2 | NLPCC2014 Task1 | 2014 | CCF | Weibo Corpus, gekennzeichnet mit 7 Emotionen: wie Ekel, Glück, Traurigkeit, Wut, Überraschung, Angst. Größe: 20.000 Weibo Posts | NLPCC2014, Emotion | Stimmungsanalyse | |||
| 3 | NLPCC2014 Task2 | 2014 | CCF | Weibo Corpus mit positivem und negativem Kennzeichen markiert | NLPCC2014, Gefühl | Stimmungsanalyse | |||
| 4 | Weibo Emotion Corpus | 2016 | Die Hongkong Polytechnic University | Weibo Corpus, gekennzeichnet mit 7 Emotionen: wie Ekel, Glück, Traurigkeit, Wut, Überraschung, Angst. Größe: Mehr als 40.000 Weibo -Posts | Weibo Emotion Corpus | Stimmungsanalyse | Konstruktion von Emotion Corpus basierend auf der Auswahl aus lauten natürlichen Etiketten | ||
| 5 | [Rencecps] (Fuji Ren kann für eine Lizenzvereinbarung kontaktiert werden ([email protected]).) | 2009 | Fuji Ren | Der kommentierte Blog -Korpus, der auf Dokumentenebene, Absatzebene und Satzebene mit Emotion und Gefühl gekennzeichnet ist. Es enthält 1500 Blogs, 11000 Absätze und 35000 Sätze. | Rencecps, Emotion, Gefühl | Stimmungsanalyse | Konstruktion eines Blog -Emotionskorpus für die chinesische emotionale Ausdrucksanalyse | ||
| 6 | Weibo_Senti_100K | Unbekannt | Unbekannt | Tag die Sina Weibo mit Emotionen, und es gibt jeweils ungefähr 50.000 positive und negative Kommentare | Weibo Senti, Gefühl | Stimmungsanalyse | |||
| 7 | BDCI2018-Automobile Branchenbenutzermeinungen und emotionale Anerkennung | 2018 | CCF | Kommentare zu Autos im Automobilforum markieren die Themen der Poesie des Autos: Kraft, Preis, Innenraum, Konfiguration, Sicherheit, Aussehen, Handhabung, Kraftstoffverbrauch, Raum und Komfort. Jedes Thema ist mit emotionalen Beschriftungen gekennzeichnet, und die Emotionen sind in 3 Kategorien unterteilt, wobei die Zahlen 0, 1 bzw. -1 neutral, positiv und negativ darstellen. | Attribute Sentiment Analysis Theme Sentiment Analyse | Stimmungsanalyse | |||
| 8 | AI Challenger feinkörniger Benutzerkommentare Stimmungsanalyse | 2o18 | Meituan | Catering Reviews, 6 Attribute der ersten Ebene, 20 Attribute auf zweiter Ebene, jedes Attribut ist positiv, negativ, neutral und nicht erwähnt. | Attributgefühlanalyse | Stimmungsanalyse | |||
| 9 | BDCI2019 Finanzinformationen Negative und Subjektbestimmung | 2019 | Zentralbank | Finanzielle Feldnachrichten, jedes Beispiel markiert die Liste der Unternehmen sowie die Liste der negativen Unternehmen. Die Aufgabe besteht darin, festzustellen, ob eine Probe negativ und die entsprechende negative Entität ist. | Entitätsgefühleanalyse | Stimmungsanalyse | |||
| 10 | Zhijiang Cup E-Commerce Review und Meinungsgrabenwettbewerb | 2019 | Zhijiang Labor | Die Aufgabe, die Meinungen von Markenüberprüfungen zu untersuchen, besteht darin, Produktattributmerkmale und Meinungen der Verbraucher aus Produktbewertungen zu extrahieren und ihre emotionale Polaritäts- und Attributtypen zu bestätigen. Für ein bestimmtes Attributmerkmal eines Produkts gibt es eine Reihe von Meinungswörtern, die es beschreiben, die die Ansichten der Verbraucher zur Attributfunktion darstellen. Jeder Satz von {Produktattributmerkmalen, Verbrauchermeinung}, hat eine entsprechende emotionale Polarität (negativ, neutral, positiv), was die Zufriedenheit des Verbrauchers mit diesem Attribut darstellt. Darüber hinaus können mehrere Attributfunktionen in einen bestimmten Attributtyp eingeteilt werden, z. B. das Erscheinungsbild, das Kästchen und andere Attributfunktionen können in den Attributtyp des Verpackung eingeteilt werden. Die teilnehmenden Teams senden schließlich die extrahierten Vorhersageinformationen der Testdaten, einschließlich vier Felder: Attribut -charakteristisches Wort, Meinungswort, Meinungspolarität und Attributtyp. | Attributgefühlanalyse | Stimmungsanalyse | |||
| 11 | 2019 Sohu Campus -Algorithmuswettbewerb | 2019 | Sohu | In mehreren Artikeln ist es das Ziel, die Kerneinheit des Artikels und seine emotionale Einstellung gegenüber der Kerneinheit zu beurteilen. Jeder Artikel identifiziert bis zu drei Kerneinheiten und bestimmt die emotionalen Tendenzen des Artikels zu den oben genannten Kerneinheiten (positiv, neutral und negativ). Entität: Personen, Objekte, Regionen, Institutionen, Gruppen, Unternehmen, Branchen, bestimmte bestimmte Ereignisse usw. werden festgelegt und können als Entitätswort für das Thema des Artikels verwendet werden. Kernentität: Das Entitätswort, das hauptsächlich als Hauptaufgabe des Artikels beschreibt oder wirkt. | Entitätsgefühleanalyse | Stimmungsanalyse |
| AUSWEIS | Titel | Datum aktualisieren | Datensatzanbieter | Lizenz | veranschaulichen | Schlüsselwörter | Kategorie | Papieradresse | Bemerkung |
|---|---|---|---|---|---|---|---|---|---|
| 1 | [2018 "Daguan Cup" Text Intelligent Processing Challenge] (https://www.pkbigdata.com/common/cmpt/ "Daguan Cup" Text Intelligent Processing Challenge_shiti und Data.html) | Juli 2018 | Optimistische Daten | Der Datensatz stammt aus optimistischen Daten und ist eine lange Textklassifizierungsaufgabe. Es enthält hauptsächlich vier Felder: ID, Artikel, Word_seg und Klasse. Die Daten enthalten 19 Kategorien mit insgesamt 102.275 Proben. | Langer Text; Desensibilisierung | Textklassifizierung | chinesisch | ||
| 2 | Die heutige Schlagzeile Chinesische Nachrichten (Text) Kategorie | Mai 2018 | Die heutigen Schlagzeilen | Der Datensatz stammt heute von Toutiao und ist eine kurze Textklassifizierungsaufgabe. Die Daten enthalten 15 Kategorien mit insgesamt 382.688 Proben. | kurzer Text; Nachricht | Textklassifizierung | chinesisch | ||
| 3 | Thucnews Chinesische Textklassifizierung | 2016 | Tsinghua Universität | Thucnews wird auf der Grundlage der historischen Datenfilterung und Filterung des RSS-Abonnementkanals von Sina News RSS zwischen 2005 und 2011 generiert und befindet sich im UTF-8-Klartextformat. Basierend auf dem ursprünglichen Sina News -Klassifizierungssystem haben wir 14 Kategorien der Kandidatenklassifizierung wieder integriert und geteilt: Finanzierung, Lotterie, Immobilien, Aktien, Haushalt, Bildung, Technologie, Gesellschaft, Mode, aktuelle Angelegenheiten, Sport, Zodiac -Zeichen, Spiele und Unterhaltung mit insgesamt 740.000 Nachrichtenunterlagen (2.19 GB). | Dokumentation; Nachricht | Textklassifizierung | chinesisch | ||
| 4 | Fudan University Chinesische Textklassifizierung | Natural Language Processing Group, Abteilung für Computerinformationen und Technologie, Fudan University, Internationales Datenbankzentrum | Der Datensatz stammt von der Fudan University und ist eine kurze Textklassifizierungsaufgabe. Die Daten enthalten 20 Kategorien mit insgesamt 9.804 Dokumenten. | Dokumentation; Nachricht | Textklassifizierung | chinesisch | |||
| 5 | Nachrichten Titel kurze Textklassifizierung | Dezember 2019 | Chenfengshf | CC0 Public Domain Sharing | Der Datensatz ist von der KESCI -Plattform abgeleitet und ist eine kurze Textklassifizierungsaufgabe für das Feld des Nachrichtentitels. Der größte Teil des Inhalts ist ein kurzer Texttitel (Länge <50). Die Daten enthalten 15 Kategorien, insgesamt 38 W -Proben | Kurzer Text; Nachrichten Titel | Textklassifizierung | chinesisch | |
| 6 | 2017 Zhihu Kanshan Cup Machine Learning Challenge | Juni 2017 | Chinesische Gesellschaft für künstliche Intelligenz; Zhihu | Der Datensatz stammt von Zhihu, bei dem es sich um annotierte Daten für die Bindungsbeziehung zwischen der Frage und den Themen -Tags handelt. Jede Frage enthält 1 oder mehr Tags mit insgesamt 1.999 Tags, die insgesamt 3 Millionen Fragen enthalten. | Frage; kurzer Text | Textklassifizierung | chinesisch | ||
| 7 | 2019 Zhijiang Cup - E -Commerce Review Opinion Mining Competition | August 2019 | Zhijiang Labor | Die Aufgabe, die Meinungen von Markenüberprüfungen zu untersuchen, besteht darin, Produktattributmerkmale und Meinungen der Verbraucher aus Produktbewertungen zu extrahieren und ihre emotionale Polaritäts- und Attributtypen zu bestätigen. Für ein bestimmtes Attributmerkmal eines Produkts gibt es eine Reihe von Meinungswörtern, die es beschreiben, die die Ansichten der Verbraucher zur Attributfunktion darstellen. Jede Gruppe von {Produktattributmerkmalen, Verbrauchermeinung}, hat eine entsprechende emotionale Polarität (negativ, neutral, positiv), was den Grad der Zufriedenheit der Verbraucher mit diesem Attribut darstellt. | Kommentare; kurzer Text | Textklassifizierung | chinesisch | ||
| 8 | Iflytek 'lange Textklassifizierung | Iflytek | Dieser Datensatz enthält mehr als 17.000 lange Textdaten mit Daten über App -Anwendungsbeschreibungen, einschließlich verschiedener Anwendungsthemen im Zusammenhang mit der täglichen Lebensdauer, mit insgesamt 119 Kategorien | Langer Text | Textklassifizierung | chinesisch | |||
| 9 | Nachrichtenklassifizierungsdaten im gesamten Netzwerk (SOGOUCA) | 16. August 2012 | SOGOU | Diese Daten stammen aus Nachrichtendaten aus 18 Kanälen, darunter von Juni bis Juli 2012, 2012, insgesamt, international, sportlich, sozial, unterhaltsam usw. | Nachricht | Textklassifizierung | chinesisch | ||
| 10 | Sohu Nachrichtendaten (SOGOUCS) | August 2012 | SOGOU | Die Datenquelle ist Sohu News von 18 Kanälen, darunter von Juni bis Juli 2012 inländisch, international, sportlich, sozial, Unterhaltung usw. | Nachricht | Textklassifizierung | chinesisch | ||
| 11 | Corpus der University of Science and Technology News Classification Corpus | November 2017 | Liu Yu Institute of Automation, Chinesische Akademie der Wissenschaften umfassendes Informationszentrum | Ich kann vorerst nicht herunterladen, ich habe den Autor kontaktiert und auf Feedback gewartet | Nachricht | ||||
| 12 | CHNSENTICORP_HTL_ALL | März 2018 | https://github.com/sophonplus/chinesenlpcorpus | Mehr als 7000 Hotelüberprüfungsdaten, mehr als 5000 positive Bewertungen, mehr als 2000 negative Bewertungen | |||||
| 13 | Waimai_10K | März 2018 | https://github.com/sophonplus/chinesenlpcorpus | Benutzerbewertungen, die von einer bestimmten Takeaway -Plattform gesammelt wurden, sind 4.000 positiv und etwa 8.000 negativ. | |||||
| 14 | Online_SHOPPING_10_CATS | März 2018 | https://github.com/sophonplus/chinesenlpcorpus | Es gibt 10 Kategorien mit insgesamt mehr als 60.000 Kommentaren und etwa 30.000 positiven und negativen Kommentaren, darunter Bücher, Tabletten, Mobiltelefone, Früchte, Shampoo, Warmwasserbereiter, Mengeniu, Kleidung, Computer, Hotels | |||||
| 15 | Weibo_Senti_100K | März 2018 | https://github.com/sophonplus/chinesenlpcorpus | Mehr als 100.000 Stücke, gekennzeichnet mit Emotionen auf Sina Weibo, und jeweils etwa 50.000 positive und negative Kommentare | |||||
| 16 | SimplifyWeibo_4_Moods | März 2018 | https://github.com/sophonplus/chinesenlpcorpus | Mehr als 360.000 Stücke, die mit Emotionen auf Sina Weibo gekennzeichnet sind, enthält 4 Arten von Emotionen, darunter etwa 200.000 Freudenstücke, etwa 50.000 Stücke Wut, Ekel und Depressionen. | |||||
| 17 | DMSC_V2 | März 2018 | https://github.com/sophonplus/chinesenlpcorpus | 28 Filme, über 700.000 Benutzer, über 2 Millionen Bewertungen/Kommentare Daten | |||||
| 18 | yf_dianping | März 2018 | https://github.com/sophonplus/chinesenlpcorpus | 240.000 Restaurants, 540.000 Benutzer, 4,4 Millionen Kommentare/Bewertungsdaten | |||||
| 19 | yf_amazon | März 2018 | https://github.com/sophonplus/chinesenlpcorpus | 520.000 Artikel, mehr als 1.100 Kategorien, 1,42 Millionen Benutzer, 7,2 Millionen Kommentare/Bewertungsdaten |
| AUSWEIS | Titel | Datum aktualisieren | Datensatzanbieter | Lizenz | veranschaulichen | Schlüsselwörter | Kategorie | Papieradresse | Bemerkung |
|---|---|---|---|---|---|---|---|---|---|
| 1 | LCQMC | 2018/6/6 | Das intelligente Computerforschungszentrum des Harbin Institute of Technology (Shenzhen) | Creative Commons Attribution 4.0 Internationale Lizenz | Dieser Datensatz enthält 260.068 chinesische Fragenpaare aus mehreren Feldern. Die Satzpaare mit der gleichen Anfrageabsicht sind als 1 gekennzeichnet, ansonsten sind sie 0; und sie sind in den Trainingssatz unterteilt: 238.766 Paare, Validierungssatz: 8802 Paare, Testsatz: 12.500 Paare. | Groß angelegte Frage-Matching; Absicht Matching | Kurzer Textübereinstimmung; Frage Matching | Papier | |
| 2 | Der BQ Corpus | 2018/9/4 | Harbin Institute of Technology (Shenzhen) Intelligent Computing Research Center; Webank | In diesem Datensatz gibt es 120.000 Haftpaare aus dem Beratungsdienstprotokoll der Bank für ein Jahr. Satzpaare enthalten unterschiedliche Absichten, markiert mit einem Verhältnis von 1: 1 -positiven und negativen Proben. | Fragen zur Bankdienstleistung; Absicht Matching | Kurzer Textübereinstimmung; Fragenkonsistenzerkennung | Papier | ||
| 3 | AFQMC Ant Financial Semantic Ähnlichkeit | 2018/4/25 | Ameisen finanziell | Stellen Sie 100.000 Paare mit markierten Daten (in Stapeln aktualisiert, aktualisiert) als Trainingsdaten an, einschließlich Synonympaare und verschiedenen Paaren | Finanzielle Fragen | Kurzer Textübereinstimmung; Frage Matching | |||
| 4 | Der dritte Paipaidai "Magic Mirror Cup" -Wettbewerb | 2018/6/10 | Paipaidai Smart Finance Research Institute | Die train.csv -Datei enthält 3 Spalten, nämlich das Etikett (Etikett, was bedeutet, ob Frage 1 und Frage 2 das gleiche bedeuten, 1 bedeutet das gleiche und 0 die Differenz), die Anzahl der Frage 1 (Q1) und die Anzahl der Frage 2 (Q2). Alle in dieser Datei angezeigten Problemnummern sind in Frage erschien. CSV | Finanzprodukte | Kurzer Textübereinstimmung; Frage Matching | |||
| 5 | CAIL2019 Ähnliches Fall Matching -Wettbewerb | 2019/6 | Universität Tsinghua; China Urteilsnetzwerk dokumentiert das Netzwerk | Für jede Daten werden Tripletts (a, b, c) verwendet, um die Daten darzustellen, wobei A, B, C alle einem bestimmten Dokument entsprechen. Die Ähnlichkeit zwischen den Dokumentendaten A und B ist immer größer als die Ähnlichkeit zwischen A und B, dh SIM (A, B)> SIM (A, C) | Rechtsdokumente; Ähnliche Fälle | Langer Textübereinstimmung | |||
| 6 | CCKs 2018 Webank Intelligent Kundendienstfragebetechnungswettbewerb | 2018/4/5 | Harbin Institute of Technology (Shenzhen) Intelligent Computing Research Center; Webank | Fragen zur Bankdienstleistung; Absicht Matching | Kurzer Textübereinstimmung; Frage Matching | ||||
| 7 | Chinesetextualinference | 2018/12/15 | Liu Huanyong, Institut für Softwareforschung, Chinesische Akademie der Wissenschaften | Chinesisches Textinferenzprojekt, einschließlich der Übersetzung und Konstruktion von 880.000 texthaltigen chinesischen texthaltigen Datensätzen und der Konstruktion von texthaltigem Urteilsmodell basierend auf Deep Learning | Chinesische NLI | Chinesische Textinferenz; Texteinschluss | |||
| 8 | NLPCC-DBQA | 2016/2017/2018 | NLPCC | Gegebene Frage - die Marke der Antwort und ob diese Antwort eine der Antworten auf die Frage ist, bedeutet ja, 0 bedeutet Nein, nein | DBQA | Q & A -Match | |||
| 9 | Berechnungsmodell für die Korrelation zwischen "technischen Anforderungen" und "technischen Errungenschaften" Projekte | 201/8/32 | CCF | Die technischen Anforderungen und technischen Leistungen in einem bestimmten Textformular sowie das Korrelationsetikett zwischen Anforderungen und Ergebnissen; Die Korrelation zwischen technischen Anforderungen und technischen Leistungen ist in vier Ebenen unterteilt: starke Korrelation, starke Korrelation, schwache Korrelation und keine Korrelation | Langer Text; Anforderungen entsprechen den Ergebnissen | Langer Textübereinstimmung | |||
| 10 | CNSD/CLUE-CMNLI | 2019/12 | Zengjunjun | Datensatz des chinesischen Inferenz in der natürlichen Sprache, diese Daten und der ursprüngliche englische Datensatz werden durch Übersetzung und Teil der manuellen Korrektur generiert, wodurch das Problem der unzureichenden chinesischen Inferenz und der semantischen Ähnlichkeitsberechnungsdatensätze in gewissem Maße lindern können. | Chinesische NLI | Inferenz der chinesischen natürlichen Sprache | Papier | ||
| 11 | CMEDQA V1.0 | 2017/4/5 | Xunyao xunyi.com und die School of Information Systems und das Management der National University of Defense Technology | Der Datensatz ist die Frage und Antworten, die auf der Xunyi Xunpharma -Website gestellt werden. Der Datensatz wurde anonym verarbeitet und enthält 50.000 Fragen und 94.134 Antworten im Trainingssatz, wobei eine durchschnittliche Anzahl von Zeichen pro Frage und Antworten 120 bzw. 212 beträgt. Der Verifizierungssatz hat 2.000 Fragen und 3.774 Antworten, wobei eine durchschnittliche Anzahl von Zeichen pro Frage und Antworten 117 bzw. 212 beträgt. Der Testsatz hat 2.000 Fragen und 3.835 Antworten, wobei eine durchschnittliche Anzahl von Zeichen pro Frage und Antwort 119 bzw. 211 beträgt. Der Datensatz hat 54.000 Fragen und 101.743 Antworten, wobei eine durchschnittliche Anzahl von Zeichen pro Frage und Antwort 119 bzw. 212 beträgt. | Medizinisches Q & A -Spiel | Q & A -Match | Papier | ||
| 12 | CMEDQA2 | 2018/11/8 | Xunyao xunyi.com und die School of Information Systems und das Management der National University of Defense Technology | Die Quelle dieses Datensatzes sind die Fragen und Antworten, die auf der Xunyi Xunpharma -Website gestellt wurden. Der Datensatz wurde anonym verarbeitet und bietet eine Sammlung von 100.000 Fragen und 188.490 Antworten im Trainingssatz, wobei eine durchschnittliche Anzahl von Zeichen pro Frage und Antworten 48 bzw. 101 beträgt. Der Verifizierungssatz hat 4.000 Fragen und 7.527 Antworten, wobei eine durchschnittliche Anzahl von Zeichen pro Frage und Antwort 49 bzw. 101 beträgt. Der Testsatz hat 4.000 Fragen und 7.552 Antworten, wobei eine durchschnittliche Anzahl von Zeichen pro Frage und Antwort 49 bzw. 100 beträgt. Die Gesamtzahl der Zeichen pro Frage und Antwort beträgt 108.000 Fragen und 203.569 Antworten, wobei eine durchschnittliche Anzahl von Charakteren pro Frage und Antwort 49 bzw. 101 beträgt. | Medizinisches Q & A -Spiel | Q & A -Match | Papier | ||
| 13 | Chinesests | 2017/9/21 | Tang Shanchg, Bai Yunyue, Ma Fuyu. Xi'an Universität für Wissenschaft und Technologie | Dieser Datensatz enthält 12747 Paar chinesische ähnliche Datensätze. Nach dem Datensatz geben die Autoren ihre Ähnlichkeitsbewertungen an, und der Korpus besteht aus kurzen Sätzen. | Ähnlichkeitsübereinstimmung mit kurzer Satzung | Ähnlichkeitsübereinstimmung | |||
| 14 | Datensatz der medizinischen Themen Ähnlichkeitsmessung Wettbewerb von der China Health Information Processing Conference abgehalten | 2018 | CHIP 2018-Die 4. China Health Information Processing Conference (CHIP) | Das Hauptziel dieser Bewertungsaufgabe ist es, die Absicht von Fragen zu entsprechen, die auf dem echten chinesischen Patienten mit der Gesundheitsberatung von Patienten beruhen. Bei zwei Aussagen muss festgestellt werden, ob die Absichten der beiden gleich oder ähnlich sind. Alle Corpus stammen aus echten Fragen von Patienten im Internet und wurden überprüft und künstliche Absichten passende Etiketten. Der Datensatz wurde desensibilisiert, und das Problem wird durch den Trainingssatz für digitale Indikationen gekennzeichnet, enthält etwa 20.000 markierte Daten (desensibilisiert, einschließlich Satzzeichen), und der Testsatz enthält etwa 10.000 markierungsfreie Daten (desensibilisiert, einschließlich Satzzeichen> Symbole). | Ähnlichkeitsübereinstimmung für medizinische Probleme | Ähnlichkeitsübereinstimmung | |||
| 15 | COS960: Ein chinesisches Wort Ähnlichkeitsdatensatz von 960 Wortpaaren | 2019/6/6 | Tsinghua Universität | Der Datensatz enthält 960 Wörterpaare, und jedes Paar wird von 15 Muttersprachlern gemessen. Die 960 Wortpaare sind gemäß dem Etikett in drei Gruppen aufgeteilt, darunter 480 Substantionspaare, 240 Verbenpaare und 240 Adjektivpaare. | Ähnlichkeit zwischen Wörtern | Synonyme | Papier | ||
| 16 | OPPO Mobile Search Sortier-Sortier-Title Semantic Matching Dataset. (https://pan.baidu.com/s/1hg2Hubsn3Geuu4gubbhcZW Passwort 7p3n) | 2018/11/6 | Oppo | Dieser Datensatz stammt aus dem Echtzeit-Suchszenario der OPPO-Mobiltelefonsuche-Sortieroptimierung. Dieses Szenario gibt die Abfrageergebnisse in Echtzeit zurück, wenn der Benutzer kontinuierlich eintritt. Dieser Datensatz wurde auf dieser Grundlage entsprechend vereinfacht und liefert eine semantische Abfrage-Title-Matching, dh das Problem der CTR-Vorhersage. | FRAGE TITEL Matching, CTR -Vorhersage | Ähnlichkeitsübereinstimmung | |||
| 17 | Web -Suchergebnisse Evaluierung (SOGUE) | 2012 | SOGOU | SOGOU -Labor -Datenlizenzvereinbarung | Dieser Datensatz enthält Abfragebegriffe, verwandte URLs und Suchdaten für Abfragekategorien. Das Format lautet wie folgt: Abfragen Begriffe] TRELATED URLS TQUERY -Kategorie, in der URLs im entsprechenden Internet -Korpus garantiert existieren; "1" in der Abfragekategorie repräsentiert die Navigationsabfrage; "2" repräsentiert Informationsabfrage. | Automatische Suchmaschinenleistung Evaluation mit Klick-Durchgänge-Datenanalyse | Abfragetyp Matching Prediction |
| AUSWEIS | Titel | Datum aktualisieren | Datensatzanbieter | Lizenz | veranschaulichen | Schlüsselwörter | Kategorie | Papieradresse | Bemerkung |
|---|---|---|---|---|---|---|---|---|---|
| 1 | Lcsts | 2015/8/6 | Qingcai Chen | Der Datensatz stammt aus Sina Weibo und enthält ungefähr zwei Millionen reale chinesische kurze Texte. Jede Daten enthält zwei vom Autor kommentierte Felder, abstrakt und Text. Es gibt 10.666 Daten, die die Korrelation zwischen dem kurzen Text und der Zusammenfassung manuell gekennzeichnet sind, und die Korrelationen werden wiederum von 1 auf 5 erhöht. | Einzeltextzusammenfassung; kurzer Text; Textrelevanz | Textzusammenfassung | Papier | ||
| 2 | Chinesischer Kurztext Zusammenfassung Datensatz | 2018/6/20 | Er Zhengfinang | Die Daten stammen von Weibo, veröffentlicht von Sina Weibo Mainstream Media mit insgesamt 679.898 Daten. | Einzeltextzusammenfassung; kurzer Text | Textzusammenfassung | |||
| 3 | Bildungs- und Schulungsbranche abstrakte automatische abstrakte chinesische Korpus | 2018/6/5 | anonym | Das Corpus sammelt historische Artikel aus vertikalen Mainstream -Medien in der Bildungs- und Schulungsbranche mit rund 24.500 Daten, wobei jede Daten, einschließlich zwei vom Autor und dem Körper, kommentierten Felder. | Einzeltextzusammenfassung; Schul-und Berufsbildung | Textzusammenfassung | |||
| 4 | NLPCC2017 Task3 | 2017/11/8 | NLPCC2017 Organizer | Der Datensatz wird aus dem Nachrichtenfeld abgeleitet und ist eine von NLPCC 2017 bereitgestellte Aufgabendaten und kann für die Zusammenfassung der Einzeltext verwendet werden. | Einzeltextzusammenfassung; Nachricht | Textzusammenfassung | |||
| 5 | SHENCE CUP 2018 | 2018/10/11 | DC -Wettbewerb Organisator | Die Daten stammen aus Nachrichtentext und werden vom DC -Wettbewerbsorganisator bereitgestellt. Es simuliert Geschäftsszenarien und zielt darauf ab, Kernwörter aus Nachrichtentexten zu extrahieren. Das Endergebnis besteht darin, die Auswirkung von Empfehlungen und Benutzerporträts zu verbessern. | Textschlüsselwörter; Nachricht | Textzusammenfassung | |||
| 6 | Byte Cup 2018 Internationales maschinelles Lernenwettbewerb | 2018/12/4 | Bytedance | Die Daten stammen aus den Topbuzz- und Open -Copyright -Artikeln von Bytedance. Der Trainingssatz enthält rund 1,3 Millionen Textinformationen, 1.000 Artikel im Bestätigungssatz und 800 Artikel im Testsatz. Daten für jeden Testsatz und Validierungssatz werden manuell mit mehreren möglichen Titeln als Antwortalternative über manuelle Bearbeitung gekennzeichnet. | Einzeltextzusammenfassung; Video; Nachricht | Textzusammenfassung | Englisch | ||
| 7 | Newsroom | 2018/6/1 | Grusky | Die Daten wurden von Such- und Social -Metadaten von 1998 bis 2017 erhalten und verwendeten eine Kombination von abstrakten Strategien, die Extraktion und Abstraktion kombinieren, darunter 1,3 Millionen Artikel und Abstracts, die vom Autor und Herausgeber in 38 Hauptveröffentlichungsabteilungen geschrieben wurden. | Einzeltextzusammenfassung; soziale Metadaten; suchen | Textzusammenfassung | Papier | Englisch | |
| 8 | [Duc/tac] (https://duc.nist.gov/ https://tac.nist.gov//)) | 2014/9/9 | NIST | Der vollständige Name ist Dokumentverständniskonferenzen/Textanalysekonferenz. Der Datensatz stammt aus Nachrichtenlinien und Webtexten im Korpus, das im jährlichen TAC KBP (TAC Knowledge Base Population) verwendet wird. | Einzeltext/Multi-Text-Zusammenfassung; Nachricht | Textzusammenfassung | Englisch | ||
| 9 | CNN/Daily Mail | 2017/7/31 | Standford | GNU V3 | Der Datensatz stammt von CNN und DailyMail auf Mobiltelefonen etwa eine Million Nachrichtendaten als Korpus des Maschinenlesungverständnisses. | Multi-Text-Zusammenfassung; langer Text; Nachricht | Textzusammenfassung | Papier | Englisch |
| 10 | Amazon Snap Review | 2013/3/1 | Standford | Die Daten stammen von den Einkaufsbewertungen von Amazon -Website und Sie können Daten in jeder Hauptkategorie (z. B. Lebensmittel, Filme usw.) oder alle Daten auf einmal erhalten. | Multi-Text-Zusammenfassung; Einkaufsbewertungen | Textzusammenfassung | Englisch | ||
| 11 | Gigaword | 2003/1/28 | David Graff, Christopher Cieri | Der Datensatz enthält etwa 950.000 Nachrichtenartikel, die vom Artikeltitel abstrahiert werden und zum Datensatz mit einem Satz Zusammenfassung gehören. | Einzeltextzusammenfassung; Nachricht | Textzusammenfassung | Englisch | ||
| 12 | Ra-mds | 2017/9/11 | Piji li | Der vollständige Name ist eine multi-dokument-Zusammenfassung der Leser. Der Datensatz wird aus Nachrichtenartikeln abgeleitet und von Experten gesammelt, markiert und überprüft. 45 Themen werden behandelt, jeweils 10 Nachrichtendokumente und 4 Modellzusammenfassung. Jedes Nachrichtendokument enthält durchschnittlich 27 Sätze und durchschnittlich 25 Wörter pro Satz. | Multi-Text-Zusammenfassung; Nachricht; manuelle Etikettierung | Textzusammenfassung | Papier | Englisch | |
| 13 | Tipper Summe | 2003/5/21 | Die Mitre Corporation und die Universität von Edinburgh | Die Daten bestehen aus 183 Dokumenten, die durch Berechnung und Sprache (CMP-LG) -Kollektion gekennzeichnet sind, und die Dokumente stammen aus den von der ACL-Konferenz veröffentlichten Artikel. | Multi-Text-Zusammenfassung; langer Text | Textzusammenfassung | Englisch | ||
| 14 | Wikihow | 2018/10/18 | Mahnaz Koupaee | Jeder Daten ist ein Artikel, jeder Artikel besteht aus mehreren Absätzen. Jeder Absatz beginnt mit einem Satz, der ihn zusammenfasst. Durch Zusammenführen von Absätzen zur Bildung von Artikeln und Absätzen zur Bildung von Abstracts enthält die endgültige Version des Datensatzes mehr als 200.000 lange Sequenzpaare. | Multi-Text-Zusammenfassung; langer Text | Textzusammenfassung | Papier | Englisch | |
| 15 | Multi-News | 2019/12/4 | Alex Fabbri | Die Daten stammen aus Eingabeartikeln von über 1500 verschiedenen Websites und professionelle Zusammenfassung von 56.216 dieser Artikel, die von der Website tokaSer.com erhalten wurden. | Multi-Text-Zusammenfassung | Textzusammenfassung | Papier | Englisch | |
| 16 | MED -Zusammenfassungen | 2018/8/17 | D.Potapov | Der Datensatz wird für die dynamische Videoübersichtsbewertung verwendet und enthält Annotationen für 160 Videos, einschließlich 60 Validierungssätze, 100 Testsätze und 10 Ereigniskategorien im Testsatz. | Einzeltextzusammenfassung; Videokommentare | Textzusammenfassung | Papier | Englisch | |
| 17 | Groß | 2019/7/27 | Sharma | Der Datensatz enthält 1,3 Millionen US -Patentdokumendokumenten und menschliche schriftliche Abstracts, die reichhaltigere Diskursstrukturen und häufiger verwendete Unternehmen enthalten. | Einzeltextzusammenfassung; Patent; geschrieben | Textzusammenfassung | Papier | Englisch | |
| 18 | [NYT] (https://catalog.ldc.upenn.edu/ldc2008t19) | 2008/10/17 | Evan Sandhaus | Der vollständige Name ist die New York Times, der Datensatz enthält 150 kommerzielle Artikel der New York Times und erfasst alle Artikel auf der New York Times -Website von November 2009 bis Januar 2010. | Einzeltextzusammenfassung; Geschäftsartikel | Textzusammenfassung | Englisch | ||
| 19 | Der Aquaint Corpus des englischen Nachrichtentextes | 2002/9/26 | David Graff | Der Datensatz besteht aus englischen Nachrichtentextdaten der Xinhua -Nachrichtenagentur (Volksrepublik China), New York Times News Service und Associated Press World News Service und enthält ungefähr 375 Millionen Wörter. Datensatzgebühren. | Einzeltextzusammenfassung; Nachricht | Textzusammenfassung | Chinesisch und Englisch | ||
| 20 | Rechtsberichte Datensatz | 2012/10/19 | Filippo Galgani | Der Datensatz stammt von den australischen Rechtsfällen des Bundesgerichts von Australien (FCA) von 2006 bis 2009 und enthält ungefähr 4.000 Rechtsfälle und ihre Zusammenfassung. | Einzeltextzusammenfassung; Rechtsfall | Textzusammenfassung | Englisch | ||
| Einundzwanzig | 17 Zeitlinien | 2015/5/29 | GB Tran | Daten sind Inhalte, die aus Nachrichtenartikeln extrahiert werden, einschließlich Nachrichten aus vier Ländern: Ägypten, Libyen, Jemen und Syrien. | Einzeltextzusammenfassung; Nachricht | Textzusammenfassung | Papier | Mehrsprachig | |
| Zweiundzwanzig | PTS Corpus | 2018/10/9 | Fei Sonne | Der vollständige Name ist Produkttitel Summarization Corpus. Die Daten werden die Zusammenfassung der Produktnamen in E-Commerce-Anwendungen für mobile Geräte angezeigt | Einzeltextzusammenfassung; kurzer Text | Textzusammenfassung | Papier | ||
| Dreiundzwanzig | Wissenschaftliche Summarierungsdatensätze | 2019/10/26 | Santosh Gupta | Der Datensatz wurde von Semantic Scholar Corpus und Arxiv übernommen. Titel/abstraktes Paar von Semantic Scholar Corpus, das alle Papiere im Bereich der Biomediziner herausfiltert und 5,8 Millionen Daten enthält. Daten von Arxiv, die Titel/abstrakte Paare jedes Papiers von 1991 bis 5. Juli 2019 enthalten. Der Datensatz enthält 10.000 Finanzdaten, 26.000 Biologie, 417.000 Mathematik, 1,57 Millionen Physik und 221.000 CS. | Einzeltextzusammenfassung; Papier | Textzusammenfassung | Englisch | ||
| vierundzwanzig | Corpus und Anmerkungen des wissenschaftlichen Dokuments Summarization aus der Wing NUS -Gruppe | 2019/3/19 | Jaidka | Der Datensatz enthält Forschungsarbeiten zur ACL -Computer -Linguistik und der Verarbeitung natürlicher Sprache sowie deren jeweils zitierten Papiere und drei Ausgangszusammenfassungen: Ein traditionelles Autor -Papier -Zusammenfassung (Abstract), eine Gemeinschafts -Zusammenfassung (eine Sammlung von Zitierungsaussagen "Zitate") und eine menschliche Zusammenfassung, die von einem ausgebildeten Annotator geschrieben wurde, und das Trainingssatz enthält 40 Artikel und zitierte Papier. | Einzeltextzusammenfassung; Papier | Textzusammenfassung | Papier | Englisch |
| AUSWEIS | Titel | Datum aktualisieren | Datensatzanbieter | Lizenz | veranschaulichen | Schlüsselwörter | Kategorie | Papieradresse | Bemerkung |
|---|---|---|---|---|---|---|---|---|---|
| 1 | WMT2017 | 2017/2/1 | EMNLP 2017 Workshop zur maschinellen Übersetzung | Die Daten stammen hauptsächlich aus den beiden Institutionen Europarl Corpus und UN Corpus und entstehen Artikel, die 2017 aus der News Commentary Corpus-Aufgabe entsteht. Dies ist ein von der EMNLP-Konferenz bereitgestellter Übersetzungskorpus als Benchmark für viele Papiereffekte zum Nachweis zum Erkennen | Benchmark, WMT2017 | Chinesisch-englische Übersetzungsmaterialien | Papier | ||
| 2 | WMT2018 | 2018/11/1 | EMNLP 2018 Workshop zur maschinellen Übersetzung | Die Daten stammen hauptsächlich aus den beiden Institutionen Europarl Corpus und UN Corpus und entstehen Artikel, die 2018 aus der News Commentary Corpus-Aufgabe wieder extrahiert wurden. Dies ist ein von der EMNLP-Konferenz bereitgestellter Übersetzungskorpus als Benchmark für viele Papiereffekte zur Erkennung | Benchmark, WMT2018 | Chinesisch-englische Übersetzungsmaterialien | Papier | ||
| 3 | WMT2019 | 2019/1/31 | EMNLP 2019 Workshop on Machine Translation | 数据主要来源于Europarl corpus和UN corpus两个机构, 以及附加了news-commentary corpus and the ParaCrawl corpus中来得数据 | Benchmark, WMT2019 | 中英翻译语料 | Papier | ||
| 4 | UM-Corpus:A Large English-Chinese Parallel Corpus | 2014/5/26 | Department of Computer and Information Science, University of Macau, Macau | 由澳门大学发布的中英文对照的高质量翻译语料 | UM-Corpus;English; Chinese;large | 中英翻译语料 | Papier | ||
| 5 | [Ai challenger translation 2017](https://pan.baidu.com/s/1E5gD5QnZvNxT3ZLtxe_boA 提取码: stjf) | 2017/8/14 | 创新工场、搜狗和今日头条联合发起的AI科技竞赛 | 规模最大的口语领域英中双语对照数据集。 提供了超过1000万的英中对照的句子对作为数据集合。 所有双语句对经过人工检查, 数据集从规模、相关度、质量上都有保障。 训练集:10,000,000 句验证集(同声传译):934 句验证集(文本翻译):8000 句 | AI challenger 2017 | 中英翻译语料 | |||
| 6 | MultiUN | 2010 | Department of Linguistics and Philology Uppsala University, Uppsala/Sweden | 该数据集由德国人工智能研究中心提供, 除此数据集外,该网站还提供了很多的别的语言之间的翻译对照语料供下载 | MultiUN | 中英翻译语料 | MultiUN: A Multilingual corpus from United Nation Documents, Andreas Eisele and Yu Chen, LREC 2010 | ||
| 7 | NIST 2002 Open Machine Translation (OpenMT) Evaluation | 2010/5/14 | NIST Multimodal Information Group | LDC User Agreement for Non-Members | 数据来源于Xinhua 新闻服务包含70个新闻故事, 以及来自于Zaobao新闻服务的30个新闻故事,共100个从两个新闻集中选择出来的故事的长度都再212到707个中文字符之间,Xinhua部分共有有25247个字符, Zaobao有39256个字符 | NIST | 中英翻译语料 | Papier | 该系列有多年的数据, 该数据使用需要付费 |
| 8 | The Multitarget TED Talks Task (MTTT) | 2018 | Kevin Duh, JUH | 该数据集包含基于TED演讲的多种语言的平行语料,包含中英文等共计20种语言 | TED | 中英翻译语料 | The Multitarget TED Talks Task | ||
| 9 | ASPEC Chinese-Japanese | 2019 | Workshop on Asian Translation | 该数据集主要研究亚洲区域的语言,如中文和日语之间, 日语和英文之间的翻译任务翻译语料主要来自语科技论文(论文摘要;发明描述;专利等等) | Asian scientific patent Japanese | 中日翻译语料 | http://lotus.kuee.kyoto-u.ac.jp/WAT/ | ||
| 10 | casia2015 | 2015 | research group in Institute of Automation , Chinese Academy of Sciences | 语料库包含从网络自动收集的大约一百万个句子对 | casia CWMT 2015 | 中英翻译语料 | |||
| 11 | casict2011 | 2011 | research group in Institute of Computing Technology , Chinese Academy of Sciences | 语料库包含2个部分,每个部分包含从网络自动收集的大约1百万(总计2百万)个句子对。 句子级别的对齐精度约为90%。 | casict CWMT 2011 | 中英翻译语料 | |||
| 12 | casict2015 | 2015 | research group in Institute of Computing Technology , Chinese Academy of Sciences | 语料库包含大约200万个句子对,包括从网络(60%), 电影字幕(20%)和英语/汉语词库(20%)收集的句子。 句子水平对齐精度高于99%。 | casict CWMT 2015 | 中英翻译语料 | |||
| 13 | datum2015 | 2015 | Datum Data Co., Ltd. | 语料库包含一百万对句子,涵盖不同类型, 例如用于语言教育的教科书,双语书籍, 技术文档,双语新闻,政府白皮书, 政府文档,网络上的双语资源等。 请注意,数据中文部分的某些部分是按词段划分的。 | datum CWMT 2015 | 中英翻译语料 | |||
| 14 | datum2017 | 2017 | Datum Data Co., Ltd. | 语料库包含20个文件,涵盖不同类型,例如新闻,对话,法律文件,小说等。 每个文件有50,000个句子。 整个语料库包含一百万个句子。 前10个文件(Book1-Book10)的中文词均已分段。 | datum CWMT 2017 | 中英翻译语料 | |||
| 15 | neu2017 | 2017 | NLP lab of Northeastern University, China | 语料库包含从网络自动收集的200万个句子对,包括新闻,技术文档等。 句子级别的对齐精度约为90%。 | neu CWMT 2017 | 中英翻译语料 | |||
| 16 | 翻译语料(translation2019zh) | 2019 | 徐亮 | 可以用于训练中英文翻译系统,从中文翻译到英文,或从英文翻译到中文; 由于有上百万的中文句子,可以只抽取中文的句子,做为通用中文语料,训练词向量或做为预训练的语料。英文任务也可以类似操作; |
| AUSWEIS | Titel | 更新日期 | 数据集提供者 | Lizenz | veranschaulichen | Schlüsselwörter | Kategorie | Papieradresse | Bemerkung |
|---|---|---|---|---|---|---|---|---|---|
| 1 | NLPIR微博关注关系语料库100万条 | 2017/12/2 | 北京理工大学网络搜索挖掘与安全实验室张华平博士 | NLPIR微博关注关系语料库说明1.NLPIR微博关注关系语料库由北京理工大学网络搜索挖掘与安全实验室张华平博士,通过公开采集与抽取从新浪微博、腾讯微博中获得。为了推进微博计算的研究,现通过自然语言处理与信息检索共享平台(127.0.0.1/wordpress)予以公开共享其中的1000万条数据(目前已有数据接近10亿,已经剔除了大量的冗余数据); 2.本语料库在公开过程中,已经最大限度地采用技术手段屏蔽了用户真实姓名和url,如果涉及到的用户需要全面保护个人隐私的,可以Email给张华平博士[email protected]予以删除,对给您造成的困扰表示抱歉,并希望谅解; 3.只适用于科研教学用途,不得作为商用;引用本语料库,恭请在软件或者论文等成果特定位置表明出处为:NLPIR微博语料库,出处为自然语言处理与信息检索共享平台(http://www.nlpir.org/)。 4.字段说明: person_id 人物的id guanzhu_id 所关注人的id |
| AUSWEIS | Titel | 更新日期 | 数据集提供者 | Lizenz | veranschaulichen | Schlüsselwörter | Kategorie | Papieradresse | Bemerkung |
|---|---|---|---|---|---|---|---|---|---|
| 1 | NLPIR微博内容语料库-23万条 | 2017年12月 | 北京理工大学网络搜索挖掘与安全实验室张华平博士 | NLPIR微博内容语料库说明1.NLPIR微博内容语料库由北京理工大学网络搜索挖掘与安全实验室张华平博士,通过公开采集与抽取从新浪微博、腾讯微博中获得。为了推进微博计算的研究,现通过自然语言处理与信息检索共享平台(127.0.0.1/wordpress)予以公开共享其中的23万条数据(目前已有数据接近1000万,已经剔除了大量的冗余数据)。 2.本语料库在公开过程中,已经最大限度地采用技术手段屏蔽了用户真实姓名和url,如果涉及到的用户需要全面保护个人隐私的,可以Email给张华平博士[email protected]予以删除,对给您造成的困扰表示抱歉,并希望谅解; 3.只适用于科研教学用途,不得作为商用;引用本语料库,恭请在软件或者论文等成果特定位置表明出处为:NLPIR微博语料库,出处为自然语言处理与信息检索共享平台(http://www.nlpir.org/)。 4.字段说明: id 文章编号article 正文discuss 评论数目insertTime 正文插入时间origin 来源person_id 所属人物的id time 正文发布时间transmit 转发 | |||||
| 2 | 500万微博语料 | 2018年1月 | 北京理工大学网络搜索挖掘与安全实验室张华平博士 | 【500万微博语料】北理工搜索挖掘实验室主任@ICTCLAS张华平博士提供500万微博语料供大家使用,文件为sql文件,只能导入mysql数据库,内含建表语句,共500万数据。语料只适用于科研教学用途,不得作为商用;引用本语料库,请在软件或者论文等成果特定位置表明出处。 【看起来这份数据比上面那一份要杂糅一些,没有做过处理】 | |||||
| 3 | NLPIR新闻语料库-2400万字 | 2017年7月 | www.NLPIR.org | NLPIR新闻语料库说明1.解压缩后数据量为48MB,大约2400万字的新闻; 2.采集的新闻时间跨度为2009年10月12日至2009年12月14日。 3.文件名为新闻的时间;每个文件包括多个新闻正文内容(已经去除了新闻的垃圾信息); 4.新闻本身内容的版权属于原作者或者新闻机构; 5.整理后的语料库版权属于www.NLPIR.org; 6.可供新闻分析、自然语言处理、搜索等应用提供测试数据场景; 如需更大规模的语料库,可以联系NLPIR.org管理员。 | |||||
| 4 | NLPIR微博关注关系语料库100万条 | 2017年12月 | 北京理工大学网络搜索挖掘与安全实验室张华平博士 | NLPIR微博关注关系语料库说明1.NLPIR微博关注关系语料库由北京理工大学网络搜索挖掘与安全实验室张华平博士,通过公开采集与抽取从新浪微博、腾讯微博中获得。为了推进微博计算的研究,现通过自然语言处理与信息检索共享平台(127.0.0.1/wordpress)予以公开共享其中的1000万条数据(目前已有数据接近10亿,已经剔除了大量的冗余数据); 2.本语料库在公开过程中,已经最大限度地采用技术手段屏蔽了用户真实姓名和url,如果涉及到的用户需要全面保护个人隐私的,可以Email给张华平博士[email protected]予以删除,对给您造成的困扰表示抱歉,并希望谅解; 3.只适用于科研教学用途,不得作为商用;引用本语料库,恭请在软件或者论文等成果特定位置表明出处为:NLPIR微博语料库,出处为自然语言处理与信息检索共享平台(http://www.nlpir.org/)。 4.字段说明: person_id 人物的id guanzhu_id 所关注人的id | |||||
| 5 | NLPIR微博博主语料库100万条 | 2017年9月 | 北京理工大学网络搜索挖掘与安全实验室张华平博士 | NLPIR微博博主语料库说明1.NLPIR微博博主语料库由北京理工大学网络搜索挖掘与安全实验室张华平博士,通过公开采集与抽取从新浪微博、腾讯微博中获得。为了推进微博计算的研究,现通过自然语言处理与信息检索共享平台(127.0.0.1/wordpress)予以公开共享其中的100万条数据(目前已有数据接近1亿,已经剔除了大量的冗余与机器粉丝) 2.本语料库在公开过程中,已经最大限度地采用技术手段屏蔽了用户真实姓名和url,如果涉及到的用户需要全面保护个人隐私的,可以Email给张华平博士[email protected]予以删除,对给您造成的困扰表示抱歉,并希望谅解; 3.只适用于科研教学用途,不得作为商用;引用本语料库,恭请在软件或者论文等成果特定位置表明出处为:NLPIR微博语料库,出处为自然语言处理与信息检索共享平台(http://www.nlpir.org/)。 4.字段说明: id 内部id sex 性别address 家庭住址fansNum 粉丝数目summary 个人摘要wbNum 微博数量gzNum 关注数量blog 博客地址edu 教育情况work 工作情况renZh 是否认证brithday 生日; | |||||
| 6 | NLPIR短文本语料库-40万字 | 2017年8月 | 北京理工大学网络搜索挖掘与安全实验室(SMS@BIT) | NLPIR短文本语料库说明1.解压缩后数据量为48万字,大约8704篇短文本内容; 2.整理后的语料库版权属于www.NLPIR.org; 3.可供短文本自然语言处理、搜索、舆情分析等应用提供测试数据场景; | |||||
| 7 | 维基百科语料库 | Wikipedia | 维基百科会定期打包发布语料库 | ||||||
| 8 | 古诗词数据库 | 2020 | github主爬虫,http://shici.store | ||||||
| 9 | 保险行业语料库 | 2017 | 该语料库包含从网站Insurance Library 收集的问题和答案。 据我们所知,这是保险领域首个开放的QA语料库: 该语料库的内容由现实世界的用户提出,高质量的答案由具有深度领域知识的专业人士提供。 所以这是一个具有真正价值的语料,而不是玩具。 在上述论文中,语料库用于答复选择任务。 另一方面,这种语料库的其他用法也是可能的。 例如,通过阅读理解答案,观察学习等自主学习,使系统能够最终拿出自己的看不见的问题的答案。 数据集分为两个部分“问答语料”和“问答对语料”。问答语料是从原始英文数据翻译过来,未经其他处理的。问答对语料是基于问答语料,又做了分词和去标去停,添加label。所以,"问答对语料"可以直接对接机器学习任务。如果对于数据格式不满意或者对分词效果不满意,可以直接对"问答语料"使用其他方法进行处理,获得可以用于训练模型的数据。 | ||||||
| 10 | 汉语拆字字典 | 1905年7月 | 本倉庫含開放詞典網用以提供字旁和部件查詢的拆字字典數據庫,有便利使用者查難打漢字等用途。目前數據庫收錄17,803不同漢字的拆法,分為繁體字(chaizi-ft.txt)和簡體字(chaizi-jt.txt)兩個版本。 拆字法有別於固有的筆順字庫。拆字著重於儘量把每個字拆成兩個以上的組成部件,而不是拆成手寫字時所使用的筆畫。 | ||||||
| 11 | 新闻预料 | 2016 | 徐亮 | 可以做为【通用中文语料】,训练【词向量】或做为【预训练】的语料; 也可以用于训练【标题生成】模型,或训练【关键词生成】模型(选关键词内容不同于标题的数据); 亦可以通过新闻渠道区分出新闻的类型。 | |||||
| 12 | 百科类问答json版(baike2018qa) | 2018 | 徐亮 | 可以做为通用中文语料,训练词向量或做为预训练的语料;也可以用于构建百科类问答;其中类别信息比较有用,可以用于做监督训练,从而构建更好句子表示的模型、句子相似性任务等。 | |||||
| 13 | 社区问答json版(webtext2019zh) :大规模高质量数据集 | 2019 | 徐亮 | 1)构建百科类问答:输入一个问题,构建检索系统得到一个回复或生产一个回复;或根据相关关键词从,社区问答库中筛选出你相关的领域数据2)训练话题预测模型:输入一个问题(和或描述),预测属于话题。 3)训练社区问答(cQA)系统:针对一问多答的场景,输入一个问题,找到最相关的问题,在这个基础上基于不同答案回复的质量、 问题与答案的相关性,找到最好的答案。 4)做为通用中文语料,做大模型预训练的语料或训练词向量。其中类别信息也比较有用,可以用于做监督训练,从而构建更好句子表示的模型、句子相似性任务等。 5)结合点赞数量这一额外信息,预测回复的受欢迎程度或训练答案评分系统。 | |||||
| 14 | .维基百科json版(wiki2019zh) | 2019 | 徐亮 | 可以做为通用中文语料,做预训练的语料或构建词向量,也可以用于构建知识问答。【不同于wiki原始释放的数据集,这个处理过了】 |
| AUSWEIS | Titel | 更新日期 | 数据集提供者 | Lizenz | veranschaulichen | Schlüsselwörter | Kategorie | Papieradresse | Bemerkung |
|---|---|---|---|---|---|---|---|---|---|
| 1 | 百度WebQA | 2016 | Baidu | 来自于百度知道;格式为一个问题多篇意思基本一致的文章,分为人为标注以及浏览器检索 | 阅读理解、百度知道真实问题 | 中文阅读理解 | Papier | ||
| 2 | DuReader 1.0 | 2018/3/1 | Baidu | Apache2.0 | 本次竞赛数据集来自搜索引擎真实应用场景,其中的问题为百度搜索用户的真实问题,每个问题对应5个候选文档文本及人工整理的优质答案。 | 阅读理解、百度搜索真实问题 | 中文阅读理解 | Papier | |
| 3 | SogouQA | 2018 | 搜狗 | CIPS-SOGOU问答比赛数据;来自于搜狗搜索引擎真实用户提交的查询请求;含有事实类与非事实类数据 | 阅读理解、搜狗搜索引擎真实问题 | 中文阅读理解 | |||
| 4 | 中文法律阅读理解数据集CJRC | 2019/8/17 | 哈工大讯飞联合实验室(HFL) | 数据集包含约10,000篇文档,主要涉及民事一审判决书和刑事一审判决书。通过抽取裁判文书的事实描述内容,针对事实描述内容标注问题,最终形成约50,000个问答对 | 阅读理解、中文法律领域 | 中文阅读理解 | Papier | ||
| 5 | 2019“讯飞杯”中文机器阅读理解数据集(CMRC ) | 2019年10月 | 哈工大讯飞联合实验室(HFL) | CC-BY-SA-4.0 | 本次阅读理解的任务是句子级填空型阅读理解。 根据给定的一个叙事篇章以及若干个从篇章中抽取出的句子,参赛者需要建立模型将候选句子精准的填回原篇章中,使之成为完整的一篇文章。 | 句子级填空型阅读理解 | 中文阅读理解 | 赛事官网:https://hfl-rc.github.io/cmrc2019/ | |
| 6 | 2018“讯飞杯”中文机器阅读理解数据集(CMRC ) | 2018/10/19 | 哈工大讯飞联合实验室(HFL) | CC-BY-SA-4.0 | CMRC 2018数据集包含了约20,000个在维基百科文本上人工标注的问题。同时,我们还标注了一个挑战集,其中包含了需要多句推理才能够正确解答的问题,更富有挑战性 | 阅读理解、基于篇章片段抽取 | 中文阅读理解 | Papier | 赛事官网:https://hfl-rc.github.io/cmrc2018/ |
| 7 | 2017“讯飞杯”中文机器阅读理解数据集(CMRC ) | 2017/10/14 | 哈工大讯飞联合实验室(HFL) | CC-BY-SA-4.0 | 首个中文填空型阅读理解数据集PD&CFT | 填空型阅读理解 | 中文阅读理解 | Papier | 赛事官网 |
| 8 | 莱斯杯:全国第二届“军事智能机器阅读”挑战赛 | 2019/9/3 | 中电莱斯信息系统有限公司 | 面向军事应用场景的大规模中文阅读理解数据集,围绕多文档机器阅读理解进行竞赛,涉及理解、推理等复杂技术。 | 多文档机器阅读理解 | 中文阅读理解 | 赛事官网 | ||
| 9 | ReCO | 2020 | 搜狗 | 来源于搜狗的浏览器用户输入;有多选和直接答案 | 阅读理解、搜狗搜索 | 中文阅读理解 | Papier | ||
| 10 | DuReader-checklist | 2021/3 | Baidu | Apache-2.0 | 建立了细粒度的、多维度的评测数据集,从词汇理解、短语理解、语义角色理解、逻辑推理等多个维度检测模型的不足之处,从而推动阅读理解评测进入“精细化“时代 | 细粒度阅读理解 | 中文阅读理解 | 赛事官网 | |
| 11 | DuReader-Robust | 2020/8 | Baidu | Apache-2.0 | 从过敏感性,过稳定性以及泛化性多个维度构建了测试阅读理解鲁棒性的数据 | 百度搜索、鲁棒性阅读理解 | 中文阅读理解 | Papier | 赛事官网 |
| 12 | DuReader-YesNo | 2020/8 | Baidu | Apache-2.0 | DuReader yesno是一个以观点极性判断为目标任务的数据集,可以弥补抽取类数据集评测指标的缺陷,从而更好地评价模型对观点极性的理解能力。 | 观点型阅读理解 | 中文阅读理解 | 赛事官网 | |
| 13 | DuReader2.0 | 2021 | Baidu | Apache-2.0 | DuReader2.0是全新的大规模中文阅读理解数据,来源于用户真实输入,真实场景 | Leseverständnis | 中文阅读理解 | Papier | 赛事官网 |
| 14 | CAIL2020 | 2020 | 哈工大讯飞联合实验室(HFL) | 中文司法阅读理解任务,今年我们将提出升级版,不仅文书种类由民事、刑事扩展为民事、刑事、行政,问题类型也由单步预测扩展为多步推理,难度有所升级。 | 法律阅读理解 | 中文阅读理解 | 赛事官网 | ||
| 15 | CAIL2021 | 2021 | 哈工大讯飞联合实验室(HFL) | 中文法律阅读理解比赛引入多片段回答的问题类型,即部分问题需要抽取文章中的多个片段组合成最终答案。希望多片段问题类型的引入,能够扩大中文机器阅读理解的场景适用性。本次比赛依旧保留单片段、是否类和拒答类的问题类型。 | 法律阅读理解 | 中文阅读理解 | 赛事官网 | ||
| 16 | CoQA | 2018/9 | Stanford University | CC BY-SA 4.0、Apache等 | CoQA是面向建立对话式问答系统的大型数据集,挑战的目标是衡量机器对文本的理解能力,以及机器面向对话中出现的彼此相关的问题的回答能力的高低 | 对话问答 | 英文阅读理解 | Papier | Offizielle Website |
| 17 | SQuAD2.0 | 2018/1/11 | Stanford University | 行业内公认的机器阅读理解领域的顶级水平测试;它构建了一个包含十万个问题的大规模机器阅读理解数据集,选取超过500 篇的维基百科文章。数据集中每一个阅读理解问题的答案是来自给定的阅读文章的一小段文本—— 以及,现在在SQuAD 2.0 中还要判断这个问题是否能够根据当前的阅读文本作答 | 问答、包含未知答案 | 英文阅读理解 | Papier | ||
| 18 | SQuAD1.0 | 2016 | Stanford University | 斯坦福大学于2016年推出的阅读理解数据集,给定一篇文章和相应问题,需要算法给出问题的答案。此数据集所有文章选自维基百科,一共有107,785问题,以及配套的536 篇文章 | 问答、基于篇章片段抽取 | 英文阅读理解 | Papier | ||
| 19 | MCTest | 2013 | Microsoft | 100,000个必应Bing问题和人工生成的答案。从那时起,相继发布了1,000,000个问题数据集,自然语言生成数据集,段落排名数据集,关键词提取数据集,爬网数据集和会话搜索。 | 问答、搜索 | 英文阅读理解 | Papier | ||
| 20 | CNN/Dailymail | 2015 | DeepMind | Apache-2.0 | 填空型大规模英文机器理解数据集,答案是原文中的某一个词。 CNN数据集包含美国有线电视新闻网的新闻文章和相关问题。大约有90k文章和380k问题。 Dailymail数据集包含每日新闻的文章和相关问题。大约有197k文章和879k问题。 | 问答对、填空型阅读理解 | 英文阅读理解 | Papier | |
| 21 | WETTRENNEN | 2017 | 卡耐基梅隆大学 | / | 数据集为中国中学生英语阅读理解题目,给定一篇文章和5 道4 选1 的题目,包括了28000+ passages 和100,000 问题。 | 选择题形式 | 英文阅读理解 | Papier | 下载需邮件申请 |
| Zweiundzwanzig | HEAD-QA | 2019 | aghie | MIT | 一个面向复杂推理的医疗保健、多选问答数据集。提供英语、西班牙语两种形式的数据 | 医疗领域、选择题形式 | 英文阅读理解西班牙语阅读理解 | Papier | |
| Dreiundzwanzig | Consensus Attention-based Neural Networks for Chinese Reading Comprehension | 2018 | 哈工大讯飞联合实验室 | / | 中文完形填空型阅读理解 | 填空型阅读理解 | 中文阅读理解 | Papier | |
| vierundzwanzig | WikiQA | 2015 | Microsoft | / | WikiQA语料库是一个新的公开的问题和句子对集,收集并注释用于开放域问答研究 | 片段抽取阅读理解 | 英文阅读理解 | Papier | |
| 25 | Children's Book Test (CBT) | 2016 | / | 测试语言模型如何在儿童书籍中捕捉意义。与标准语言建模基准不同,它将预测句法功能词的任务与预测语义内容更丰富的低频词的任务区分开来 | 填空型阅读理解 | 英文阅读理解 | Papier | ||
| 26 | NewsQA | 2017 | Maluuba Research | / | 一个具有挑战性的机器理解数据集,包含超过100000个人工生成的问答对,根据CNN的10000多篇新闻文章提供问题和答案,答案由相应文章的文本跨度组成。 | 片段抽取阅读理解 | 英文阅读理解 | Papier | |
| 27 | Frames dataset | 2017 | Microsoft | / | 介绍了一个由1369个人类对话组成的框架数据集,平均每个对话15轮。开发这个数据集是为了研究记忆在目标导向对话系统中的作用。 | 阅读理解、对话 | 英文阅读理解 | Papier | |
| 28 | Quasar | 2017 | 卡内基梅隆大学 | BSD-2-Clause | 提出了两个大规模数据集。Quasar-S数据集由37000个完形填空式查询组成,这些查询是根据流行网站Stack overflow 上的软件实体标记的定义构造的。网站上的帖子和评论是回答完形填空问题的背景语料库。Quasar-T数据集包含43000个开放域琐事问题及其从各种互联网来源获得的答案。 | 片段抽取阅读理解 | 英文阅读理解 | Papier | |
| 29 | MS MARCO | 2018 | Microsoft | / | 微软基于搜索引擎BING 构建的大规模英文阅读理解数据集,包含10万个问题和20万篇不重复的文档。MARCO 数据集中的问题全部来自于BING 的搜索日志,根据用户在BING 中输入的真实问题模拟搜索引擎中的真实应用场景,是该领域最有应用价值的数据集之一。 | 多文档 | 英文阅读理解 | Papier | |
| 30 | 中文完形填空 | 2016 | 崔一鸣 | 首个中文填空型阅读理解数据集PD&CFT, 全称People Daily and Children's Fairy Tale, 数据来源于人民日报和儿童故事。 | 填空型阅读理解 | 中文完形填空 | Papier | ||
| 31 | NLPCC ICCPOL2016 | 2016.12.2 | NLPCC主办方 | 基于文档中的句子人工合成14659个问题,包括14K中文篇章。 | 问答对阅读理解 | 中文阅读理解 |
感谢以下同学的贡献(排名不分先后)
郑少棉、李明磊、李露、叶琛、薛司悦、章锦川、李小昌、李俊毅
Sie können Ihr Strom einbringen, indem Sie Datensatzinformationen hochladen. Nach dem Hochladen von fünf oder mehr Datensätzen und der Überprüfung kann der Student als Projektverträge verwendet werden und zeigt sie an.
Share your data set with community or make a contribution today! Just send email to chineseGLUE#163.com,
or join QQ group: 836811304