Datensätze zur Entitätserkennung
Dieses Repository enthält Datensätze aus mehreren Domänen mit einer Vielzahl von Entitätstypen, die für die Erkennung von Entität und die Aufgaben der Entitätserkennung (NAM) nützlich sind.
Hinweis: Ich füge dieser Liste keine aktiven Datensätze hinzu - es gibt wahrscheinlich mehr NER -Datensätze, die seit 2020 erscheinen. Ich freue mich jedoch, weitere Datensätze über Probleme oder Zuganfragen hinzuzufügen.
Datensätze für NER in Englisch
Die folgende Tabelle zeigt die Liste der Datensätze für die englischsprachige Entitätserkennung (für eine Liste der NER-Datensätze in anderen Sprachen, siehe unten). Das Datenverzeichnis enthält Informationen darüber, wo die Datensätze erhalten werden sollen, die aufgrund von Lizenzbeschränkungen nicht gemeinsam genutzt werden konnten, sowie Code, um sie (falls erforderlich) in das CONLL 2003 -Format umzuwandeln. Links zu NER Corpora in anderen Sprachen finden Sie auch unten.
| Datensatz | Domain | Lizenz | Referenz | Verfügung |
|---|
| Conll 2003 | Nachricht | Dua | Sang und Meulder, 2003 | Leicht zu finden |
| NIST-IEER | Nachricht | Keiner | NIST 1999 IE-ER | NLTK -Daten |
| Muc-6 | Nachricht | LDC | Grishman und Sundheim, 1996 | LDC 2003T13 |
| Ontonotes 5 | Verschieden | LDC | Weischel et al., 2013 | LDC 2013T19 |
| BBN | Verschieden | LDC | Weischel und Brunstein, 2005 | LDC 2005T33 |
| Gmb-1.0.0 | Verschieden | Keiner | Bos et al., 2017 | http://gmb.let.rug.nl/data.php |
| Gum-3.1.0 | Wiki | Mehrere ( * 2) | Zeldes, 2016 | ✔ hier enthalten |
| Wikigold | Wikipedia | CC-by 4.0 | Balasuriya et al., 2009 | ✔ hier enthalten |
| Ritter | Twitter | Keiner | Ritter et al., 2011 | Kein Split, Zug/Test/Dev Split |
| BTC | Twitter | CC-by 4.0 | Dieczynski et al., 2016 | ✔ hier enthalten |
| Wnut17 | Social Media | CC-by 4.0 | Dieczynski et al., 2017 | ✔ hier enthalten |
| I2B2-2006 | Medizinisch | Dua | Uzuner et al., 2007 | http://www.i2b2.org |
| I2B2-2014 | Medizinisch | Dua | Stubbs et al., 2015 | http://www.i2b2.org |
| CADEC | Medizinisch | Csiro | Karimi et al., 2015 | http://data.csiro.au/ |
| Anem | Anatomisch | Cc-by-sa 3.0 | Ohta et al., 2012 | ✔ hier enthalten |
| Mitrestaurant | Abfragen | Keiner | Liu et al., 2013a | http://groups.csail.mit.edu/sls/ |
| Mitmovie | Abfragen | Keiner | Liu et al., 2013b | http://groups.csail.mit.edu/sls/ |
| Malwaretextdb | Malware | Keiner | Lim et al., 2017 | http://www.statnlp.org/ |
| Re3d | Verteidigung | Mehrere ( * 1) | DSTL, 2017 | ✔ hier enthalten |
| Sec-Filings | Finanzen | CC-by 3.0 | Alvarado et al., 2015 | ✔ hier enthalten |
| Montage | Robotik | X | Costa et al., 2017 | X |
| Wikineural | Wikipedia | CC BY-SA-NC 4.0 | Tedeschi et al., 2021 | https://github.com/babelscape/wikineural |
| Multinerd | Wikipedia | CC BY-SA-NC 4.0 | Tedeschi et al., 2022 | https://github.com/babelscape/multinerd |
| HIPE-2022 | Historisch | CC BY-SA-NC 4.0 | Ehrmann et al., 2022 | https://github.com/hipe-eval/hipe-2022-data |
| Musik-nervern | Musik | MIT | Epure und Hennequin, 2023 | https://github.com/deezer/music-ner-eac2023 |
| WIESP2022-NER | Astrophysik | CC BY-SA-NC 4.0 | Grezes et al., 2022 | https://huggingface.co/datasets/adsabs/wesp2022-ner |
| Nne | Nachricht | CC 4.0 / LDC | Ringland et al., 2019 | https://github.com/nickyringland/nested_named_entities |
| Weltweit | Nachricht | CC BY-SA-NC 4.0 | Shan et al., 2023 | https://github.com/stanfordnlp/en-worldwide-newswire https://arxiv.org/abs/2404.13465 |
Lizenzen
Anmerkungen zu Lizenzen:
(1) RE3D ("Beziehungs- und Entitätsextraktionsbewertungsdatensatz") enthält mehrere Datensätze mit unterschiedlichen Lizenzen. Diese sind:
- CC-by-SA 3.0 (Wikipedia-Datensatz)
- CC BY-NC 3.0 (BBC_Online-Datensatz)
- CC von 3.0 AU (Australian_department_of_foreign_affairs Dataset)
- Public Domain (US_State_Department -Datensatz, Centcom -Datensatz)
- UK Open Government Lizenz v3.0 (UK_Government -Datensatz)
- Delegation_of_the_european_union_to_Syria: siehe https://eeas.europa.eu/delegations/syria/8157/legal-notice_en
- Gum 3.1.0 umfasst drei Datensätze mit Lizenzen CC-by 3.0, CC-by-SA 3.0 und CC-by-nc-SA 3.0. Die Anmerkungen sind unter CC-by 4.0 lizenziert.
Detailliertere Lizenzinformationen für jeden Datensatz finden Sie im entsprechenden Unterverzeichnis.
Later ... - Tabassum et al., Code and Named Entity Recognition in StackOverflow https://cocoxu.github.io/publications/ACL2020_stackoverflow_NER.pdf - LitBank: https://github.com/dbamman/litbank (Bamman, Popat and Shen, An Annotated Dataset of Literary Entities, NAACL 2019) - NNE: Ein Datensatz für verschachtelte Entitätserkennung in englischer Newswire, 2019 https://github.com/nickyringland/nested_named_entities - Mars Target Encyclopedia - LPSC -Abstracts mit dem Data Set: https:/zenodo.org/record/10419#.w5a2cbws - https://www.kaggle.com/dataturks/best-buy-ecommerce-ner-dataset/home-Resume Entities für Ner: https://www.kaggle.com/dataturks/resume-entities-for/home-Wedel-Nerd: Ein paar Shots-Erkenntnisse mit dem Namen einer wenigen Shots-Entität namens Einstellungsdataset: Ein paar Shots-Enttität mit dem Namen einiger Shots-Entität namens Einschusse: Ein paar Shots-Entität namens Einheit mit dem Namen ein paar SHOTS-DATETASETSETENTE: Ein paar Shots-Erkenntnisse. https://aclanthology.org/2021.acl-long.248/
Datensätze für NER in anderen Sprachen
Lexikalische Entitätsressourcen
- Heiner: http://heiner.cl.uni-heidelberg.de/index.shtml
- Neckar: https://event.ifi.uni-heidelberg.de/?page_id=532#wikidata_ne_dataset
Code-Switching
- English-Spanish Tweets (Calcs 2018): https://code-switching.github.io/2018/; https://code-switching.github.io/2018/files/spa-eng/release.zip; http://www.aclweb.org/anthology/w18-3219
- Arabisch-ägyptische Tweets (Calcs 2018): https://code-sschitching.github.io/2018/; https://code-switching.github.io/2018/files/msa-egy/arabictweetStokenaNSigner.zip; http://www.aclweb.org/anthology/w18-3219
- Hindi-English Social Media Text: https://github.com/silentflame/named-entity-recognition; http://aclweb.org/anthology/w18-2405
- EMNLP 2014 Shared Task-Code-Switched-Tweets (nepali-englische, spanisch-englische, mandarin-englische, arabisch-arabische Dialekte): http://emnlp2014.org/workshops/codesschitch/call.html
Deutsch
- Conll 2003 (Englisch, Deutsch): https://www.clips.uantwerpen.be/conll2003/ner/
- Germeval 2014: https://sites.google.com/site/germeval2014ner/data
- Tübingen Treebank des schriftlichen Deutsch (Tüba-d/z): http://www.sfs.uni-tuben.de/en/ascl/resources/corpora/tueba-dz.html
- Europeana-Zeitungen (Niederländisch, Französisch, Deutsch): https://github.com/europeanaNewspapers/ner-corpora; http://lab.kb.nl/dataset/europeana-newspapers-ner#access
- Deutsche Europarl -Transkripte (Teilmenge): https://nlpado.de/~sebastian/software/ner_german.shtml
- Namensmodell für Deutsch, Politik (NEMGP): https://www.thomas-zastrow.de/nlp/
- Wikiner: https://figshare.com/articles/learning_multilingual_named_entity_recognition_from_wikipedia/5462500
- Wikineural: https://github.com/babelscape/wikineural
- Multinerd: https://github.com/babelscape/multinerd
- DFKI SmartData Corpus (Geo-Inities): https://dfki-lt-re-gruppe Gabryszak, Leonhard Hennig.
- Dbpedia Abstract Corpus (Englisch, Deutsch, Niederländisch, Französisch, Italienisch, Japanisch): http://downloads.dbpedia.org/2015-04/ext/nlp/abstracts/
- DAWT -Datensatz - Dicht annotierte Wikipedia -Texte in mehreren Sprachen (Englisch, Spanisch, Französisch, Italienisch, Deutsch, Arabisch): https://github.com/klout/opendata/tree/master/wiki_annotation
- Elena Leitner, Georg Rehm, Juli ́an Moreno-Schneider, ein Datensatz deutscher Rechtsdokumente für die Erkennung der Entität, LREC 2020: http://georg-re.hm/pdf/lrec-2020-Leitner-et-Al-Prärter.pdf; Daten: https://github.com/elenanereis/legal-entity-recognition
- HIPE-2022, genannte Entitätserkennung und Entität, die in mehrsprachigen historischen Dokumenten verlinkt: https://hipe-eval.github.io/hipe-2022/ https://github.com/hipe-eval/hipe-2022-data
Niederländisch
- Conll 2002 (Spanisch, Niederländisch): https://www.clips.uantwerpen.be/conll2002/ner/
- Europeana-Zeitungen (Niederländisch, Französisch, Deutsch): https://github.com/europeanaNewspapers/ner-corpora; http://lab.kb.nl/dataset/europeana-newspapers-ner#access
- Zwischenzeit Corpus (Parallel Corpus: Englisch, Spanisch, Italienisch, Niederländisch): http://www.newsreader-project.eu/results/data/wikinews/
- Wikiner: https://figshare.com/articles/learning_multilingual_named_entity_recognition_from_wikipedia/5462500
- Wikineural: https://github.com/babelscape/wikineural
- Multinerd: https://github.com/babelscape/multinerd
- Dbpedia Abstract Corpus (Englisch, Deutsch, Niederländisch, Französisch, Italienisch, Japanisch): http://downloads.dbpedia.org/2015-04/ext/nlp/abstracts/
- Niederländische Parlamentsdokumente 2015-2016 ab 1848.nl (Jonkers, Bekanntmachung von Entität in niederländischen Parlamentsdokumenten mit Frog, These, Universität Amsterdam, 2016): https://github.com/poezedoez/blob/master/cod/data/lobo
- Sonar 1 - Desmet und Hoste, feinkörnige niederländische Erkennung, 2014 (Hierarchie der Klassen)
- Corpus-Sonar-Bücher und Corpus Gutenberg Niederländisch: http://blog.namescape.nl/?page_id=85; http://portal.clarin.nl/node/1940
Afrikaans
- NCHLT AFRIKAAN genannte Entität Annotierter Korpus: https://repo.sadilar.org/handle/20.500.12185/299
Spanisch
- Conll 2002 (Spanisch, Niederländisch): https://www.clips.uantwerpen.be/conll2002/ner/
- Ancora (Spanisch, Katalanisch): http://clic.ub.edu/corpus/en
- Deft Spanische Baumbank (LDC2018T01): https://catalog.ldc.upenn.edu/ldc2018t01
- Panacea (Labor): http://panacea-lr.eu/en/info-for-researchers/data-sets/dependency-parsed-crora/dependency-lab-es
- Panacea (env): http://panacea-lr.eu/en/info-for-researchers/data-sets/dependency-parsed-corpora/dependency-env-es
- Zwischenzeit Corpus (Parallel Corpus: Englisch, Spanisch, Italienisch, Niederländisch): http://www.newsreader-project.eu/results/data/wikinews/
- ACE 2007 (Spanisch und Arabisch): https://catalog.ldc.upenn.edu/ldc2014t18
- Wikiner: https://figshare.com/articles/learning_multilingual_named_entity_recognition_from_wikipedia/5462500
- Wikineural: https://github.com/babelscape/wikineural
- Multinerd: https://github.com/babelscape/multinerd
- http://www.grupolys.org/~marcos/pub/lrec16.tar.bz2 (verwendet, um "Lexiko-Semantik-Heuristik in die Coreference-Auflösung einzubeziehen, für die genannte Entitätserkennung bei Dokument-Level"))
- Mehrsprachige Korpora mit zentraler Annotation von Personen (Spanisch, galizisch, Portugiesisch): http://gramatica.usc.es/~marcos/lrec.tar.bz2
- DrugSemantics Gold Standard (Moreno et al., Drogenhändler
- Dbpedia Abstract Corpus (Englisch, Deutsch, Niederländisch, Französisch, Italienisch, Japanisch): http://downloads.dbpedia.org/2015-04/ext/nlp/abstracts/
- DAWT -Datensatz - Dicht annotierte Wikipedia -Texte in mehreren Sprachen (Englisch, Spanisch, Französisch, Italienisch, Deutsch, Arabisch): https://github.com/klout/opendata/tree/master/wiki_annotation
- Cantemist (Cancer Text Mining Shared Task - Tumor -Namenserkennung) - Bezeichnung der Entitätserkennung eines kritischen Konzepts im Zusammenhang mit Krebs, nämlich Tumormorphologie in spanischen medizinischen Texten: https://temu.bsc.es/cantemist/
katalanisch
- Ancora (Spanisch, Katalanisch): http://clic.ub.edu/corpus/en
galizisch
- Galizier Ner Corpus: https://gramatica.usc.es/~marcos/resources/corpus_gal_nec.txt.gzz
- Mehrsprachige Korpora mit zentraler Annotation von Personen (Spanisch, galizisch, Portugiesisch): http://gramatica.usc.es/~marcos/lrec.tar.bz2
baskisch
- Basque namens Entities Corpus (EIEC): http://ixa.eus/node/4486?Language=de
- Basque, nicht einpräzitiert namens Entities Corpus (EDIEC): http://ixa.si.ehu.es/node/4485?language=de
- Egunkaria 2000 Corpus (383 Newswire-Texte), erwähnt in http://qtleap.eu/wp-content/uploads/2014/04/qtleap-2013-d5.1.pdf
Portugiesisch
- Harem: https://www.linguateca.pt/aval_conjunta/harem/harem_ing.html
- Cintil Corpus: http://cintil.ul.pt/cintilfeatures.html#corpus
- Wikiner: https://figshare.com/articles/learning_multilingual_named_entity_recognition_from_wikipedia/5462500
- Wikineural: https://github.com/babelscape/wikineural
- Multinerd: https://github.com/babelscape/multinerd
- Mehrsprachige Korpora mit zentraler Annotation von Personen (Spanisch, galizisch, Portugiesisch): http://gramatica.usc.es/~marcos/lrec.tar.bz2
- Bosque 8.0 Eagles Format: https://gramatica.usc.es/~marcos/resources/corpora_flpt.tgz
- Lener-BR (brasilianische Rechtsdokumente): https://cic.unb.br/~teodecampos/lener-br/
- Paramopama: Ein brasilianisch-portugiesischer Korpus für die genannte Entitätserkennung
Französisch
- Ester: http://catalogue.elra.info/en-us/repository/browse/elra-s0241/
- Ester 2: http://catalogue.elra.info/en-us/repository/browse/elra-s0338/
- Etape: http://catalogue.elra.info/en-us/repository/browse/elra-e0046/
- Europeana-Zeitungen (Niederländisch, Französisch, Deutsch): https://github.com/europeanaNewspapers/ner-corpora; http://lab.kb.nl/dataset/europeana-newspapers-ner#access
- Quaero French Medical Corpus: https://quaerofrenchmed.limsi.fr/
- Quaero Broadcast News erweiterte Entity Corpus: http://catalog.elra.info/en-us/repository/browse/elra-s0349/
- Quaero Old Press Extended Named Entity Corpus: http://catalog.elra.info/en-us/repository/browse/elra-w0073/
- Wikiner: https://figshare.com/articles/learning_multilingual_named_entity_recognition_from_wikipedia/5462500
- Wikiner-fr-Gold https://arxiv.org/abs/2411.0003030 https://huggingface.co/datasets/danrun/wikiner-fr-gold
- Wikineural: https://github.com/babelscape/wikineural
- Multinerd: https://github.com/babelscape/multinerd
- Dbpedia Abstract Corpus (Englisch, Deutsch, Niederländisch, Französisch, Italienisch, Japanisch): http://downloads.dbpedia.org/2015-04/ext/nlp/abstracts/
- DAWT -Datensatz - Dicht annotierte Wikipedia -Texte in mehreren Sprachen (Englisch, Spanisch, Französisch, Italienisch, Deutsch, Arabisch): https://github.com/klout/opendata/tree/master/wiki_annotation
- CAP 2017 - (Twitter -Daten), Lopez et al., Cap 2017 Challenge: Twitter namens Entity Recognition, 2017: http://cap2017.imag.fr/competition.html
- HIPE-2022, genannte Entitätserkennung und Entität, die in mehrsprachigen historischen Dokumenten verlinkt: https://hipe-eval.github.io/hipe-2022/ https://github.com/hipe-eval/hipe-2022-data
Italienisch
- Art: https://github.com/dhfbk/kind
- Evalita: http://www.evalita.it/2009/tasks/entity
- Zwischenzeit Corpus (Parallel Corpus: Englisch, Spanisch, Italienisch, Niederländisch): http://www.newsreader-project.eu/results/data/wikinews/
- Panacea (Env): http://panacea-lr.eu/en/info-for-researchers/data-sets/dependency-parsed-corpora/dependency-env-it
- Panacea (Labor): http://panacea-lr.eu/en/info-for-researchers/data-sets/dependency-parsed-corpora/dependency-lab-it
- Wikiner: https://figshare.com/articles/learning_multilingual_named_entity_recognition_from_wikipedia/5462500
- Wikineural: https://github.com/babelscape/wikineural
- Multinerd: https://github.com/babelscape/multinerd
- Dbpedia Abstract Corpus (Englisch, Deutsch, Niederländisch, Französisch, Italienisch, Japanisch): http://downloads.dbpedia.org/2015-04/ext/nlp/abstracts/
- DAWT -Datensatz - Dicht annotierte Wikipedia -Texte in mehreren Sprachen (Englisch, Spanisch, Französisch, Italienisch, Deutsch, Arabisch): https://github.com/klout/opendata/tree/master/wiki_annotation
rumänisch
- RONEC (Dumitrescu und Avram, Einführung von RONEC - der rumänische namens Entity Corpus. LREC 2020). Papier: https://arxiv.org/pdf/1909.01247.pdf Daten: https://github.com/dumitrescustefan/Ronec
- Rumänischer journalistischer Corpus (ROCO): http://metashare.elda.org/repository/browse/romanian-journalistic-corpus-roco/038baa80dc7311e5aaa0b00237df3583781D7C0f208407aa01833333d63d63d633d63d63d63d63d63d63d63d63d63d63d63d63d63d63d63d63d63d63d63d63.
- Rumänisch ausgeglichener Corpus (Rombac): http://metashare.elda.org/repository/browse/romanian-balanced-corpus-rombac/0a7dd85edc7311e5aaa0b00237df3e35873a0d62435d425d425.2435d425D429dc29dc0065.2435d425D429dc00
griechisch
- Panacea (Env): http://panacea-lr.eu/en/info-for-researchers/data-sets/dependency-parsed-corpora/dependency-env-el
- Panacea (Labor): http://panacea-lr.eu/en/info-for-researchers/data-sets/dependency-parsed-corpora/dependency-lab-el
ungarisch
- Ungarisch ernannte Entitätskorpora: http://rgai.inf.u-szeged.hu/index.php?lang=en&page=corpus_ne
- hunnerwiki: http://hlt.sztaki.hu/resources/hunnerwiki.html
- NYTK: https://github.com/nytud/nytk-nerkor
tschechisch
- Tschechisch namens Entity Corpus: http://ufal.mff.cuni.cz/cnec
- BSNLP 2017 (kroatisch, tschechisch, polnisch, russischer, slowakischer, slowener, ukrainischer): http://bsnlp-2017.cs.helsinki.fi/shared_task_results.html
- CZENG 1.0 (Parallel Corpus: Tschechisch-Englisch): http://ufal.mff.cuni.cz/czeng/czeng10
- Pero OCR NER (Tschechische Historische OCR-Chronik): https://github.com/roman-janik/poner https://dspace.vut.cz/items/6092e1b0-3d75-4451-8582-2873ac304040404040404040404040404040404040404040404040404040404040404040404040404040404040404040404040404040404040404040404040404040404040404040404040404040404040.
Polieren
- Der polnische Sejm Corpus: http://clip.ipipan.waw.pl/psc
- BSNLP 2017 (kroatisch, tschechisch, polnisch, russischer, slowakischer, slowener, ukrainischer): http://bsnlp-2017.cs.helsinki.fi/shared_task_results.html
- Polnischer Coreference Corpus: http://zil.ipipan.waw.pl/polishcoreferenceCorpus
- Wikiner: https://figshare.com/articles/learning_multilingual_named_entity_recognition_from_wikipedia/5462500
- Wikineural: https://github.com/babelscape/wikineural
- Multinerd: https://github.com/babelscape/multinerd
- Corpus of Economic News (Cen Corpus): http://www.nlp.pwr.wroc.pl/narzedzia-i-zasoby/zasoby/cen
- KPWR (Korpus języka Polskiego Politechniki Wrocławskiej/polnischer Korpus der Wrocław University of Technology): http://plwordnet.pwr.wrc.pl/index.php?option=com_content&view&id=35&itemid=35&itemid=35&itemid=35&itemid=35&itemid=35&itemid=35&itemid=181 Dipl. http://plwordnet.pwr.coc.pl/attachments/article/35/kpwr-1.1.7z (Broda et al., KPWR: Auf dem Weg zu einem freien Korpus von Polnisch, 2012)
- Nkjp: http://clip.ipipan.waw.pl/nationalcorpusofpolish?action=attachfile&do=view&target=nkjp-podkorpusmilionowy-1.2.tar.gz
kroatisch
- HR500K 1.0: http://hdl.handle.net/11356/1183
- BSNLP 2017 (kroatisch, tschechisch, polnisch, russischer, slowakischer, slowener, ukrainischer): http://bsnlp-2017.cs.helsinki.fi/shared_task_results.html
- Reldi-normtagner-hr (kroatische Tweets): http://hdl.handle.net/11356/1170
slowakisch
- BSNLP 2017 (kroatisch, tschechisch, polnisch, russischer, slowakischer, slowener, ukrainischer): http://bsnlp-2017.cs.helsinki.fi/shared_task_results.html
- Slowakisch kategorisierte News Corpus: https://nlp.web.tuke.sk/pages/categorizednews
Slowene
- BSNLP 2017 (kroatisch, tschechisch, polnisch, russischer, slowakischer, slowener, ukrainischer): http://bsnlp-2017.cs.helsinki.fi/shared_task_results.html
- SSJ500K: http://www.slovenscina.eu/tehnologije/ucni-korpus; http://eng.slovenscina.eu/tehnologije/ucni-korpus; https://www.clarin.si/repository/xmlui/handle/11356/1029; Hinweis: Für V 2.2 siehe: http://hdl.handle.net/11356/1210
- Slowene Nachrichten: http://zitnik.si/mediawiki/index.php?title=datasets#slovene_News; http://zitnik.si/mediawiki/images/7/7d/rtvslo_dec2011.tsv; http://zitnik.si/mediawiki/images/5/5e/rtvslo_dec2011_v2.tsv
- Janes-tag 2.0 (Social Media Text) https://www.clarin.si/repository/xmlui/handle/11356/1123; Siehe auch: Fišer et al., The Janes Project: Sprachressourcen und Tools für slowenische Benutzer generierte Inhalte, 2018.
ukrainisch
- BSNLP 2017 (kroatisch, tschechisch, polnisch, russischer, slowakischer, slowener, ukrainischer): http://bsnlp-2017.cs.helsinki.fi/shared_task_results.html
- Ukrainer Brown Ner Corpus: https://github.com/lang-uk/ner-uk; http://lang.org.ua/en/corpora/
serbisch
- Setimes.sr - http://hdl.handle.net/11356/1200
- Genannt Entities Evaluation Corpus für serbisch: http://www.korpus.matf.bg.ac.rs/srpneval/
- Reldi-normtagner-sr (serbische Tweets): http://hdl.handle.net/11356/1171
bulgarisch
isländisch
- Mim-gold-ner (Ingólfsdóttir, Svanhvít Lilja, Sigurjón Þorsteinsson und Hrafn Loftsson. " http://www.malfong.is/index.php?pg=mim_gold_ner
dänisch
- Dane: Hvingelby et al., [Dane: Eine benannte Entitätsressource für Dänisch.
- Dänische PropBank (DPB): http://catalog.elra.info/en-us/repository/browse/elra-w0117/
- Arboretum Treebank: http://catalog.elra.info/en-us/repository/browse/elra-w0084/
norwegisch
- BJARTE Johansen, Erkennung von Inentity für Norwegian, Proceedings der 22. Nordic Conference on Computational Linguistics. 2019 (https://www.aclweb.org/anthology/w19-6123.pdf) Daten: https://github.com/ljos/navnkjennerer
- Fredrik Jørgensen et al., Norne: Annotierende Entitäten für Norweger, 2019 (https://arxiv.org/pdf/1911.12146.pdf). Daten: https://github.com/ltgoslo/norne/; https://www.nb.no/sprakbanken/show?serial=oai%3anb.no%3asbr-49
Schwedisch
- Stockholm Internet Corpus: https://www.ling.su.se/english/nlp/corpora-and-resources/sic
- Suc 3.0: https://spraakbanken.gu.se/eng/resource/suc3
- Schwedisch manuell kommentiert NER: https://github.com/klintan/swedish-ner-corpus/
- Medizinische Wikipedia-Daten (Almgren et al., Benannte Entity-Erkennung in schwedischen Gesundheitsakten mit charakterbasierten tiefen bidirektionalen LSTMs, 2016): https://github.com/olofmogren/biomedical-ner-data-swedish
- HIPE-2022, genannte Entitätserkennung und Entität, die in mehrsprachigen historischen Dokumenten verlinkt: https://hipe-eval.github.io/hipe-2022/ https://github.com/hipe-eval/hipe-2022-data
finnisch
- Datensätze für finnisch bezeichnete Entitätserfassung: https://github.com/mpsilfve/finer-data
- Turku Ner Corpus: https://github.com/turkunlp/turku-ner-corpus
- HIPE-2022, genannte Entitätserkennung und Entität, die in mehrsprachigen historischen Dokumenten verlinkt: https://hipe-eval.github.io/hipe-2022/ https://github.com/hipe-eval/hipe-2022-data
estnisch
- Estonian Ner Corpus: https://metashare.ut.ee/repository/browse/estonian-ner-corpus/88d030c0acde11e2a6e4005056b40024f1def472ed254e77a8952e1003d9f81e/
Lettisch und litauisch
- https://github.com/accurat-toolkit/tildener/tree/master/test (Pinnis, Latvian und Litauaner wurde mit Tildener, LREC 2012) Anerkennung von Entity-Anerkennung, LEC 2012)
- Trainingsdaten für den LV -Tagger: https://github.com/peterisp/lvtagger/tree/master/nertrainingData
Türkisch
- K̈ucuk and Can, ein Tweet-Datensatz, der für die Erkennung von Entitätserkennungen und -standkennzeichnungen kommentiert wurde, 2019: https://github.com/dkucuk/tweet-dataset-ner-sd
- K̈ucuk et al., Named Entityerkennung auf türkischen Tweets: http://optima.jrc.it/resources/2014_jrc_twitter_tr_ner-dataset.zip
- Englisch/türkische Wikipedia-Erkennung und Textkategorisierungsdatensatz (http://arxiv.org/abs/1702.02363): https://data.mendeley.com/datasets/cdcztymf4k/1
- Çoban et al., Ernannte Entitätserkennung über FBNER: Ein neuer Facebook -Datensatz in türkisch: https://ieeexplore.ieee.org/document/9598971 Daten, die für Forschungszwecke auf Anfrage verfügbar sind
Kasachisch
- Kaznerd: https://arxiv.org/pdf/2111.13419.pdf, https://github.com/is2ai/kaznerd
Uyghur
- Uyghur namens Entity Relation Corpus: https://github.com/kaharjan/uynerel (Abiderexiti et al., Annotationsschemata zum Bau von Uyghur namens Entity Relation Corpus. IALP 2016)
Armenisch
- PIONER (GOLD-STANDARD- UND SILBER-STANDARD-Datensätze): https://github.com/ispras-texterra/pioner (Ghukasyan et al., Pioner: Datensätze und Baselines für armenische Entitätserkennung, 2018)
- Armtdp-ner: https://github.com/myavrum/armtdp-ner
koptisch
- Die TreeBank der kuptischen universellen Abhängigkeit: https://github.com/universaldependencies/ud_coptic-Scriptorium/tree/dev (siehe auch https://copticscriptorium.org/treebank.html). Dies enthält 46.000 Token verschachtelte (nicht) benannte und wikifizierte Entitäten aus sahidischen koptischen Texten.
Amharisch
- Sagen Sie Corpus (siehe "genannte Entitätserkennung für Amharic mit Deep Learning"): https://github.com/geezorg/data/tree/master/amharic/tagged/nmsu-ay; http://data.geez.org/
Arabisch
- Aqmar Arabische Wikipedia namens Entity Corpus: http://www.cs.cmu.edu/~ark/arabicner/
- NE3L namens Entitäten arabischer Korpus (arabisch, chinesisch, russisch): http://catalog.elra.info/en-us/repository/browse/elra-w0078/
- Übersetzung von Reflex Entity (Parallel Corpus: Englisch, Arabisch, Chinesisch): https://catalog.ldc.upenn.edu/ldc2009t111111
- Anercorp: http://users.dsic.upv.es/~ybenajiba/downloads.html (siehe auch: http://alias-i.com/lingpipe/demos/tutorial/ne/read-me.html)
- ACE 2003 (Englisch, Chinesisch, Arabisch): https://catalog.ldc.upenn.edu/ldc2004t09
- ACE 2004 (Englisch, Chinesisch, Arabisch): https://catalog.ldc.upenn.edu/ldc2005t09
- ACE 2005 (Englisch, Chinesisch, Arabisch): https://catalog.ldc.upenn.edu/ldc2006t06
- ACE 2007 (Spanisch und Arabisch): https://catalog.ldc.upenn.edu/ldc2014t18
- Ontonotes 5 (Englisch, Arabisch, Chinesisch): https://catalog.ldc.upenn.edu/ldc2013t19
- DAWT -Datensatz - Dicht annotierte Wikipedia -Texte in mehreren Sprachen (Englisch, Spanisch, Französisch, Italienisch, Deutsch, Arabisch): https://github.com/klout/opendata/tree/master/wiki_annotation
- Wojood - 2022 verschachtelte Arabisch genannt, Entity Corpus. https://dlnlp.ai/st/wojood/ https://aclanthology.org/2022.lrec-1.387.pdf https://codalab.lisn.upsaclay.fr/competitions/11740
persisch
- ARMANPERSONERCORPUS: http://islrn.org/resources/399-379-640-828-6/; https://github.com/haniehp/persianner
Sindhi
- Siner: https://aclanthology.org/2020.lrec-1.361/, https://github.com/aliwazir/sinner-dataset
Urdu
- IJCNLP 2008 SSEAL: http://ltrc.iiit.ac.in/ner-ssea-08/index.cgi?topic=5
- UNER Dataset (Khan et al., Benannte Entity Dataset für Urdu, genannte Entitätserkennungsaufgabe, 2016). Verfügbar unter http://www.iiu.edu.pk/?page_id=5181
- Mk-pucit: https://www.dropbox.com/sh/1ivw7ykm2tugg94/aab9t5wnn7fynespo7tjjw8la; Siehe: Kanwal et al., Urdu namens Entitätserkennung: Corpus Generation und Deep Learning Applications, 2019
Indik
- NAAMAPADAM: NAMAPADAM NAME ENTITY ERKUNNIGUNG (NER) für 11 große indische Sprachen aus zwei Sprachfamilien. https://research.ibm.com/publications/naamapadam-a-large-scale-named-entity-notatated-data-for-indic-languages https://ai4bharat.iitm.ac.in/naamapadam
Hindi
- Hiner: https://github.com/cfiltnlp/hininer
- Hindi Health-Datensatz: https://www.kaggle.com/aijain/hindi-health-dataset/home
- Fire 2015, ESM-IL (Englisch, Hindi, Tamil, Malayalam): http://au-kbc.org/nlp/esm-fire2015/#traincorpus
- Feuer Ner 2013 (Englisch, Hindi, Tamil, Malayalam, Bengali): http://au-kbc.org/nlp/ner-fire2013/
- IJCNLP 2008 SSEAL: http://ltrc.iiit.ac.in/ner-ssea-08/index.cgi?topic=5
Bengali
- Feuer Ner 2013 (Englisch, Hindi, Tamil, Malayalam, Bengali): http://au-kbc.org/nlp/ner-fire2013/
- IJCNLP 2008 SSEAL: http://ltrc.iiit.ac.in/ner-ssea-08/index.cgi?topic=5
- Bengali-ner: https://github.com/rifat1493/bengali-ner, https://ieeexplore.ieee.org/document/8944804
- Ner-bangla: https://github.com/misabic/ner-bangla-dataset, https://content.iospress.com/articles/journal-of-intelligent-and-fuzzy-systems/ifs179349
Telugu
- Ner_telugu: https://github.com/anikethjr/ner_telugu
- IJCNLP 2008 SSEAL: http://ltrc.iiit.ac.in/ner-ssea-08/index.cgi?topic=5
- Genannte Entitätsanträge für Telugu: http://www.tdil-dc.in/index.php?option=com_download&task=howresourcedetails&toolid=982&lang=en
Maithili
- Der erste genannte Entitätserkenner in Maithili: Ressourcenerstellung und Systementwicklung: https://content.iospress.com/articles/journal-of-intelligent-and-fuzzy-systems/ifs210051
Nepali
- Everestner: https://journals.flvc.org/flairs/article/view/130725, https://github.com/nowalab/everest-ner
Marathi
- Benannte Entitätsanträge für Marathi: http://www.tdil-dc.in/index.php?option=com_download&task=showresourcedetails&toolid=979&lang=en
- L3cube mahaner: https://arxiv.org/abs/2204.06029 https://github.com/l3cube-pune/marathinlp
Punjabi
- Genannte Entitätsanträge für Punjabi: http://www.tdil-dc.in/index.php?option=com_download&task=howresourcedetails&toolid=980&lang=en
Tamil
- Fire 2015, ESM-IL (Englisch, Hindi, Tamil, Malayalam): http://au-kbc.org/nlp/esm-fire2015/#traincorpus
- Feuer Ner 2013 (Englisch, Hindi, Tamil, Malayalam, Bengali): http://au-kbc.org/nlp/ner-fire2013/
Malayalam
- Fire 2015, ESM-IL (Englisch, Hindi, Tamil, Malayalam): http://au-kbc.org/nlp/esm-fire2015/#traincorpus
- Feuer Ner 2013 (Englisch, Hindi, Tamil, Malayalam, Bengali): http://au-kbc.org/nlp/ner-fire2013/
Oriya/Odia
- IJCNLP 2008 SSEAL: http://ltrc.iiit.ac.in/ner-ssea-08/index.cgi?topic=5
Singhala/Singhalesen
Thai
- thai-named-entity-recognition-data: https://github.com/pythainlp/thai-named-entity-recognition-data
- Thai Named Entity Corpora: http://pioneer.chula.ac.th/~awirote/resources/corpora-data.html; http://pioneer.chula.ac.th/~awirote/data-nutcha.zip; http://pioneer.chula.ac.th/~awirote/data-sasiwimon.zip; http://pioneer.chula.ac.th/~awirote/data-nattadaporn.zip
- Lst20: https://huggingface.co/datasets/lst20; https://arxiv.org/abs/2008.05055
- Thai-nner: https://github.com/vistec-ai/thai-nner, https://aclanthology.org/2022.findings-acl.116
Indonesisch
- Identisch: http://metashare.elda.org/repository/browse/idual
- https://github.com/yohanesgultom/nlp-experiments/tree/master/data/ner
- Indonesia-nern:
- IDNER-News-2K: Ein Datensatz indonesischer Nachrichten für die Aufgabe der benannten Inde-Erkennung. Wiederholung von Syaifudin & Nurwidyantoro https://dl.acm.org/doi/10.1145/3592854#fn8 https://github.com/khairunnisaor/idner-news-2k/
- Nerp und Ner-Grit: Zwei indonesische Datensätze von indonlp/indonlu https://github.com/indonlp/indonlu/tree/master/dataset https://aclanthology.org/2020.aacl-main.85/
Vietnamesisch
- VLSP 2016: http://vlsp.org.vn/resources-vlsp2016; https://github.com/undertheseanlp/ner
- VLSP 2018: http://vlsp.org.vn/resources-vlsp2018; https://github.com/undertheseanlp/ner
- Phoner_Covid19: https://github.com/vinairesearch/phoner_covid19
japanisch
- Irex: https://nlp.cs.nyu.edu/irex/package/
- Met-2 (Japanisch, Chinesisch): https://www-nlpirist.gov/related_projects/muc/
- BCCWJ BASIC NE CORPUS: https://sites.google.com/site/projectnextnlpne/en (Iwakura et al., Konstruktion eines japanischen Basic namens Entity Corpus verschiedener Genres, News 2016)
- Dbpedia Abstract Corpus (Englisch, Deutsch, Niederländisch, Französisch, Italienisch, Japanisch): http://downloads.dbpedia.org/2015-04/ext/nlp/abstracts/
- Daten von: Mai et al., Eine empirische Studie zur fein-grausam genannten Entitätserkennung, Coling 2018 (Englisch, Japanisch): https://fgner.alt.ai/duc/ene/testsets/comp/
- Wikipedia Ner Corpus: https://github.com/stockmarkteam/ner-wikipedia-dataset
- Wikiann: https://elisa-ie.github.io/wikiann/
- GSD: Konvertierung des UD GSD-Datensatzes in genannte Entities by Megagon Labs https://github.com/megagonlabs/ud_japanese-gsd
- KWDLC: Kyoto University Web Dokument leitet Corpus https://nlp.iist.i.kyoto-u.ac.jp/en/index.php?kwdlc https://github.com/ku-nlp/kwdlc https
Koreanisch
- Nationales Institut für koreanische Sprache (ROK) - Ner Corpus: https://github.com/digitalprk/Koreaner; https://ithub.korean.go.kr/user/total/referenceview.do?boardSeq=5&articleSeq=118&boardgb=t&isinsUpd&boardtype=corpus
- KMOU NER - https://github.com/kmounlp/ner
- Bewertung des Koreanischen Sprachverständnisse
- https://github.com/songys/entity
- HLCT 2016 Corpus mit Updates - https://github.com/maachinereading/Koreannercorpus
chinesisch
- ACE 2003 (Englisch, Chinesisch, Arabisch): https://catalog.ldc.upenn.edu/ldc2004t09
- ACE 2004 (Englisch, Chinesisch, Arabisch): https://catalog.ldc.upenn.edu/ldc2005t09
- ACE 2005 (Englisch, Chinesisch, Arabisch): https://catalog.ldc.upenn.edu/ldc2006t06
- Ontonotes 5 (Englisch, Arabisch, Chinesisch): https://catalog.ldc.upenn.edu/ldc2013t19
- Met-2 (Japanisch, Chinesisch): https://www-nlpirist.gov/related_projects/muc/
- Übersetzung von Reflex Entity (Parallel Corpus: Englisch, Arabisch, Chinesisch): https://catalog.ldc.upenn.edu/ldc2009t111111
- NE3L ernannte Entitäten Chinese Corpus (arabisch, chinesisch, russisch): http://catalogue.elra.info/en-us/repository/browse/elra-w0079/
- Original Short-Message-Datenkollation I auf Chinesisch (genannte Entitäten): http://catalog.elra.info/en-us/repository/browse/elra-w0045_04/
- Original-Short-Message-Datenkollation II auf Chinesisch (genannte Entitäten): http://catalog.elra.info/en-us/repository/browse/elra-w0045_08/
- ERE FETTE CORPORA (Parallel Corpus: Englisch, Chinesisch): Mott et al., Parallel chinesisch-englische Einheiten, Beziehungen und Veranstaltungen, 2016 (LDC2015E78, LDC2014E114)
- Chinesische Weibo: geschickte Ere-Stilanmerkungen für benannte und nominale Erwähnungen in chinesischen Social Media (Weibo): https://github.com/hltcoe/golden-horse
- Chinesischer Eduner: 2023 Datensatz im Bildungsbereich: https://link.springer.com/article/10.1007/s00521-023-08635-5 https://github.com/anonymous-xl/eduner
- Chinesische Luft- und Raumfahrt Ner: https://www.nature.com/articles/s41598-023-50705-0 https://github.com/coder-xiaokai/aerospace_nerdatasetsetssätze
- SciCN: A Chinese Dataset and Benchmark for Scientific Information Extraction https://file.techscience.com/files/cmc/2024/TSP_CMC-78-3/TSP_CMC_35594/TSP_CMC_35594.pdf https://github.com/yangjingla/SciCN
- EMP NER: Historical Chinese https://aclanthology.org/2024.lrec-main.35.pdf https://gitlab.com/enpchina/ENP-NER
Tagalog
- TLUnifed: https://arxiv.org/abs/2311.07161 https://huggingface.co/datasets/ljvmiranda921/tlunified-ner
Russisch
- BSNLP 2017 (Croatian, Czech, Polish, Russian, Slovak, Slovene, Ukrainian): http://bsnlp-2017.cs.helsinki.fi/shared_task_results.html
- NE3L named entities Russian corpus (Arabic, Chinese, Russian): https://catalog.elra.info/en-us/repository/browse/ELRA-W0080/
- WikiNER: https://figshare.com/articles/Learning_multilingual_named_entity_recognition_from_Wikipedia/5462500
- WikiNEuRal: https://github.com/Babelscape/wikineural
- MultiNERD: https://github.com/Babelscape/multinerd
- factRuEval-2016: https://github.com/dialogue-evaluation/factRuEval-2016
- RuREBus 2020 (Russian Relation Extraction for Business) corpus https://github.com/dialogue-evaluation/RuREBus
Yoruba
- GV-Yorùbá-NER. Data: https://github.com/ajesujoba/YorubaTwi-Embedding/tree/master/Yoruba/Yor%C3%B9b%C3%A1-NER ; Data statement: https://drive.google.com/file/d/177xu-O2FTJ7VJQ-0ohCWjVd1qu61Tvml/view Paper: Jesujoba O Alabi, Kwabena Amponsah-Kaakyire, David I Adelani, and Cristina Espãna-Bonet. Massive vs. curated word embeddings for low-resourced languages. the case of Yorùbá and Twi. In LREC, 2020 (https://arxiv.org/abs/1912.02481)
Swahili
- Helsinki Corpus of Swahili 2.0 (HCS 2.0) Annotated Version: http://metashare.csc.fi/repository/browse/helsinki-corpus-of-swahili-20-hcs-20-annotated-version/232c1910b9eb11e5915e005056be118e59fb2e920f1f4c0cafc94915fc6f5cac/ See: Shah et al., 2010. SYNERGY: A Named Entity Recognition System for Resource-scarce Languages such as Swahili using Online Machine Translation
Igbo
- IgboNER: https://aclanthology.org/2022.lrec-1.547/ https://github.com/Chiamakac/IgboNER-Models later updated in https://openreview.net/pdf?id=tHUS9-vmUfC from https://sites.google.com/view/africanlp2023/home
isiNdebele
- NCHLT isiNdebele Named Entity Annotated Corpus: https://repo.sadilar.org/handle/20.500.12185/306
Xhosa
- NCHLT isiXhosa Named Entity Annotated Corpus: https://repo.sadilar.org/handle/20.500.12185/312
Zulu
- NCHLT isiZulu Named Entity Annotated Corpus: https://repo.sadilar.org/handle/20.500.12185/319
Sepedi
- NCHLT Sepedi Named Entity Annotated Corpus: https://repo.sadilar.org/handle/20.500.12185/328
Sesotho
- NCHLT Sesotho Named Entity Annotated Corpus: https://repo.sadilar.org/handle/20.500.12185/334
Setswana
- NCHLT Setswana Named Entity Annotated Corpus: https://repo.sadilar.org/handle/20.500.12185/341
Siswati
- NCHLT Siswati Named Entity Annotated Corpus: https://repo.sadilar.org/handle/20.500.12185/346
Venda
- NCHLT Tshivenda Named Entity Annotated Corpus: https://repo.sadilar.org/handle/20.500.12185/355
- MPHAYANER: Named Entity Recognition for Tshivenḓa: https://openreview.net/pdf?id=0nneuL3bSLt https://github.com/rendanim/MphayaNER from https://sites.google.com/view/africanlp2023/home
Xitsonga
- NCHLT Xitsonga Named Entity Annotated Corpus: https://repo.sadilar.org/handle/20.500.12185/362
lateinisch
- Herodotos Project: https://github.com/alexerdmann/Herodotos_Project_Annotation
A long list can be found here: http://damien.nouvels.net/resourcesen/corpora.html
Referenzen
[Alvarado et al., 2015] Alvarado, Julio Cesar Salinas, Karin Verspoor, and Timothy Baldwin. Domain adaption of named entity recognition to support credit risk assessment. In Proceedings of the Australasian Language Technology Association Workshop 2015, pp. 84-90. 2015. Accessed: August 2018.
[Balasuriya et al., 2009] Balasuriya, Dominic, Nicky Ringland, Joel Nothman, Tara Murphy, and James R. Curran. Named entity recognition in wikipedia. In Proceedings of the 2009 Workshop on The People's Web Meets NLP: Collaboratively Constructed Semantic Resources, pp. 10-18. Association for Computational Linguistics, 2009
[Bos et al., 2017] Bos, Johan, Valerio Basile, Kilian Evang, Noortje J. Venhuizen, and Johannes Bjerva. The Groningen meaning bank. In Handbook of linguistic annotation, pp. 463-496. Springer, Dordrecht, 2017.
[Derczynski et al., 2016] Derczynski, Leon, Kalina Bontcheva, and Ian Roberts. Broad twitter corpus: A diverse named entity recognition resource. In Proceedings of COLING 2016, the 26th International Conference on Computational Linguistics: Technical Papers, pp. 1169-1179. 2016. Available at: https://github.com/GateNLP/broad_twitter_corpus Accessed: August 2018.
[Derczynski et al., 2017] Leon Derczynski, Eric Nichols, Marieke van Erp, Nut Limsopatham (2017) Results of the WNUT2017 Shared Task on Novel and Emerging Entity Recognition, in Proceedings of the 3rd Workshop on Noisy, User-generated Text. Available at: https://noisy-text.github.io/2017/emerging-rare-entities.html
[DSTL, 2017] Defence Science and Technology Laboratory. 2017. Relationship and Entity Extraction Evaluation Dataset. https://github.com/dstl/re3d. Accessed: January 2018.
[Grishman and Sundheim, 1996] Ralph Grishman and Beth Sundheim. 1996. Message understanding conference- 6: A brief history. In COLING 1996 Volume 1: The 16th International Conference on Computational Linguistics.
[Karimi et al., 2015] Sarvnaz Karimi, Alejandro Metke-Jimenez, Madonna Kemp, and Chen Wang. 2015. Cadec: A corpus of adverse drug event annotations. Journal of biomedical informatics, 55:73-81. Available at https://data.csiro.au Accessed: November 2017.
[Lim et al., 2017] Lim, Swee Kiat, Aldrian Obaja Muis, Wei Lu, and Chen Hui Ong. MalwareTextDB: A database for annotated malware articles. In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), vol. 1, pp. 1557-1567. 2017.
[Liu et al., 2013a] Jingjing Liu, Panupong Pasupat, Scott Cyphers, and Jim Glass. 2013. Asgard: A portable architecture for multilingual dialogue systems. In Acoustics, Speech and Signal Processing (ICASSP), 2013 IEEE International Conference on, pages 8386-8390. IEEE. Available at https://groups.csail.mit.edu/sls/downloads/restaurant/ Accessed: January 2018
[Liu et al., 2013b] Jingjing Liu, Panupong Pasupat, Yining Wang, Scott Cyphers, and Jim Glass. 2013. Query understanding enhanced by hierarchical parsing structures. In Automatic Speech Recognition and Understanding (ASRU), 2013 IEEE Workshop on, pages 72-77. IEEE. Available at https://groups.csail.mit.edu/sls/downloads/movie/ We used the trivia10k13 portion. Accessed: January 2018
[NIST, 1999 IE-ER] NIST. 1999. Information Extraction - Entity Recognition Evaluation. http://www.nist.gov/speech/tests/ieer/er_99/er_99.htm. The newswire development test data only (included in the NLTK package).
[Ohta et al., 2012] Tomoko Ohta, Sampo Pyysalo, Jun'ichi Tsujii and Sophia Ananiadou. 2012. Open-domain Anatomical Entity Mention Detection. In Proceedings of ACL 2012 Workshop on Detecting Structure in Scholarly Discourse (DSSD), pp. 27-36. Available at: http://www.nactem.ac.uk/anatomy/ and https://github.com/openbiocorpora/anem Accessed: November 2017.
[Ritter et al., 2011] Alan Ritter, Sam Clark, Mausam, and Oren Etzioni. 2011. Named entity recognition in tweets: An experimental study. In Proceedings of the 2011 Conference on Empirical Methods in Natural Language Processing, pages 1524-1534, Edinburgh, Scotland, UK., July. Association for Computational Linguistics. Accessed January 2018.
[Sang and Meulder, 2003] Erik F. Tjong Kim Sang and Fien De Meulder. 2003. Introduction to the CoNLL-2003 shared task: Languageindependent named entity recognition. In Proceedings of the Seventh Conference on Natural Language Learning at HLT-NAACL 2003.
[Stubbs et al., 2015] Amber Stubbs and Ozlem Uzuner. 2015. Annotating longitudinal clinical narratives for de-identification: The 2014 i2b2/UTHealth corpus. Journal of biomedical informatics, 58:S20-S29. Available at https://www.i2b2.org/NLP/DataSets/ Accessed: February 2018.
[Uzuner et al., 2007] Ozlem Uzuner, Yuan Luo, and Peter Szolovits. 2007. Evaluating the state-of-the-art in automatic de-identification. Journal of the American Medical Informatics Association, 14(5):550-563. Available at https://www.i2b2.org/NLP/DataSets/ Accessed: February 2018.
[Weischedel and Brunstein, 2005] Ralph Weischedel and Ada Brunstein. 2005. BBN pronoun coreference and entity type corpus. Linguistic Data Consortium, Philadelphia.
[Weischedel et al., 2013] Weischedel, Ralph, Martha Palmer, Mitchell Marcus, Eduard Hovy, Sameer Pradhan, Lance Ramshaw, Nianwen Xue et al. Ontonotes release 5.0 ldc2013t19. Linguistic Data Consortium, Philadelphia, PA (2013).
[Zeldes, 2017] Amir Zeldes. 2017. The GUM corpus: creating multilayer resources in the classroom. Language Resources and Evaluation, 51(3):581-612. Available at https://github.com/amir-zeldes/gum/tree/master/coref/tsv/ Accessed: November 2017.