Ensembles de données pour la reconnaissance des entités
Ce référentiel contient des ensembles de données de plusieurs domaines annotés avec une variété de types d'entités, utiles pour la reconnaissance de l'entité et les tâches de reconnaissance d'entités nommées (NER).
Remarque: je n'aijoute plus activement des ensembles de données à cette liste - il y a probablement plus de ensembles de données NER qui sont apparus depuis 2020. Cependant, je suis heureux d'ajouter plus de ensembles de données via des problèmes ou des demandes de traction.
Ensembles de données pour NER en anglais
Le tableau suivant montre la liste des ensembles de données pour la reconnaissance des entités de langue anglaise (pour une liste des ensembles de données NER dans d'autres langues, voir ci-dessous). Le répertoire de données contient des informations sur l'obtention de ces ensembles de données qui ne pourraient pas être partagés en raison de restrictions de licence, ainsi que du code pour les convertir (si nécessaire) au format Conll 2003. Les liens vers les corpus NER dans d'autres langues sont également répertoriés ci-dessous.
| Ensemble de données | Domaine | Licence | Référence | Disponibilité |
|---|
| Conll 2003 | Nouvelles | Dua | Sang et Meulder, 2003 | Facile à trouver |
| Nist-ier | Nouvelles | Aucun | Nist 1999 ie-er | Données NLTK |
| MUC-6 | Nouvelles | LDC | Grishman et Sundheim, 1996 | LDC 2003T13 |
| Ontonotes 5 | Divers | LDC | Weischedel et al., 2013 | LDC 2013T19 |
| Bbn | Divers | LDC | Weischedel et Brunstein, 2005 | LDC 2005T33 |
| GMB-1.0.0 | Divers | Aucun | Bos et al., 2017 | http://gmb.let.rug.nl/data.php |
| Gum-3.1.0 | Wiki | Plusieurs ( * 2) | Zeldes, 2016 | ✔ inclus ici |
| wikigold | Wikipedia | CC-BY 4.0 | Balasuriya et al., 2009 | ✔ inclus ici |
| Radin | Gazouillement | Aucun | Ritter et al., 2011 | Pas de fente, train / test / dévoilement |
| BTC | Gazouillement | CC-BY 4.0 | Derczynski et al., 2016 | ✔ inclus ici |
| WNUT17 | Réseaux sociaux | CC-BY 4.0 | Derczynski et al., 2017 | ✔ inclus ici |
| I2B2-2006 | Médical | Dua | Uzuner et al., 2007 | http://www.i2b2.org |
| I2B2-2014 | Médical | Dua | Stubbs et al., 2015 | http://www.i2b2.org |
| Cadec | Médical | Csiro | Karimi et al., 2015 | http://data.csiro.au/ |
| Anem | Anatomique | Cc-by-sa 3.0 | Ohta et al., 2012 | ✔ inclus ici |
| Mitestaurant | Requêtes | Aucun | Liu et al., 2013a | http://groups.csail.mit.edu/sls/ |
| Mitmovie | Requêtes | Aucun | Liu et al., 2013b | http://groups.csail.mit.edu/sls/ |
| Malwaretextdb | Malware | Aucun | Lim et al., 2017 | http://www.statnlp.org/ |
| re3d | Défense | Plusieurs ( * 1) | DSTL, 2017 | ✔ inclus ici |
| SEC Filings | Finance | Cc-by 3.0 | Alvarado et al., 2015 | ✔ inclus ici |
| Assemblée | Robotique | X | Costa et al., 2017 | X |
| Wikineural | Wikipedia | CC BY-SA-NC 4.0 | Tedeschi et al., 2021 | https://github.com/babelscape/wikineural |
| Multinerd | Wikipedia | CC BY-SA-NC 4.0 | Tedeschi et al., 2022 | https://github.com/babelscape/multinerd |
| HIPE-2022 | Historique | CC BY-SA-NC 4.0 | Ehrmann et al., 2022 | https://github.com/hipe-val/hipe-2022-data |
| Music | Musique | Mit | Epure et Hennequin, 2023 | https://github.com/deezer/music-ner-acl2023 |
| Wiesp2022-ner | Astrophysique | CC BY-SA-NC 4.0 | Grezes et al., 2022 | https://huggingface.co/datasets/adsabs/wiesp2022-ner |
| NNE | Nouvelles | CC 4.0 / LDC | Ringland et al., 2019 | https://github.com/nickyringland/neted_named_entities |
| Mondial | Nouvelles | CC BY-SA-NC 4.0 | Shan et al., 2023 | https://github.com/stanfordnlp/en-worldwide-newswire https://arxiv.org/abs/2404.13465 |
Licence
Notes sur les licences:
(1) RE3D ("DataSe de données d'évaluation de l'extraction des relations et des entités") contient plusieurs ensembles de données, avec différentes licences. Ce sont:
- CC-BY-SA 3.0 (ensemble de données Wikipedia)
- CC BY-NC 3.0 (ensemble de données BBC_ONLINE)
- CC par 3.0 AU (Australian_dePartment_Of_Foreign_Affairs DataSet)
- Domaine public (US_STATE_DEPARTMENT Dataset, Centcom DataSet)
- UK Open Government License v3.0 (UK_Government Dataset)
- Delegation_Of_The_Europen_Union_To_Syria: Voir https://eeas.europa.eu/delegations/syria/8157/legal-notice_en
- Gum 3.1.0 comprend trois ensembles de données, avec des licences CC-BY 3.0, CC-BY-SA 3.0 et CC-BY-NC-SA 3.0. Les annotations sont autorisées sous CC-BY 4.0.
Des informations de licence plus détaillées pour chaque ensemble de données peuvent être trouvées dans le sous-répertoire correspondant.
Plus tard ... - Tabassum et al., Code et reconnaissance de l'entité nommée dans Stackoverflow https://cocoxu.github.io/publications/acl2020_stackoverflow_ner.pdf - litrebank: https://gihub.com/dbamman/litbank (Bamman, Popat et Shen, an annot dataSet of Litterary entités, Naacl NNE: un ensemble de données pour la reconnaissance des entités nommées imbriquées en anglais Newswire, 2019 https://github.com/nickyringland/neted_named_entities - MARS Target Encyclopedia - LPSC Abstracts Set Data Set: https://zenodo.org/record/1048419#.w5a2cbwnzhe - https://www.kaggle.com/dataturks/best-buy-ecommerce-ner-dataset/home - CV entités pour Ner: https://www.kaggle.com/dataturks/resume-entities-for-ner/home - Few-nerd: quelques-uns nommés entité de réception de données en entité notamment nommés entités de l'Entity Entity https://aclanthology.org/2021.acl-long.248/
Ensembles de données pour NER dans d'autres langues
Ressources de l'entité nommée lexicale
- Heiner: http://heiner.cl.uni-heidelberg.de/index.shtml
- Neckar: https://event.ifi.uni-heidelberg.de/?page_id=532#wikidata_ne_dataset
Commutation de code
- Tweets en anglais (calcs 2018): https://code-switching.github.io/2018/; https://code-switching.github.io/2018/files/spa-eng/release.zip; http://www.aclweb.org/anthology/W18-3219
- Tweets arabe-egyptiens (Calcs 2018): https://code-switching.github.io/2018/; https://code-switching.github.io/2018/files/msa-egy/arabictweetStokenSigaler.zip; http://www.aclweb.org/anthology/W18-3219
- Texte des médias sociaux hindi-anglais: https://github.com/silentflame/named-entity-recognition; http://aclweb.org/anthology/w18-2405
- EMNLP 2014 Tâche partagée - Tweets à commutation de code (Népali-anglais, espagnol-anglais, mandarin-anglais, arabe-arabique
Allemand
- Conll 2003 (anglais, allemand): https://www.clips.uantwerpen.be/conll2003/ner/
- GERMEVAL 2014: https://sites.google.com/site/germerval2014ner/data
- Tübingen Treebank of écrit allemand (tüba-d / z): http://www.sfs.uni-tuebingen.de/en/ascl/resources/corpora/tueba-dz.html
- Journaux européensa (néerlandais, français, allemand): https://github.com/europeanewspapers/ner-corpora; http://lab.kb.nl/dataset/europeana-newspapers-ner#access
- Transcriptions allemandes Europarl (sous-ensemble): https://nlpado.de/~sebastian/software/ner_german.shtml
- Modèle d'entité nommé pour l'allemand, Politique (NEMGP): https://www.thomas-zastrow.de/nlp/
- Wikiner: https://figshare.com/articles/learning_mullingual_named_entity_recognition_from_wikipedia/5462500
- Wikineural: https://github.com/babelscape/wikineural
- Multinerd: https://github.com/babelscape/multinerd
- DFKI SmartData Corpus (géo-entités): https://dfki-lt-re-group.bitbucket.io/smartdata-corpus/ (un Corpus allemand pour la reconnaissance entité et la relation de la trafic et de l'industrie. Gabryszak, Leonhard Hennig.
- Dbpedia Résumé Corpus (anglais, allemand, néerlandais, français, italien, japonais): http://downloads.dbpedia.org/2015-04/ext/nlp/abstracts/
- Dawt DataSet - Textes Wikipedia densément annotés à travers plusieurs langues (anglais, espagnol, français, italien, allemand, arabe): https://github.com/klout/opendata/tree/master/wiki_annotation
- Elena Leitner, Georg Rehm, Juli ́an Moreno-Schneider, Un ensemble de données de documents juridiques allemands pour la reconnaissance de l'entité nommée, LREC 2020: http://georg-re.hm/pdf/lrec-2020-leitner-et-al-preprint.pdf; Données: https://github.com/elenanereiss/legal-entity-recognition
- HIPE-2022, Nommé Reconnaissance de l'entité et entité liant les documents historiques multilingues: https://hipe-val.github.io/hipe-2022/ https://github.com/hipe-eval/hipe-2022-Data
Néerlandais
- Conll 2002 (espagnol, néerlandais): https://www.clips.uantwerpen.be/conll2002/ner/
- Journaux européensa (néerlandais, français, allemand): https://github.com/europeanewspapers/ner-corpora; http://lab.kb.nl/dataset/europeana-newspapers-ner#access
- En attendant Corpus (Parallel Corpus: Anglais, Espagnol, Italien, néerlandais): http://www.newsreader-project.eu/results/data/wikinews/
- Wikiner: https://figshare.com/articles/learning_mullingual_named_entity_recognition_from_wikipedia/5462500
- Wikineural: https://github.com/babelscape/wikineural
- Multinerd: https://github.com/babelscape/multinerd
- Dbpedia Résumé Corpus (anglais, allemand, néerlandais, français, italien, japonais): http://downloads.dbpedia.org/2015-04/ext/nlp/abstracts/
- Documents parlementaires néerlandais 2015-2016, à partir de 1848.nl (Jonkers, nommé entité de reconnaissance sur des documents parlementaires néerlandais utilisant Frog, thèse, Université d'Amsterdam, 2016): https://github.com/poezedoez/ner/blob/master/code/data/lobby/golden_standardard
- Sonar 1 - Desmet and Hoste, Néerlandais à grain fin, reconnaissance de l'entité, 2014 (hiérarchie des classes)
- Corpus-Sonar Books et Corpus Gutenberg Dutch: http://blog.namescape.nl/?page_id=85; http://portal.clarin.nl/node/1940
afrikaans
- Nchlt afrikaans nommé entité annotée corpus: https://repo.sadilar.org/handle/20.500.12185/299
Espagnol
- Conll 2002 (espagnol, néerlandais): https://www.clips.uantwerpen.be/conll2002/ner/
- Ancora (espagnol, catalan): http://clic.ub.edu/corpus/en
- Treebank espagnol habile (LDC2018T01): https://catalog.ldc.upenn.edu/LDC2018T01
- Panacea (laboratoire): http://panacea-lr.eu/en/info-for-researchers/data-sets/dependency-parsed-corpora/dependency-nab-es
- Panacea (Env): http://panacea-lr.eu/en/info-for-researchers/data-sets/dependency-parsed-corpora/dependency-env-es
- En attendant Corpus (Parallel Corpus: Anglais, Espagnol, Italien, néerlandais): http://www.newsreader-project.eu/results/data/wikinews/
- ACE 2007 (espagnol et arabe): https://catalog.ldc.upenn.edu/LDC2014T18
- Wikiner: https://figshare.com/articles/learning_mullingual_named_entity_recognition_from_wikipedia/5462500
- Wikineural: https://github.com/babelscape/wikineural
- Multinerd: https://github.com/babelscape/multinerd
- http://www.grupolys.org/~marcos/pub/lrec16.tar.bz2 (utilisé dans "Incorporer l'heuristique Lexico-sémantique dans les tamis de résolution de coreférence pour la reconnaissance d'entité nommée au niveau de document"))
- Corpaces multilingues avec annotation coreférentielle des entités de personne (espagnol, galicien, portugais): http://gramatica.usc.es/~marcos/lrec.tar.bz2
- Standard en or de la drogue (Moreno et al., DrugSémantique: un corpus pour la reconnaissance des entités nommés dans les résumés espagnols des caractéristiques des produits, 2017): https://data.mendeley.com/datasets/fwc7jrc5jr/1
- Dbpedia Résumé Corpus (anglais, allemand, néerlandais, français, italien, japonais): http://downloads.dbpedia.org/2015-04/ext/nlp/abstracts/
- Dawt DataSet - Textes Wikipedia densément annotés à travers plusieurs langues (anglais, espagnol, français, italien, allemand, arabe): https://github.com/klout/opendata/tree/master/wiki_annotation
- Le cantémist (mine de texte de cancer tâche partagée - la reconnaissance de l'entité nommée tumeur) - Reconnaissance de l'entité nommée d'un type de concept critique lié au cancer, à savoir la morphologie tumorale dans les textes médicaux espagnols: https://temu.bsc.es/cantemist/
catalan
- Ancora (espagnol, catalan): http://clic.ub.edu/corpus/en
Galicien
- Galicien Ner Corpus: https://gramatica.usc.es/~marcos/resources/corpus_gal_nec.txt.gz
- Corpaces multilingues avec annotation coreférentielle des entités de personne (espagnol, galicien, portugais): http://gramatica.usc.es/~marcos/lrec.tar.bz2
Basque
- Basque Nommé entités Corpus (EIEC): http://ixa.eus/node/4486?language=en
- Basque Désambigué Nommé entités Corpus (Ediec): http://ixa.si.ehu.es/node/4485?language=en
- EGUNKARIA 2000 Corpus (383 textes de Newswire), mentionné dans http://qtleap.eu/wp-content/uploads/2014/04/qtleap-2013-d5.1.pdf
portugais
- Harem: https://www.linguateca.pt/aval_conjunta/harem/harem_ing.html
- Cintil Corpus: http://cintil.ul.pt/cintilfeatures.html#corpus
- Wikiner: https://figshare.com/articles/learning_mullingual_named_entity_recognition_from_wikipedia/5462500
- Wikineural: https://github.com/babelscape/wikineural
- Multinerd: https://github.com/babelscape/multinerd
- Corpaces multilingues avec annotation coreférentielle des entités de personne (espagnol, galicien, portugais): http://gramatica.usc.es/~marcos/lrec.tar.bz2
- Bosque 8.0 Format des aigles: https://gramatica.usc.es/~marcos/resources/corpora_flpt.tgz
- Lener-BR (documents juridiques brésiliens): https://cic.unb.br/~teodecampos/lener-br/
- Paramopama: un corpus brésilien-portugais pour la reconnaissance de l'entité nommée
Français
- Ester: http://catalogue.elra.info/en-us/repository/browse/elra-s0241/
- Ester 2: http://catalogue.elra.info/en-us/repository/browse/elra-s0338/
- Etape: http://catalogue.elra.info/en-us/repository/browse/elra-e0046/
- Journaux européensa (néerlandais, français, allemand): https://github.com/europeanewspapers/ner-corpora; http://lab.kb.nl/dataset/europeana-newspapers-ner#access
- Quaero French Medical Corpus: https://quaerofrenchmed.limsi.fr/
- Quaero Broadcast News prolongé entité nommée Corpus: http://catalog.elra.info/en-us/repository/browse/elra-s0349/
- Quaero Old Press Extended Named Entity Corpus: http://catalog.elra.info/en-us/repository/browse/elra-w0073/
- Wikiner: https://figshare.com/articles/learning_mullingual_named_entity_recognition_from_wikipedia/5462500
- Wikiner-fr-gold https://arxiv.org/abs/2411.00030 https://huggingface.co/datasets/danrun/wikiner-fr-gold
- Wikineural: https://github.com/babelscape/wikineural
- Multinerd: https://github.com/babelscape/multinerd
- Dbpedia Résumé Corpus (anglais, allemand, néerlandais, français, italien, japonais): http://downloads.dbpedia.org/2015-04/ext/nlp/abstracts/
- Dawt DataSet - Textes Wikipedia densément annotés à travers plusieurs langues (anglais, espagnol, français, italien, allemand, arabe): https://github.com/klout/opendata/tree/master/wiki_annotation
- CAP 2017 - (Twitter Data), Lopez et al., Cap 2017 Challenge: Twitter Named Entity Reconnition, 2017: http://cap2017.imag.fr/competition.html
- HIPE-2022, Nommé Reconnaissance de l'entité et entité liant les documents historiques multilingues: https://hipe-val.github.io/hipe-2022/ https://github.com/hipe-eval/hipe-2022-Data
italien
- KING: https://github.com/dhfbk/kind
- Evalua: http://www.evalita.it/2009/tasks/entity
- En attendant Corpus (Parallel Corpus: Anglais, Espagnol, Italien, néerlandais): http://www.newsreader-project.eu/results/data/wikinews/
- Panacea (Env): http://panacea-lr.eu/en/info-for-researchers/data-sets/dependency-parsed-corpora/dependency-env-it
- Panacea (laboratoire): http://panacea-lr.eu/en/info-for-researchers/data-sets/dependency-parsed-corpora/dependency-nab-it
- Wikiner: https://figshare.com/articles/learning_mullingual_named_entity_recognition_from_wikipedia/5462500
- Wikineural: https://github.com/babelscape/wikineural
- Multinerd: https://github.com/babelscape/multinerd
- Dbpedia Résumé Corpus (anglais, allemand, néerlandais, français, italien, japonais): http://downloads.dbpedia.org/2015-04/ext/nlp/abstracts/
- Dawt DataSet - Textes Wikipedia densément annotés à travers plusieurs langues (anglais, espagnol, français, italien, allemand, arabe): https://github.com/klout/opendata/tree/master/wiki_annotation
roumain
- RONEC (Dumitrescu et Avram, introduisant Ronec - L'entité nommée Roumanie. LREC 2020). Papier: https://arxiv.org/pdf/1909.01247.pdf Données: https://github.com/dumitrescustefan/ronec
- Corpus journalistique roumain (ROCO): http://metashare.elda.org/repository/browse/romanian-journalistic-corpus-roco/038baa80dc7311e5aa0b00237df3e3583781d7c0f2084057aa018a2d63d987e9/
- Corpus équilibré roumain (Rombac): http://metashare.elda.org/repository/browse/romanian-balanced-corpus-rombac/0a7dd85edc7311e5aa0b00237df3e35873a0d662435d42dd94fba48c29dc0065/fr
grec
- Panacea (Env): http://panacea-lr.eu/en/info-for-researchers/data-sets/dependency-parsed-corpora/dependency-env-el
- Panacea (laboratoire): http://panacea-lr.eu/en/info-for-researchers/data-sets/dependency-parsed-corpora/dependency-lab-el
hongrois
- Hongrois nommé Entity Corpora: http://rgai.inf.u-szeged.hu/index.php?lang=en&page=corpus_ne
- Hunnerwiki: http://hlt.sztaki.hu/resources/hunnerwiki.html
- Nytk: https://github.com/nytud/nytk-nerkor
tchèque
- Tchèque nommé Entity Corpus: http://ufal.mff.cuni.cz/cnec
- BSNLP 2017 (Croate, tchèque, polonais, russe, slovaque, slovène, ukrainien): http://bsnlp-2017.cs.helsinki.fi/shared_task_results.html
- Czeng 1.0 (Corpus parallèle: tchèque-anglais): http://ufal.mff.cuni.cz/czeng/czeng10
- Pero OCR Ner (Chronique OCR historique tchèque): https://github.com/roman-janik/poner https://dspace.vut.cz/items/6092e1b0-3d75-4451-8582-28573AC30404
polonais
- Le Corpus polonais Sejm: http://clip.ipipan.waw.pl/psc
- BSNLP 2017 (Croate, tchèque, polonais, russe, slovaque, slovène, ukrainien): http://bsnlp-2017.cs.helsinki.fi/shared_task_results.html
- Corpus de coreférence polonais: http://zil.ipipan.waw.pl/polishcoreferencecorpus
- Wikiner: https://figshare.com/articles/learning_mullingual_named_entity_recognition_from_wikipedia/5462500
- Wikineural: https://github.com/babelscape/wikineural
- Multinerd: https://github.com/babelscape/multinerd
- Corpus of Economic News (Cen Corpus): http://www.nlp.pwr.wro.pl/narzedzia-i-zasoby/zasoby/cen
- KPWR (Korpus Języka Polskiego Politechniki Wrocławskiej / POLOST CORPUS OF WROCłAW UNIVERSITY OF TECHNOLOGY): http://plwordnet.pwr.wroc.pl/index.php?option=com_content&view=article&id=35&itemid=181&lang=pl; http://plwordnet.pwr.wro.pl/attachments/article/35/kpwr-1.1.7z (Broda et al., KPWR: Vers A Free Corpus of Polish, 2012)
- Nkjp: http://clip.ipipan.waw.pl/nationalcorpusofpolish?action=attachfile&do=view&target=nkjp-podkorpusmilionowy-1.2.tar.gz
croate
- HR500K 1.0: http://hdl.handle.net/11356/1183
- BSNLP 2017 (Croate, tchèque, polonais, russe, slovaque, slovène, ukrainien): http://bsnlp-2017.cs.helsinki.fi/shared_task_results.html
- Reldi-normtagner-hr (tweets croate): http://hdl.handle.net/11356/1170
slovaque
- BSNLP 2017 (Croate, tchèque, polonais, russe, slovaque, slovène, ukrainien): http://bsnlp-2017.cs.helsinki.fi/shared_task_results.html
- Slovak Classé News Corpus: https://nlp.web.tuke.sk/pages/categorizednews
slovène
- BSNLP 2017 (Croate, tchèque, polonais, russe, slovaque, slovène, ukrainien): http://bsnlp-2017.cs.helsinki.fi/shared_task_results.html
- SSJ500K: http://www.slovenscina.eu/tehnologije/ucni-korpus; http://eng.slovenscina.eu/tehnologije/ucni-korpus; https://www.clarin.si/Repository/xmlui/handle/11356/1029; Remarque: pour V 2.2 Voir: http://hdl.handle.net/11356/1210
- Slovène News: http://zitnik.si/mediaki/index.php?title=datasets#slovène_news; http://zitnik.si/mediaKi/images/7/7d/rtvslo_dec2011.tsv; http://zitnik.si/mediaki/images/5/5e/rtvslo_dec2011_v2.tsv
- Janes-Tag 2.0 (texte des médias sociaux) https://www.clarin.si/repository/xmlui/handle/11356/1123; Voir aussi: Fišer et al., The Janes Project: Language Resources and Tools for Slovène Users Geneated Content, 2018.
ukrainien
- BSNLP 2017 (Croate, tchèque, polonais, russe, slovaque, slovène, ukrainien): http://bsnlp-2017.cs.helsinki.fi/shared_task_results.html
- Ukrainien Brown Ner Corpus: https://github.com/lang-uk/ner-uk; http://lang.org.ua/en/corpa/
serbe
- Settimes.sr - http://hdl.handle.net/11356/1200
- Corpus d'évaluation des entités nommées pour serbe: http://www.korpus.matf.bg.ac.rs/srpneval/
- Reldi-Normtagner-Sr (Tweets serbes): http://hdl.handle.net/11356/1171
bulgare
islandais
- Mim-Gold-Ner (Ingólfsdóttir, Svanhvít Lilja, Sigurjón Þorsteinsson et Hrafn Loftsson. http://www.malfong.is/index.php?pg=mim_gold_ner
danois
- Dane: Hvingelby et al., [Dane: une ressource d'entité nommée pour le danois.] (Http://www.lrec-conf.org/proedings/lrec2020/pdf/2020.lrec-1.565.pdf), lrec 2020: https://github.com/alexandrainst/danlp/
- Propbank danois (DPB): http://catalog.elra.info/en-us/repository/browse/elra-w0117/
- Arboretum TreeBank: http://catalog.elra.info/en-us/repository/browse/elra-w0084/
norvégien
- Bjarte Johansen, reconnaissance de l'entité nommée pour Norwegian, Actes de la 22e Conférence nordique sur la linguistique informatique. 2019 (https://www.aclweb.org/anthology/w19-6123.pdf) Données: https://github.com/ljos/navnkjenner
- Fredrik Jørgensen et al., Norne: annotation des entités nommées pour Norwegian, 2019 (https://arxiv.org/pdf/1911.12146.pdf). Données: https://github.com/ltgoslo/norne/; https://www.nb.no/sprakbanken/show?Serial=oai%3anb.No%3ASBR-49
suédois
- Stockholm Internet Corpus: https://www.ling.su.se/english/nlp/corpora-and-resources/sic
- SUM 3.0: https://spraakbanken.gu.se/eng/resource/Suc3
- Swedish Ner annoté manuellement: https://github.com/klintan/swedish-ner-corpus/
- Données médicales de Wikipedia (Almgren et al., Nommé la reconnaissance de l'entité dans les dossiers de santé suédois avec des LSTM bidirectionnels profonds basés sur les personnages, 2016): https://github.com/olofmogren/biomedical-ner-data-swedish
- HIPE-2022, Nommé Reconnaissance de l'entité et entité liant les documents historiques multilingues: https://hipe-val.github.io/hipe-2022/ https://github.com/hipe-eval/hipe-2022-Data
finlandais
- Ensembles de données pour la réoginition des entités nommées finlandaises: https://github.com/mpilfve/finer-data
- Turku Ner Corpus: https://github.com/turkunlp/turku-ner-corpus
- HIPE-2022, Nommé Reconnaissance de l'entité et entité liant les documents historiques multilingues: https://hipe-val.github.io/hipe-2022/ https://github.com/hipe-eval/hipe-2022-Data
estonien
- ESTONIAN NER CORPUS: https://metashare.ut.ee/repository/browse/estonian-ner-corpus/88d030c0acde11e2a6e4005056b40024f1def472ed254e77a8952e1003d9f81e/
Letton et le lituanien
- https://github.com/accurat-toolkit/tilner/tree/master/test (Pinnis, Latton et lituanien Nommé Reconnaissance avec Tildener, LREC 2012)
- Données de formation pour le LV Tagger: https://github.com/peterisp/lvtagger/tree/master/nertainingData
turc
- K̈ucuk et Can, un ensemble de données de tweet annoté pour la reconnaissance et la détection de position des entités nommées, 2019: https://github.com/dkucuk/tweet-dataset-ner-sd
- K̈ucuk et al., Nommé la reconnaissance d'entité sur les tweets turcs: http://optima.jrc.it/resources/2014_jrc_twitter_tr_ner-dataset.zip
- Engagement de la reconnaissance et de la catégorisation de la catégorisation de la catégorisation de la catégorisation de la catégorisation de la catégorisation et de la catégorisation du texte nommé (http://arxiv.org/abs/1702.02363): https://data.mendeley.com/datasets/cdcztymf4k/1
- Çan et al, nommé Entity Recognition Over FBNER: Un nouvel ensemble de données Facebook en turc: https://ieeexplore.ieee.org/document/9598971 Données disponibles à des fins de recherche sur demande
Kazakh
- Kaznerd: https://arxiv.org/pdf/2111.13419.pdf, https://github.com/is2ai/kaznerd
Ouïghour
- Uyghur Named Entity Relation Corpus: https://github.com/kaharjan/uynerel (Abiderexiti et al., Annotation schemes for Constructing Ughur nommé Entity Relation Corpus. Ialp 2016)
arménien
- Pioner (ensembles de données Gold-Standard et Silver-Standard): https://github.com/ispras-texterra/pioner (Ghukasyan et al., Pioner: Datasets and Baselines for Armenian Named Entity Recognition, 2018)
- Armtdp -er: https://github.com/myavrum/armtdp-ner
Copte
- The Coptic Universal Dependency TreeBank: https://github.com/uversaldependencies/ud_coptic-scriptorium/tree/dev (voir aussi https://copticscriptorium.org/treebank.html). Cela contient 46 000 jetons d'entités imbriquées (non) nommées et déverrouillées à partir de textes coptes sahidiques.
Amharique
- Say Corpus (voir "Reconnaissance de l'entité nommée pour Amharic en utilisant l'apprentissage en profondeur"): https://github.com/geezorg/data/tree/master/amharic/tagged/nmsu-say; http://data.geez.org/
arabe
- Aqmar Arabe Wikipedia nommé Entity Corpus: http://www.cs.cmu.edu/~ark/arabicner/
- NE3L NOMME ENTITES CORPUS ARABIC (Arabe, Chinois, Russe): http://catalog.elra.info/en-us/repository/browse/elra-w0078/
- Traduction de l'entité réflexe (Corpus parallèle: anglais, arabe, chinois): https://catalog.ldc.upenn.edu/ldc2009t11
- Anercorp: http://users.dsic.upv.es/~ybenajiba/downloads.html (voir aussi: http://alias-i.com/lingpipe/demos/tutorial/ne/read-me.html)
- Ace 2003 (anglais, chinois, arabe): https://catalog.ldc.upenn.edu/LDC2004T09
- Ace 2004 (anglais, chinois, arabe): https://catalog.ldc.upenn.edu/LDC2005T09
- Ace 2005 (anglais, chinois, arabe): https://catalog.ldc.upenn.edu/LDC2006T06
- ACE 2007 (espagnol et arabe): https://catalog.ldc.upenn.edu/LDC2014T18
- Ontonotes 5 (anglais, arabe, chinois): https://catalog.ldc.upenn.edu/LDC2013T19
- Dawt DataSet - Textes Wikipedia densément annotés à travers plusieurs langues (anglais, espagnol, français, italien, allemand, arabe): https://github.com/klout/opendata/tree/master/wiki_annotation
- Wojood - 2022 Arabe imbriqué nommé Corpus entité. https://dlnlp.ai/st/wojood/ https://aclanthology.org/2022.lrec-1.387.pdf https://codalab.lisn.upsaclay.fr/competitions/11740
persan
- Armanpersonercorpus: http://islrn.org/resources/399-379-640-828-6/; https://github.com/haniehp/persianner
Sindhi
- Siner: https://aclanthology.org/2020.lrec-1.361/, https://github.com/aliwazir/siner-dataset
Ourdou
- IJCNLP 2008 SSEAL: http://ltrc.iiit.ac.in/ner-ssea-08/index.cgi?topic=5
- L'ensemble de données UNER (Khan et al., Nommé d'entités de données d'entité pour la tâche de reconnaissance de l'entité nommée en ourdou, 2016). Disponible sur http://www.iiu.edu.pk/?page_id=5181
- Mk-Pucit: https://www.dropbox.com/sh/1ivw7ykm2Tugg94/aab9t5wn7fysespo7tjjw8la; Voir: Kanwal et al., Urdu Named Entity Recognition: Corpus Generation and Deep Learning Applications, 2019
Indicateur
- NAAMAPADAM: Nommé de données de reconnaissance d'entités (NER) pour 11 grandes langues indiennes de deux familles de langues. https://research.ibm.com/publications/naamapadam-a-large-scale-damed-entity-annoted-data-for-indic-languages https://ai4bharat.iitm.ac.in/naamapadam
hindi
- Hiner: https://github.com/cfiltnlp/hiner
- Ensemble de données Hindi Health: https://www.kaggle.com/aijain/hindi-health-dataset/home
- Fire 2015, ESM-il (anglais, hindi, tamoul, malayalam): http://au-kbc.org/nlp/esm-fire2015/#traincorpus
- Fire Ner 2013 (anglais, hindi, tamoul, malayalam, bengali): http://au-kbc.org/nlp/ner-fire2013/
- IJCNLP 2008 SSEAL: http://ltrc.iiit.ac.in/ner-ssea-08/index.cgi?topic=5
bengali
- Fire Ner 2013 (anglais, hindi, tamoul, malayalam, bengali): http://au-kbc.org/nlp/ner-fire2013/
- IJCNLP 2008 SSEAL: http://ltrc.iiit.ac.in/ner-ssea-08/index.cgi?topic=5
- Bengali-NER: https://github.com/rifat1493/bengali-ner, https://ieeexplore.ieee.org/document/8944804
- Ner-Bangla: https://github.com/misabic/ner-bangla-dataset, https://content.iospress.com/articles/journal-of-intelligent-and-fuzzy-systems/ifs179349
Telugu
- NER_TELUGU: https://github.com/anikethjr/ner_telugu
- IJCNLP 2008 SSEAL: http://ltrc.iiit.ac.in/ner-ssea-08/index.cgi?topic=5
- Entité nommée Corpa annotée pour Telugu: http://www.tdil-dc.in/index.php?option=com_download&task=showresourcedEtails&toolid=982&lang=en
Maïthili
- Le premier reconnaissance de l'entité nommée à Maithili: création de ressources et développement du système: https://content.iospress.com/articles/journal-of-intelligent-and-fuzzy-systems/ifs210051
Népalais
- Everestner: https://journals.flvc.org/flairs/article/view/130725, https://github.com/nowalab/everest-ner
Marathi
- Entité nommée Corpa annotée pour Marathi: http://www.tdil-dc.in/index.php?option=com_download&task=showresourcedEtails&toolid=979&lang=en
- L3Cube Mahaner: https://arxiv.org/abs/2204.06029 https://github.com/l3cube-pune/marathinlp
Punjabi
- Entité nommée Corpa annotée pour Punjabi: http://www.tdil-dc.in/index.php?option=com_download&task=showresourcedEtails&toolid=980&lang=en
Tamoul
- Fire 2015, ESM-il (anglais, hindi, tamoul, malayalam): http://au-kbc.org/nlp/esm-fire2015/#traincorpus
- Fire Ner 2013 (anglais, hindi, tamoul, malayalam, bengali): http://au-kbc.org/nlp/ner-fire2013/
Malayalam
- Fire 2015, ESM-il (anglais, hindi, tamoul, malayalam): http://au-kbc.org/nlp/esm-fire2015/#traincorpus
- Fire Ner 2013 (anglais, hindi, tamoul, malayalam, bengali): http://au-kbc.org/nlp/ner-fire2013/
Oriya / Odia
- IJCNLP 2008 SSEAL: http://ltrc.iiit.ac.in/ner-ssea-08/index.cgi?topic=5
Cinghalais / cinghalais
thaïlandais
- thai-named-entity-concognition-data: https://github.com/pythainlp/thai-damed-entity-recognition-data
- THAI NAPOMS Entity Corpra: http://pioneer.chula.ac.th/~awirote/resources/corpora--data.html; http://pioneer.chula.ac.th/~awirote/data-nutcha.zip; http://pioneer.chula.ac.th/~awirote/data-sasiwimon.zip; http://pioneer.chula.ac.th/~awirote/data-nattadaporn.zip
- Lst20: https://huggingface.co/datasets/lst20; https://arxiv.org/abs/2008.05055
- Thai-Nner: https://github.com/visc-ai/thai-nner, https://aclanthology.org/2022.findings-acl.116
indonésien
- Identique: http://metashare.elda.org/repository/browse/identic/fed3fada7ef111e5aa3b001dd8b71c66c98eee36eabd42f18ffd9a95da9104cc/
- https://github.com/yohanesgultom/nlp-experiments/tree/master/data/ner
- Indonésie-NER: Syaifudin & nurwidyantoro https://ieeexplore.ieee.org/document/7828656 https://github.com/yusufsyaifuds/indonésie-ner
- IDNER-NEWS-2K: un ensemble de données de nouvelles indonésiennes pour la tâche de reconnaissance de l'entité nommée. Réannotation de Syaifudin & Nurwidyantoro https://dl.acm.org/doi/10.1145/3592854#fn8 https://github.com/khairunnisaor/idner-news-2k/
- NERP et NER-GRIT: Deux ensembles de données indonésiens d'Indonlp / Indonlu https://github.com/indonlp/indonlu/tree/master/dataset https://aclanthology.org/2020.aacl-main.85/
vietnamien
- VLSP 2016: http://vlsp.org.vn/resources-vlsp2016; https://github.com/undertheseanlp/ner
- VLSP 2018: http://vlsp.org.vn/resources-vlsp2018; https://github.com/undertheseanlp/ner
- Phoner_covid19: https://github.com/vinairesearch/phoner_covid19
japonais
- Irex: https://nlp.cs.nyu.edu/irex/package/
- Met-2 (japonais, chinois): https://www-nlpir.nist.gov/related_projects/muc/
- BCCWJ BASIC NE CORPUS: https://sites.google.com/site/projectNextnlpne/en (Iwakura et al., Constructing a japonais Basic Named Entity Corpus of divers Genres, News 2016)
- Dbpedia Résumé Corpus (anglais, allemand, néerlandais, français, italien, japonais): http://downloads.dbpedia.org/2015-04/ext/nlp/abstracts/
- Données de: Mai et al., Une étude empirique sur la reconnaissance des entités nommées à grain fin, Coling 2018 (anglais, japonais): https://fgner.alt.ai/duc/ene/testsets/comp/
- Wikipedia Ner Corpus: https://github.com/stockmarkteam/ner-wikipedia-dataset
- Wikiann: https://elisa-ie.github.io/wikiann/
- GSD: Conversion de l'ensemble de données GSD UD en entités nommées par Megagon Labs https://github.com/megagonlabs/ud_japanese-gsd
- KWDLC: Kyoto University Document WEB Document Leads Corpus https://nlp.ist.i.kyoto-u.ac.jp/en/index.php?kwdlc https://github.com/ku-nlp/kwdlc https://nagisa.readthedocscs.io/en/latest/tUtorial_ner.
coréen
- Institut national de la langue coréenne (ROK) - Ner Corpus: https://github.com/digitalprk/koreaner; https://ithub.korean.go.kr/user/total/referenceView.do?boardseq=5&articleseq=118&boardgb=t&isinsupd&boardtype=Corpus
- Kmou ner - https://github.com/kmounlp/ner
- Évaluation de la compréhension du langage coréen - Klue Ner - https://klue-benchmark.com/tasks/69/overview/description
- https://github.com/songys/entity
- HLCT 2016 Corpus, avec mises à jour - https://github.com/machinereading/koreannercorpus
Chinois
- Ace 2003 (anglais, chinois, arabe): https://catalog.ldc.upenn.edu/LDC2004T09
- Ace 2004 (anglais, chinois, arabe): https://catalog.ldc.upenn.edu/LDC2005T09
- Ace 2005 (anglais, chinois, arabe): https://catalog.ldc.upenn.edu/LDC2006T06
- Ontonotes 5 (anglais, arabe, chinois): https://catalog.ldc.upenn.edu/LDC2013T19
- Met-2 (japonais, chinois): https://www-nlpir.nist.gov/related_projects/muc/
- Traduction de l'entité réflexe (Corpus parallèle: anglais, arabe, chinois): https://catalog.ldc.upenn.edu/ldc2009t11
- NE3L NOMME ENTITÉS CORPUS CHINOIS (Arabe, Chinois, Russe): http://catalogue.elra.info/en-us/repository/browse/elra-w0079/
- Collation de données de courte-courte du courte-courte I en chinois (entités nommées): http://catalog.elra.info/en-us/repository/browse/elra-w0045_04/
- Collation de données de courte-courte-courte-courte II en chinois (entités nommées): http://catalog.elra.info/en-us/repository/browse/elra-w0045_08/
- Ere Dech Corpora (Parallel Corpus: English, Chinese): Mott et al., Parallel Chinese-Anglish Entités, Relations and Events Corpora, 2016 (LDC2015E78, LDC2014E114)
- Chinois Weibo: Annotations de style habile pour les mentions nommées et nominales sur les médias sociaux chinois (Weibo): https://github.com/hltcoe/golden-horse
- EdUner chinois: 2023 ensemble de données dans le domaine de l'éducation: https://link.springer.com/article/10.1007/s00521-023-08635-5 https://github.com/anonymous-xl/edUner
- Ner aérospatial chinois: https://www.nature.com/articles/s41598-023-50705-0 https://github.com/coder-xiaokai/aerospace_nerdatasets
- SciCN: A Chinese Dataset and Benchmark for Scientific Information Extraction https://file.techscience.com/files/cmc/2024/TSP_CMC-78-3/TSP_CMC_35594/TSP_CMC_35594.pdf https://github.com/yangjingla/SciCN
- EMP NER: Historical Chinese https://aclanthology.org/2024.lrec-main.35.pdf https://gitlab.com/enpchina/ENP-NER
Tagalog
- TLUnifed: https://arxiv.org/abs/2311.07161 https://huggingface.co/datasets/ljvmiranda921/tlunified-ner
russe
- BSNLP 2017 (Croatian, Czech, Polish, Russian, Slovak, Slovene, Ukrainian): http://bsnlp-2017.cs.helsinki.fi/shared_task_results.html
- NE3L named entities Russian corpus (Arabic, Chinese, Russian): https://catalog.elra.info/en-us/repository/browse/ELRA-W0080/
- WikiNER: https://figshare.com/articles/Learning_multilingual_named_entity_recognition_from_Wikipedia/5462500
- WikiNEuRal: https://github.com/Babelscape/wikineural
- MultiNERD: https://github.com/Babelscape/multinerd
- factRuEval-2016: https://github.com/dialogue-evaluation/factRuEval-2016
- RuREBus 2020 (Russian Relation Extraction for Business) corpus https://github.com/dialogue-evaluation/RuREBus
Yoruba
- GV-Yorùbá-NER. Data: https://github.com/ajesujoba/YorubaTwi-Embedding/tree/master/Yoruba/Yor%C3%B9b%C3%A1-NER ; Data statement: https://drive.google.com/file/d/177xu-O2FTJ7VJQ-0ohCWjVd1qu61Tvml/view Paper: Jesujoba O Alabi, Kwabena Amponsah-Kaakyire, David I Adelani, and Cristina Espãna-Bonet. Massive vs. curated word embeddings for low-resourced languages. the case of Yorùbá and Twi. In LREC, 2020 (https://arxiv.org/abs/1912.02481)
Swahili
- Helsinki Corpus of Swahili 2.0 (HCS 2.0) Annotated Version: http://metashare.csc.fi/repository/browse/helsinki-corpus-of-swahili-20-hcs-20-annotated-version/232c1910b9eb11e5915e005056be118e59fb2e920f1f4c0cafc94915fc6f5cac/ See: Shah et al., 2010. SYNERGY: A Named Entity Recognition System for Resource-scarce Languages such as Swahili using Online Machine Translation
Igbo
- IgboNER: https://aclanthology.org/2022.lrec-1.547/ https://github.com/Chiamakac/IgboNER-Models later updated in https://openreview.net/pdf?id=tHUS9-vmUfC from https://sites.google.com/view/africanlp2023/home
isiNdebele
- NCHLT isiNdebele Named Entity Annotated Corpus: https://repo.sadilar.org/handle/20.500.12185/306
Xhosa
- NCHLT isiXhosa Named Entity Annotated Corpus: https://repo.sadilar.org/handle/20.500.12185/312
zoulou
- NCHLT isiZulu Named Entity Annotated Corpus: https://repo.sadilar.org/handle/20.500.12185/319
Sepedi
- NCHLT Sepedi Named Entity Annotated Corpus: https://repo.sadilar.org/handle/20.500.12185/328
Sesotho
- NCHLT Sesotho Named Entity Annotated Corpus: https://repo.sadilar.org/handle/20.500.12185/334
Setswana
- NCHLT Setswana Named Entity Annotated Corpus: https://repo.sadilar.org/handle/20.500.12185/341
Siswati
- NCHLT Siswati Named Entity Annotated Corpus: https://repo.sadilar.org/handle/20.500.12185/346
Venda
- NCHLT Tshivenda Named Entity Annotated Corpus: https://repo.sadilar.org/handle/20.500.12185/355
- MPHAYANER: Named Entity Recognition for Tshivenḓa: https://openreview.net/pdf?id=0nneuL3bSLt https://github.com/rendanim/MphayaNER from https://sites.google.com/view/africanlp2023/home
Xitsonga
- NCHLT Xitsonga Named Entity Annotated Corpus: https://repo.sadilar.org/handle/20.500.12185/362
latin
- Herodotos Project: https://github.com/alexerdmann/Herodotos_Project_Annotation
A long list can be found here: http://damien.nouvels.net/resourcesen/corpora.html
Références
[Alvarado et al., 2015] Alvarado, Julio Cesar Salinas, Karin Verspoor, and Timothy Baldwin. Domain adaption of named entity recognition to support credit risk assessment. In Proceedings of the Australasian Language Technology Association Workshop 2015, pp. 84-90. 2015. Accessed: August 2018.
[Balasuriya et al., 2009] Balasuriya, Dominic, Nicky Ringland, Joel Nothman, Tara Murphy, and James R. Curran. Named entity recognition in wikipedia. In Proceedings of the 2009 Workshop on The People's Web Meets NLP: Collaboratively Constructed Semantic Resources, pp. 10-18. Association for Computational Linguistics, 2009
[Bos et al., 2017] Bos, Johan, Valerio Basile, Kilian Evang, Noortje J. Venhuizen, and Johannes Bjerva. The Groningen meaning bank. In Handbook of linguistic annotation, pp. 463-496. Springer, Dordrecht, 2017.
[Derczynski et al., 2016] Derczynski, Leon, Kalina Bontcheva, and Ian Roberts. Broad twitter corpus: A diverse named entity recognition resource. In Proceedings of COLING 2016, the 26th International Conference on Computational Linguistics: Technical Papers, pp. 1169-1179. 2016. Available at: https://github.com/GateNLP/broad_twitter_corpus Accessed: August 2018.
[Derczynski et al., 2017] Leon Derczynski, Eric Nichols, Marieke van Erp, Nut Limsopatham (2017) Results of the WNUT2017 Shared Task on Novel and Emerging Entity Recognition, in Proceedings of the 3rd Workshop on Noisy, User-generated Text. Available at: https://noisy-text.github.io/2017/emerging-rare-entities.html
[DSTL, 2017] Defence Science and Technology Laboratory. 2017. Relationship and Entity Extraction Evaluation Dataset. https://github.com/dstl/re3d. Accessed: January 2018.
[Grishman and Sundheim, 1996] Ralph Grishman and Beth Sundheim. 1996. Message understanding conference- 6: A brief history. In COLING 1996 Volume 1: The 16th International Conference on Computational Linguistics.
[Karimi et al., 2015] Sarvnaz Karimi, Alejandro Metke-Jimenez, Madonna Kemp, and Chen Wang. 2015. Cadec: A corpus of adverse drug event annotations. Journal of biomedical informatics, 55:73-81. Available at https://data.csiro.au Accessed: November 2017.
[Lim et al., 2017] Lim, Swee Kiat, Aldrian Obaja Muis, Wei Lu, and Chen Hui Ong. MalwareTextDB: A database for annotated malware articles. In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), vol. 1, pp. 1557-1567. 2017.
[Liu et al., 2013a] Jingjing Liu, Panupong Pasupat, Scott Cyphers, and Jim Glass. 2013. Asgard: A portable architecture for multilingual dialogue systems. In Acoustics, Speech and Signal Processing (ICASSP), 2013 IEEE International Conference on, pages 8386-8390. IEEE. Available at https://groups.csail.mit.edu/sls/downloads/restaurant/ Accessed: January 2018
[Liu et al., 2013b] Jingjing Liu, Panupong Pasupat, Yining Wang, Scott Cyphers, and Jim Glass. 2013. Query understanding enhanced by hierarchical parsing structures. In Automatic Speech Recognition and Understanding (ASRU), 2013 IEEE Workshop on, pages 72-77. IEEE. Available at https://groups.csail.mit.edu/sls/downloads/movie/ We used the trivia10k13 portion. Accessed: January 2018
[NIST, 1999 IE-ER] NIST. 1999. Information Extraction - Entity Recognition Evaluation. http://www.nist.gov/speech/tests/ieer/er_99/er_99.htm. The newswire development test data only (included in the NLTK package).
[Ohta et al., 2012] Tomoko Ohta, Sampo Pyysalo, Jun'ichi Tsujii and Sophia Ananiadou. 2012. Open-domain Anatomical Entity Mention Detection. In Proceedings of ACL 2012 Workshop on Detecting Structure in Scholarly Discourse (DSSD), pp. 27-36. Available at: http://www.nactem.ac.uk/anatomy/ and https://github.com/openbiocorpora/anem Accessed: November 2017.
[Ritter et al., 2011] Alan Ritter, Sam Clark, Mausam, and Oren Etzioni. 2011. Named entity recognition in tweets: An experimental study. In Proceedings of the 2011 Conference on Empirical Methods in Natural Language Processing, pages 1524-1534, Edinburgh, Scotland, UK., July. Association for Computational Linguistics. Accessed January 2018.
[Sang and Meulder, 2003] Erik F. Tjong Kim Sang and Fien De Meulder. 2003. Introduction to the CoNLL-2003 shared task: Languageindependent named entity recognition. In Proceedings of the Seventh Conference on Natural Language Learning at HLT-NAACL 2003.
[Stubbs et al., 2015] Amber Stubbs and Ozlem Uzuner. 2015. Annotating longitudinal clinical narratives for de-identification: The 2014 i2b2/UTHealth corpus. Journal of biomedical informatics, 58:S20-S29. Available at https://www.i2b2.org/NLP/DataSets/ Accessed: February 2018.
[Uzuner et al., 2007] Ozlem Uzuner, Yuan Luo, and Peter Szolovits. 2007. Evaluating the state-of-the-art in automatic de-identification. Journal of the American Medical Informatics Association, 14(5):550-563. Available at https://www.i2b2.org/NLP/DataSets/ Accessed: February 2018.
[Weischedel and Brunstein, 2005] Ralph Weischedel and Ada Brunstein. 2005. BBN pronoun coreference and entity type corpus. Linguistic Data Consortium, Philadelphia.
[Weischedel et al., 2013] Weischedel, Ralph, Martha Palmer, Mitchell Marcus, Eduard Hovy, Sameer Pradhan, Lance Ramshaw, Nianwen Xue et al. Ontonotes release 5.0 ldc2013t19. Linguistic Data Consortium, Philadelphia, PA (2013).
[Zeldes, 2017] Amir Zeldes. 2017. The GUM corpus: creating multilayer resources in the classroom. Language Resources and Evaluation, 51(3):581-612. Available at https://github.com/amir-zeldes/gum/tree/master/coref/tsv/ Accessed: November 2017.