Conjuntos de datos para el reconocimiento de entidades
Este repositorio contiene conjuntos de datos de varios dominios anotados con una variedad de tipos de entidades, útil para el reconocimiento de entidades y tareas de reconocimiento de entidades (NER).
Nota: Ya no estoy agregando activamente conjuntos de datos a esta lista; es probable que haya más conjuntos de datos NER que hayan aparecido desde 2020. Sin embargo, me complace agregar más conjuntos de datos a través de problemas o solicitudes.
Conjuntos de datos para ner en inglés
La siguiente tabla muestra la lista de conjuntos de datos para el reconocimiento de entidades en inglés (para una lista de conjuntos de datos NER en otros idiomas, ver a continuación). El directorio de datos contiene información sobre dónde obtener esos conjuntos de datos que no se pueden compartir debido a las restricciones de licencia, así como el código para convertirlos (si es necesario) al formato Conll 2003. Los enlaces a los corpus ner en otros idiomas también se enumeran a continuación.
| Conjunto de datos | Dominio | Licencia | Referencia | Disponibilidad |
|---|
| Conll 2003 | Noticias | Dúa | Sang y Meulder, 2003 | Fácil de encontrar |
| Nist-eier | Noticias | Ninguno | NIST 1999 IE-ER | Datos NLTK |
| Muc-6 | Noticias | LDC | Grishman y Sundheim, 1996 | LDC 2003T13 |
| Ontonotes 5 | Varios | LDC | Weischedel et al., 2013 | LDC 2013T19 |
| Bbn | Varios | LDC | Weischedel y Brunstein, 2005 | LDC 2005T33 |
| GMB-1.0.0 | Varios | Ninguno | Bos et al., 2017 | http://gmb.let.rug.nl/data.php |
| Goma-3.1.0 | Wiki | Varios ( * 2) | Zeldes, 2016 | ✔ Incluido aquí |
| wikigold | Wikipedia | CC-By 4.0 | Balasuriya et al., 2009 | ✔ Incluido aquí |
| Ritmo | Gorjeo | Ninguno | Ritter et al., 2011 | Sin división, tren/prueba/división de desarrollo |
| BTC | Gorjeo | CC-By 4.0 | Derczynski et al., 2016 | ✔ Incluido aquí |
| WNUT17 | Redes sociales | CC-By 4.0 | Derczynski et al., 2017 | ✔ Incluido aquí |
| I2B2-2006 | Médico | Dúa | Uzuner et al., 2007 | http://www.i2b2.org |
| I2B2-2014 | Médico | Dúa | Stubbs et al., 2015 | http://www.i2b2.org |
| Cadeco | Médico | Csiro | Karimi et al., 2015 | http://data.csiro.au/ |
| Anem | Anatómico | CC-BY-SA 3.0 | Ohta et al., 2012 | ✔ Incluido aquí |
| Mitrestaurant | Consultas | Ninguno | Liu et al., 2013a | http://groups.csail.mit.edu/sls/ |
| Mitmovie | Consultas | Ninguno | Liu et al., 2013b | http://groups.csail.mit.edu/sls/ |
| Malwaretextdb | Malware | Ninguno | Lim et al., 2017 | http://www.statnlp.org/ |
| re3d | Defensa | Varios ( * 1) | DSTL, 2017 | ✔ Incluido aquí |
| Filo de la SEC | Finanzas | CC-By 3.0 | Alvarado et al., 2015 | ✔ Incluido aquí |
| Asamblea | Robótica | incógnita | Costa et al., 2017 | incógnita |
| Wikineural | Wikipedia | CC BY-SA-NC 4.0 | Tedeschi et al., 2021 | https://github.com/babelscape/wikineural |
| Multinerd | Wikipedia | CC BY-SA-NC 4.0 | Tedeschi et al., 2022 | https://github.com/babelscape/multinerd |
| HIPE-2022 | Histórico | CC BY-SA-NC 4.0 | Ehrmann et al., 2022 | https://github.com/hipe-eval/hipe-2022-data |
| Musical | Música | MIT | Epoure y Hennequin, 2023 | https://github.com/deezer/music-ner-eacl2023 |
| WIESP2022-NER | Astrofísica | CC BY-SA-NC 4.0 | Grezes et al., 2022 | https://huggingface.co/datasets/adsabs/wiesp2022-ner |
| Nne | Noticias | CC 4.0 / LDC | Ringland et al., 2019 | https://github.com/nickyringland/nested_named_entities |
| Mundial | Noticias | CC BY-SA-NC 4.0 | Shan et al., 2023 | https://github.com/stanfordnlp/en-worldwide-newswire https://arxiv.org/abs/2404.13465 |
Licencias
Notas sobre licencias:
(1) RE3D ("conjunto de datos de evaluación de extracción de relaciones y entidades") contiene varios conjuntos de datos, con diferentes licencias. Estos son:
- CC-by-SA 3.0 (conjunto de datos de Wikipedia)
- CC BY-NC 3.0 (conjunto de datos BBC_Online)
- CC por 3.0 Au (Australian_department_of_foreign_affairs DataSet)
- Dominio público (US_STATE_DEPARTMent DataSet, Centcom DataSet)
- Licencia de gobierno abierto del Reino Unido v3.0 (conjunto de datos de gubernamental del Reino Unido)
- Delegación_of_the_european_union_to_syria: ver https://eeas.europa.eu/delegations/syria/8157/legal-notice_en
- Gum 3.1.0 comprende tres conjuntos de datos, con licencias CC-By 3.0, CC-BY-SA 3.0 y CC-BY-NC-SA 3.0. Las anotaciones tienen licencia bajo CC-by 4.0.
Se puede encontrar información de licencia más detallada para cada conjunto de datos en el subdirectorio correspondiente.
Más tarde ... - Tabassum et al., Código y reconocimiento de entidad nombrado en stackoverflow https://cocoxu.github.io/publications/acl2020_stackoverflow_ner.pdf - litbank: https://github.com/dbamman/litbank (bamman, popat y shen, un entidades anotadas de literary 2019) - nailatary. NNE: A Dataset for Nested Named Entity Recognition in English Newswire, 2019 https://github.com/nickyringland/nested_named_entities - Mars Target Encyclopedia - LPSC abstracts labeled data set: https://zenodo.org/record/1048419#.W5a2CBwnZhE - Best Buy queries: https://www.kaggle.com/dataturks/best-buy-ecommerce-ner-dataset/home-Entidades de currículum para ner: https://www.kaggle.com/dataturks/resume-entities-for-ner/home-pocos-ner: un poco de reconocimiento de entidad dataSet https://aclanthology.org/2021.acl-long.248/
Conjuntos de datos para ner en otros idiomas
Recursos de entidad con nombre léxico
- Heiner: http://heiner.cl.uni-heidelberg.de/index.shtml
- Neckar: https://event.ifi.uni-heidelberg.de/?page_id=532#wikidata_ne_dataset
Cambio de código
- Tweets en inglés-spanish (Calcs 2018): https://code-switching.github.io/2018/; https://code-switching.github.io/2018/files/spa-eng/release.zip; http://www.aclweb.org/anthology/w18-3219
- Tweets árabe-egipcio (Calcs 2018): https://code-switching.github.io/2018/; https://code-switching.github.io/2018/files/msa-egy/arabictweetstokenassigner.zip; http://www.aclweb.org/anthology/w18-3219
- Hindi-English Social Media Texto: https://github.com/silentflame/named-entity-recognition; http://aclweb.org/anthology/w18-2405
- Tarea compartida de EMNLP 2014-Tweets marcados con código (nepali-inglish, español-inglés, mandarín-inglés, dialectos árabes-árabe): http://emnlp2014.org/workshops/codeswitch/call.html
Alemán
- Conll 2003 (inglés, alemán): https://www.clips.uantwerpen.be/conll2003/ner/
- Germeval 2014: https://sites.google.com/site/germeval2014ner/data
- Tübingen Treebank de alemán escrito (Tüba-D/Z): http://www.sfs.uni-tuebingen.de/en/ascl/resources/corpora/tueba-dz.html
- Europeana Newspapers (holandés, francés, alemán): https://github.com/europeanewspapers/ner-corpana; http://lab.kb.nl/dataset/europeana-newspapers-ner#access
- Transcripciones alemanas de Europarl (subconjunto): https://nlpado.de/~sebastian/software/ner_german.shtml
- Modelo de entidad nombrado para alemán, Política (NEMGP): https://www.thomas-zastrow.de/nlp/
- Wikiner: https://figshare.com/articles/learning_multilingual_named_entity_recognition_from_wikipedia/5462500
- Wikineural: https://github.com/babelscape/wikineural
- Multinerd: https://github.com/babelscape/multinerd
- DFKI SmartData Corpus (Geo-Entities): https://dfki-lt-re-group.bitbucket.io/smartdata-corpus/ (un corpus alemán para el reconocimiento de entidad de grano fino y la relación de tráfico y eventos de la industria. Leonhard Hennig.
- Dbpedia Abstract Corpus (inglés, alemán, holandés, francés, italiano, japonés): http://downloads.dbpedia.org/2015-04/ext/nlp/abstracts/
- DataSet Dawt - Textos de Wikipedia densamente anotados en múltiples idiomas (inglés, español, francés, italiano, alemán, árabe): https://github.com/klout/opendata/tree/master/wiki_annotation
- Elena Leitner, Georg Rehm, Juli ́an Moreno-Schneider, un conjunto de datos de documentos legales alemanes para el reconocimiento de entidades nombrado, LREC 2020: http://georg-re.hm/pdf/lrec-2020-leitner-et-et-alprint.pdf; Datos: https://github.com/elenanereiss/legal-entity-recognition
- HIPE-2022, reconocimiento de entidad nombrado y vinculación de entidad en documentos históricos multilingües: https://hipe-eval.github.io/hipe-2022/ https://github.com/hipe-eval/hipe-2022-data-data
Holandés
- Conll 2002 (español, holandés): https://www.clips.uantwerpen.be/conll2002/ner/
- Europeana Newspapers (holandés, francés, alemán): https://github.com/europeanewspapers/ner-corpana; http://lab.kb.nl/dataset/europeana-newspapers-ner#access
- Mientras tanto, Corpus (Corpus paralelo: inglés, español, italiano, holandés): http://www.newsreader-project.eu/results/data/wikinews/
- Wikiner: https://figshare.com/articles/learning_multilingual_named_entity_recognition_from_wikipedia/5462500
- Wikineural: https://github.com/babelscape/wikineural
- Multinerd: https://github.com/babelscape/multinerd
- Dbpedia Abstract Corpus (inglés, alemán, holandés, francés, italiano, japonés): http://downloads.dbpedia.org/2015-04/ext/nlp/abstracts/
- Documentos parlamentarios holandeses 2015-2016, de 1848.nl (Jonkers, nombrado reconocimiento de entidades sobre documentos parlamentarios holandeses usando rana, tesis, Universidad de Amsterdam, 2016): https://github.com/poezedoez/ner/blob/code/data/lobby/golden_standandard
- Sonar 1 - Desmet y Hoste, Holandeses de grano fino nombrado Entity Reconocido, 2014 (jerarquía de clases)
- Corpus-Sonar Books y Corpus Gutenberg Dutch: http://blog.namescape.nl/?page_id=85; http://portal.clarin.nl/node/1940
africaans
- NCHLT Afrikaans nombrado Entity Annotated Corpus: https://repo.sadilar.org/handle/20.500.12185/299
Español
- Conll 2002 (español, holandés): https://www.clips.uantwerpen.be/conll2002/ner/
- Ancora (español, catalán): http://clic.ub.edu/corpus/en
- HEFT Spanish Treebank (LDC2018T01): https://catalog.ldc.upenn.edu/ldc2018t01
- Panacea (laboratorio): http://panacea-lr.eu/en/info-for-researchers/data-sets/Dependency-Parsed-corpora/dependency-lab-es
- Panacea (env): http://panacea-lr.eu/en/info-for-researchers/data-sets/Dependency-Parsed-Corpora/dependency-env-es
- Mientras tanto, Corpus (Corpus paralelo: inglés, español, italiano, holandés): http://www.newsreader-project.eu/results/data/wikinews/
- Ace 2007 (español y árabe): https://catalog.ldc.upenn.edu/ldc2014t18
- Wikiner: https://figshare.com/articles/learning_multilingual_named_entity_recognition_from_wikipedia/5462500
- Wikineural: https://github.com/babelscape/wikineural
- Multinerd: https://github.com/babelscape/multinerd
- http://www.grupolys.org/~marcos/pub/lrec16.tar.bz2 (utilizado en "incorporar la heurística de léxico-semántica en tamices de resolución de coreferencia para el reconocimiento de entidad nombrado a nivel de documento")
- Corporación multilingüe con anotación coreferencial de entidades de persona (español, galicánga, portugués): http://gramatica.usc.es/~marcos/lrec.tar.bz2
- DrugSemantics Gold Standard (Moreno et al., DrugSemantics: A Corpus para el reconocimiento de entidades nombrado en resúmenes españoles de las características del producto, 2017): https://data.mendeley.com/datasets/FWC7JRC5JR/1
- Dbpedia Abstract Corpus (inglés, alemán, holandés, francés, italiano, japonés): http://downloads.dbpedia.org/2015-04/ext/nlp/abstracts/
- DataSet Dawt - Textos de Wikipedia densamente anotados en múltiples idiomas (inglés, español, francés, italiano, alemán, árabe): https://github.com/klout/opendata/tree/master/wiki_annotation
- Cantemist (Tarea compartida de minería de texto del cáncer - Reconocimiento de entidades con nombre de tumor) - Reconocimiento de entidad nombrado de un tipo crítico de concepto relacionado con el cáncer, a saber, la morfología tumoral en textos médicos españoles: https://temu.bsc.es/cantemist/
catalán
- Ancora (español, catalán): http://clic.ub.edu/corpus/en
gallego
- Galician Ner Corpus: https://gramatica.usc.es/~marcos/resources/corpus_gal_nec.txt.gz
- Corporación multilingüe con anotación coreferencial de entidades de persona (español, galicánga, portugués): http://gramatica.usc.es/~marcos/lrec.tar.bz2
vasco
- Vasco nombrado Corpus Entities (EIEC): http://ixa.eus/node/4486?Language=en
- Desambigado vasco Corpus de entidades nombrado (ediec): http://ixa.si.ehu.es/node/4485? Language=en
- EGUKARIA 2000 Corpus (383 Textos de Newswire), mencionado en http://qtleap.eu/wp-content/uploads/2014/04/qtleap-2013-15.1.pdf
portugués
- Harén: https://www.linguateca.pt/aval_conjunta/harem/harem_ing.html
- Cintil Corpus: http://cintil.ul.pt/cintilfeature.html#corpus
- Wikiner: https://figshare.com/articles/learning_multilingual_named_entity_recognition_from_wikipedia/5462500
- Wikineural: https://github.com/babelscape/wikineural
- Multinerd: https://github.com/babelscape/multinerd
- Corporación multilingüe con anotación coreferencial de entidades de persona (español, galicánga, portugués): http://gramatica.usc.es/~marcos/lrec.tar.bz2
- Formato de bosque 8.0 Eagles: https://gramatica.usc.es/~marcos/resources/corpora_flpt.tgz
- Lener-Br (documentos legales brasileños): https://cic.unb.br/~teodecampos/lener-br/
- Paramopama: un corpus brasileño-portugués para el reconocimiento de entidad nombrada
Francés
- Ester: http://catalogue.elra.info/en-us/repository/browse/elra-s0241/
- Ester 2: http://catalogue.elra.info/en-us/repository/browse/elra-s0338/
- Etape: http://catalogue.elra.info/en-us/repository/browse/elra-e0046/
- Europeana Newspapers (holandés, francés, alemán): https://github.com/europeanewspapers/ner-corpana; http://lab.kb.nl/dataset/europeana-newspapers-ner#access
- Quaero Corpus médico francés: https://quaerofrenchmed.limsi.fr/
- Quaero Broadcast News Extended Entity Corpus: http://catalog.elra.info/en-us/repository/browse/elra-s0349/
- Quaero Old Press Extended nombrado Entity Corpus: http://catalog.elra.info/en-us/repository/browse/elra-w0073/
- Wikiner: https://figshare.com/articles/learning_multilingual_named_entity_recognition_from_wikipedia/5462500
- Wikiner-frr-gold https://arxiv.org/abs/2411.00030 https://huggingface.co/datasets/danrun/wikinerfr-gold
- Wikineural: https://github.com/babelscape/wikineural
- Multinerd: https://github.com/babelscape/multinerd
- Dbpedia Abstract Corpus (inglés, alemán, holandés, francés, italiano, japonés): http://downloads.dbpedia.org/2015-04/ext/nlp/abstracts/
- DataSet Dawt - Textos de Wikipedia densamente anotados en múltiples idiomas (inglés, español, francés, italiano, alemán, árabe): https://github.com/klout/opendata/tree/master/wiki_annotation
- CAP 2017 - (Datos de Twitter), López et al., Cap 2017 Desafío: Reconocimiento de entidades con nombramiento de Twitter, 2017: http://cap2017.imag.fr/competition.html
- HIPE-2022, reconocimiento de entidad nombrado y vinculación de entidad en documentos históricos multilingües: https://hipe-eval.github.io/hipe-2022/ https://github.com/hipe-eval/hipe-2022-data-data
italiano
- Tipo: https://github.com/dhfbk/kind
- Evalita: http://www.evalita.it/2009/tasks/entity
- Mientras tanto, Corpus (Corpus paralelo: inglés, español, italiano, holandés): http://www.newsreader-project.eu/results/data/wikinews/
- Panacea (env): http://panacea-lr.eu/en/info-for-researchers/data-sets/Dependency-Parsed-corpora/dependency-env-it
- Panacea (laboratorio): http://panacea-lr.eu/en/info-for-researchers/data-sets/Dependency-Parsed-Corpora/dependency-lab-it
- Wikiner: https://figshare.com/articles/learning_multilingual_named_entity_recognition_from_wikipedia/5462500
- Wikineural: https://github.com/babelscape/wikineural
- Multinerd: https://github.com/babelscape/multinerd
- Dbpedia Abstract Corpus (inglés, alemán, holandés, francés, italiano, japonés): http://downloads.dbpedia.org/2015-04/ext/nlp/abstracts/
- DataSet Dawt - Textos de Wikipedia densamente anotados en múltiples idiomas (inglés, español, francés, italiano, alemán, árabe): https://github.com/klout/opendata/tree/master/wiki_annotation
rumano
- Ronec (Dumitrescu y Avram, presentando a Ronec, el rumano nombrado Corpus de la Entidad. LREC 2020). Documento: https://arxiv.org/pdf/1909.01247.pdf Datos: https://github.com/dumitrescustefan/ronec
- Corpus periodístico rumano (ROCO): http://metasashare.elda.org/repository/browse/romanian-journalistic-corpus-roco/038baa80dc7311e5aaa0b00237df3e3583781d7c0f2084057aa018a22d987e987e99/
- Corpus Balanced rumano (Rombac): http://metashare.elda.org/repository/browse/romanian-balanced-corpus-rombac/0a7dd85edc7311e5aa0b00237df3e35873a0d662435d42d94fba48c29dc0065/
Griego
- Panacea (env): http://panacea-lr.eu/en/info-for-researchers/data-sets/Dependency-Parsed-corpora/dependency-env-el
- Panacea (laboratorio): http://panacea-lr.eu/en/info-for-researchers/data-sets/Dependency-Parsed-Corpora/dependency-lab-el
húngaro
- Húngaro nombrado Entity Corpera: http://rgai.inf.u-szeged.hu/index.php?lang=en&page=corpus_ne
- hunnerwiki: http://hlt.sztaki.hu/resources/hunnerwiki.html
- Nytk: https://github.com/nytud/nytk-nerkor
checo
- Checo llamado Entity Corpus: http://ufal.mff.cuni.cz/cnec
- BSNLP 2017 (croata, checo, polaco, ruso, eslovaco, eslovene, ucraniano): http://bsnlp-2017.cs.helsinki.fi/shared_task_results.html
- Czeng 1.0 (Corpus paralelo: chech-inglish): http://ufal.mff.cuni.cz/czeng/czeng10
- PERO OCR NER (Czech Historical OCR Chronicles): https://github.com/roman-janik/poner https://dspace.vut.cz/items/6092e1b0-3d75-4451-8582-28573ac30404
Polaco
- El cuerpo de SEJM polaco: http://clip.ipipan.waw.pl/psc
- BSNLP 2017 (croata, checo, polaco, ruso, eslovaco, eslovene, ucraniano): http://bsnlp-2017.cs.helsinki.fi/shared_task_results.html
- Corpus de Coreference polaco: http://zil.ipipan.waw.pl/polishcoreferenceRpus
- Wikiner: https://figshare.com/articles/learning_multilingual_named_entity_recognition_from_wikipedia/5462500
- Wikineural: https://github.com/babelscape/wikineural
- Multinerd: https://github.com/babelscape/multinerd
- Corpus of Economic News (CEN Corpus): http://www.nlp.pwr.wroc.pl/narzedzia-i-i-zasoby/zasoby/cen
- KPWR (Korpus Języka Polskiego Politechniki wrocławskiej/polaco Corpus de la Universidad de Tecnología de Wrocław): http://plwordnet.pwr.wroc.pl/index.php?option=com_content&view=article&id=35&itemid=181&lang=pl; http://plwordnet.pwr.wroc.pl/attachments/article/35/kpwr-1.1.7z (Broda et al., KPWR: Hacia un corpus gratuito de polaco, 2012)
- Nkjp: http://clip.ipipan.waw.pl/nationalcorpusofpolish?action=attachfile&do=view&target=nkjp-podkorpusmilionowy-1.2.tar.gz
croata
- HR500K 1.0: http://hdl.handle.net/11356/1183
- BSNLP 2017 (croata, checo, polaco, ruso, eslovaco, eslovene, ucraniano): http://bsnlp-2017.cs.helsinki.fi/shared_task_results.html
- Reldi-Normtagner-HR (tweets croata): http://hdl.handle.net/11356/1170
eslovaco
- BSNLP 2017 (croata, checo, polaco, ruso, eslovaco, eslovene, ucraniano): http://bsnlp-2017.cs.helsinki.fi/shared_task_results.html
- Eslovak categorizado Corpus de noticias: https://nlp.web.tuke.sk/pages/categorizedNews
esloveno
- BSNLP 2017 (croata, checo, polaco, ruso, eslovaco, eslovene, ucraniano): http://bsnlp-2017.cs.helsinki.fi/shared_task_results.html
- SSJ500K: http://www.slovenscina.eu/tehnologije/ucni-korpus; http://eng.slovenscina.eu/tehnologije/ucni-korpus; https://www.clarin.si/repository/xmlui/handle/11356/1029; Nota: Para V 2.2 Ver: http://hdl.handle.net/11356/1210
- Slovenene News: http://zitnik.si/mediawiki/index.php?title=datasets#slovene_news; http://zitnik.si/mediawiki/images/7/7d/rtvslo_dec2011.tsv; http://zitnik.si/mediawiki/images/5/5e/rtvslo_dec2011_v2.tsv
- Janes-Tag 2.0 (Texto de las redes sociales) https://www.clarin.si/repository/xmlui/handle/11356/1123; Ver también: Fišer et al., El proyecto Janes: recursos de idiomas y herramientas para el contenido generado por el usuario esloveno, 2018.
ucranio
- BSNLP 2017 (croata, checo, polaco, ruso, eslovaco, eslovene, ucraniano): http://bsnlp-2017.cs.helsinki.fi/shared_task_results.html
- Ucraniano Brown Ner Corpus: https://github.com/lang-uk/ner-uk; http://lang.org.ua/en/corpora/
serbio
- Setimes.sr - http://hdl.handle.net/11356/1200
- Corpus de evaluación de entidades nombradas para serbio: http://www.korpus.matf.bg.ac.rs/srpneval/
- Reldi-Normtagner-Sr (tweets serbios): http://hdl.handle.net/11356/1171
búlgaro
islandés
- Mim-Gold -ner (Ingólfsdóttir, Svanhvít Lilja, Sigurjón Þorsteinsson y Hrafn Loftsson. "Hacia la alta precisión del reconocimiento de entidades nombrado para islandés". http://www.malfong.is/index.php?pg=mim_gold_ner
danés
- Dane: Hvingelby et al., [Dane: un recurso de entidad nombrado para danés.] (Http://www.lrec-conf.org/proceedings/lrec2020/pdf/2020.lrec-1.565.pdf), lrec 2020: https://github.com/alexandrainst/danlp/
- Propbank danés (DPB): http://catalog.elra.info/en-us/repository/browse/elra-w0117/
- Arboretum TreeBank: http://catalog.elra.info/en-us/repository/browse/elra-w0084/
noruego
- Bjarte Johansen, reconocimiento de la entidad nombrada para Noruega, Actas de la 22a Conferencia Nórdica sobre Lingüística Computacional. 2019 (https://www.aclweb.org/anthology/w19-6123.pdf) Datos: https://github.com/ljos/navnkjenner
- Fredrik Jørgensen et al., Norne: anotando entidades nombradas para Norwegian, 2019 (https://arxiv.org/pdf/1911.12146.pdf). Datos: https://github.com/ltgoslo/norne/; https://www.nb.no/sprakbanken/show?serial=oai%3anb.no%3asbr-49
sueco
- Estocolmo en Internet Corpus: https://www.ling.su.se/english/nlp/corpora-and-resources/Sic
- Suc 3.0: https://spraakbanken.gu.se/eng/resource/suc3
- Sueco anotado manualmente ner: https://github.com/klintan/swedish-ner-corpus/
- Datos de Wikipedia Medical (Almgren et al., Nombrado reconocimiento de entidad en registros de salud suecos con LSTM de bidireccionales profundos basados en personajes, 2016): https://github.com/olofmogren/biomedical-ner-data-swedish
- HIPE-2022, reconocimiento de entidad nombrado y vinculación de entidad en documentos históricos multilingües: https://hipe-eval.github.io/hipe-2022/ https://github.com/hipe-eval/hipe-2022-data-data
finlandés
- Conjuntos de datos para la recoginición de entidad con nombre finlandés: https://github.com/mpsilfve/finer-data
- Turku Ner Corpus: https://github.com/turkunlp/turku-ner-corpus
- HIPE-2022, reconocimiento de entidad nombrado y vinculación de entidad en documentos históricos multilingües: https://hipe-eval.github.io/hipe-2022/ https://github.com/hipe-eval/hipe-2022-data-data
Estoniano
- Estonian Ner Corpus: https://metashare.ut.ee/repository/browse/estonian-ner-corpus/88d030c0acde11e2a6e4005056b40024f1def472ed254e77a8952e1003d9f81e/
Letón y lituano
- https://github.com/accurat-toolkit/tildener/tree/master/test (Pinnis, Letonia y Lituania reconoce la entidad con Tildenener, LREC 2012)
- Datos de entrenamiento para el etiquetador LV: https://github.com/peterisp/lvtagger/tree/master/nergeringdata
turco
- K̈ucuk and Can, un conjunto de datos de tweet anotado para el reconocimiento de entidad nombrado y la detección de posturas, 2019: https://github.com/dkucuk/tweet-dataset-ner-sd
- K̈ucuk et al., Nombrado reconocimiento de entidad en tweets turcos: http://optima.jrc.it/resources/2014_jrc_twitter_tr_ner-dataset.zip
- English/Turkish Wikipedia nombramiento de datos de reconocimiento de entidad y categorización de texto (http://arxiv.org/abs/1702.02363): https://data.mendeley.com/datasets/cdcztymf4k/1
- Çoban et al, reconocido entidad sobre FBNer: un nuevo conjunto de datos de Facebook en turco: https://ieeExplore.ieee.org/document/9598971 Datos disponibles para fines de investigación a pedido
Kazáceo
- Kaznerd: https://arxiv.org/pdf/2111.13419.pdf, https://github.com/is2ai/kaznerd
Uigur
- Uyghur nombrado Corpus de la relación Entity: https://github.com/kaharjan/uynerel (AbedereRexiti et al., Esquemas de anotación para construir Uyghur nombrado Corpus de Relacional de Entidad. IALP 2016)
armenio
- Pioner (conjuntos de datos de standard y standard de oro): https://github.com/ispras-texterra/pioner (Ghukasyan et al., Pioner: conjuntos de datos y líneas de base para el reconocimiento de entidades nombrado armenio, 2018)
- Armtdp-ner: https://github.com/myavrum/armtdp-ner
copto
- El TreeBank de dependencia universal Coptic: https://github.com/universaldependencies/ud_coptic-scriptorium/tree/dev (ver también https://copticscriptorium.org/treebank.html). Esto contiene 46,000 tokens de entidades anidadas (no) nombradas y wikificadas de textos coptos sahídicos.
Amárico
- Diga Corpus (ver "Reconocimiento de entidad nombrado para Amharic usando el aprendizaje profundo"): https://github.com/geezorg/data/tree/master/amharic/tagged/nmsu-say; http://data.geez.org/
árabe
- AQMAR Árabe Wikipedia nombrada Entity Corpus: http://www.cs.cmu.edu/~ark/arabicner/
- NE3L Nombrado Entidades Corpus Árabe (árabe, chino, ruso): http://catalog.elra.info/en-us/repository/browse/elra-w0078/
- Traducción de la entidad refleja (Corpus paralelo: inglés, árabe, chino): https://catalog.ldc.upenn.edu/ldc2009t11
- Anercorp: http://users.dsic.upv.es/~ybenajiba/downloads.html (ver también: http://alias-i.com/lingpipe/demos/tutorial/ne/read-me.html)
- Ace 2003 (inglés, chino, árabe): https://catalog.ldc.upenn.edu/ldc2004t09
- Ace 2004 (inglés, chino, árabe): https://catalog.ldc.upenn.edu/ldc2005t09
- Ace 2005 (inglés, chino, árabe): https://catalog.ldc.upenn.edu/ldc2006t06
- Ace 2007 (español y árabe): https://catalog.ldc.upenn.edu/ldc2014t18
- Ontonotes 5 (inglés, árabe, chino): https://catalog.ldc.upenn.edu/ldc2013t19
- DataSet Dawt - Textos de Wikipedia densamente anotados en múltiples idiomas (inglés, español, francés, italiano, alemán, árabe): https://github.com/klout/opendata/tree/master/wiki_annotation
- Wojood - 2022 Árabe anidado nombrado Entity Corpus. https://dlnlp.ai/st/wojood/ https://aclanthology.org/2022.lrec-1.387.pdf https://codalab.lisn.upsaclay.fr/Competitions/11740
persa
- ArmanpersonerCorpus: http://islrn.org/resources/399-379-640-828-6/; https://github.com/haniehp/persianner
Sindhi
- Siner: https://aclanthology.org/2020.lrec-1.361/, https://github.com/aliwazir/siner-dataset
Urdu
- IJCNLP 2008 Sseal: http://ltrc.iiit.ac.in/ner-ssea-08/index.cgi?topic=5
- DataSet de UNER (Khan et al., Nombrado el conjunto de datos de entidad para Urdu nombrada Tarea de reconocimiento de entidades, 2016). Disponible en http://www.iiu.edu.pk/?page_id=5181
- Mk-Pucit: https://www.dropbox.com/sh/1ivw7ykm2tugg94/aab9t5wnn7fynpo7tjjw8la; Ver: Kanwal et al., Urdu nombrado Reconocimiento de la entidad: Corpus Generation and Deep Learning Applications, 2019
Indicador
- Naamapadam: conjunto de datos de reconocimiento de entidad (NER) nombrado para 11 idiomas indios principales de dos familias de idiomas. https://research.ibm.com/publications/naamapadam-a-large-scale-named-entity-annotated-data-for-indic-languages https://ai4bharat.iitm.ac.in/naamapadam
hindi
- Hiner: https://github.com/cfiltnlp/hiner
- Hindi Health DataSet: https://www.kaggle.com/aijain/hindi-health-dataset/home
- Fire 2015, ESM-IL (inglés, hindi, tamil, malayalam): http://au-kbc.org/nlp/esm-fire2015/#traincorpus
- Fire Ner 2013 (inglés, hindi, tamil, malayalam, bengalí): http://au-kbc.org/nlp/ner-fire2013/
- IJCNLP 2008 Sseal: http://ltrc.iiit.ac.in/ner-ssea-08/index.cgi?topic=5
bengalí
- Fire Ner 2013 (inglés, hindi, tamil, malayalam, bengalí): http://au-kbc.org/nlp/ner-fire2013/
- IJCNLP 2008 Sseal: http://ltrc.iiit.ac.in/ner-ssea-08/index.cgi?topic=5
- Bengali-ner: https://github.com/rifat1493/bengali-ner, https://ieeexplore.ieee.org/document/8944804
- Ner-bangla: https://github.com/misabic/ner-bangla-dataset, https://content.iospress.com/articles/journal-of-intelligent-and-fuzzy-systems/ifs179349
Telugu
- Ner_telugu: https://github.com/anikethjr/ner_telugu
- IJCNLP 2008 Sseal: http://ltrc.iiit.ac.in/ner-ssea-08/index.cgi?topic=5
- Entidad nombrada Corporación anotada para telugu: http://www.tdil-dc.in/index.php?option=com_download&task=showresourcedetails&toolid=982&lang=en
Maithili
- El primer reconocimiento de entidad nombrado en Maithili: Creación de recursos y desarrollo del sistema: https://content.iospress.com/articles/journal-of-intelligent-and-fuzzy-systems/IFS210051
Nepalí
- Everestner: https://journals.flvc.org/flairs/article/view/130725, https://github.com/nowalab/everest-ner
Marathi
- Entidad nombrada Corporación anotada para marathi: http://www.tdil-dc.in/index.php?option=com_download&task=showresourcedetails&toolid=979&lang=en
- L3cube Mahaner: https://arxiv.org/abs/2204.06029 https://github.com/l3cube-pune/marathinlp
punjabi
- Entidad nombrada Corporación anotada para Punjabi: http://www.tdil-dc.in/index.php?option=com_download&task=showresourcedetails&toolid=980&lang=en
Tamil
- Fire 2015, ESM-IL (inglés, hindi, tamil, malayalam): http://au-kbc.org/nlp/esm-fire2015/#traincorpus
- Fire Ner 2013 (inglés, hindi, tamil, malayalam, bengalí): http://au-kbc.org/nlp/ner-fire2013/
Malayalam
- Fire 2015, ESM-IL (inglés, hindi, tamil, malayalam): http://au-kbc.org/nlp/esm-fire2015/#traincorpus
- Fire Ner 2013 (inglés, hindi, tamil, malayalam, bengalí): http://au-kbc.org/nlp/ner-fire2013/
Oriya/odia
- IJCNLP 2008 Sseal: http://ltrc.iiit.ac.in/ner-ssea-08/index.cgi?topic=5
Cingala/cingalés
tailandés
- Thai-Named-Entity-Recognition-data: https://github.com/pythainlp/thai-named-entity-recognition-data
- Thai nombrado Entity Corpera: http://pioneer.chula.ac.th/~awirote/resources/corpor-data.html; http://pioneer.chula.ac.th/~awirote/data-nutcha.zip; http://pioneer.chula.ac.th/~awirote/data-sasiwimon.zip; http://pioneer.chula.ac.th/~awirote/data-nattadaporn.zip
- LST20: https://huggingface.co/datasets/lst20; https://arxiv.org/abs/2008.05055
- Thai-nner: https://github.com/vistec-ai/thai-nner, https://aclanthology.org/2022.findings-acl.116
indonesio
- IDENTICO: http://metashare.elda.org/repository/browse/ididic/fed3fada7ef111e5aa3b001dd8b71c66c98eee36eabd42f18ffd9a95da9104cc/
- https://github.com/yohanesgultom/nlp-experiments/tree/master/data/ner
- Indonesia-ner: Syaifudin & Nurwidyantoro https://ieeexplore.ieee.org/document/7828656 https://github.com/yusufsyaifudin/indonesia-ner
- Idner-News-2K: un conjunto de datos de noticias de Indonesia para la tarea de reconocimiento de entidad nombrada. Reannotación de Syaifudin & Nurwidyantoro https://dl.acm.org/doi/10.1145/3592854#fn8 https://github.com/khairunnisaor/idner-news-2k/
- Nerp y Ner-Grit: dos conjuntos de datos indonesios de Indonlp/Indonlu https://github.com/indonlp/indonlu/tree/master/dataset https://aclanthology.org/2020.aacl-main.85/
vietnamita
- VLSP 2016: http://vlsp.org.vn/resources-vlsp2016; https://github.com/undertheseanlp/ner
- VLSP 2018: http://vlsp.org.vn/resources-vlsp2018; https://github.com/undertheseanlp/ner
- Phoner_Covid19: https://github.com/vinairesearch/phoner_covid19
japonés
- Irex: https://nlp.cs.nyu.edu/irex/package/
- Met-2 (japonés, chino): https://www-nlpir.nist.gov/related_projects/muc/
- BCCWJ BASIC NE Corpus: https://sites.google.com/site/projectnextnlpne/en (Iwakura et al., Construyendo un corpus de entidad básico japonés nombrado de varios géneros, noticias 2016)
- Dbpedia Abstract Corpus (inglés, alemán, holandés, francés, italiano, japonés): http://downloads.dbpedia.org/2015-04/ext/nlp/abstracts/
- Datos de: Mai et al., Un estudio empírico sobre el reconocimiento de entidades con nombre de grano fino, Coling 2018 (inglés, japonés): https://fgner.alt.ai/duc/ene/testsets/comp/
- Wikipedia Ner Corpus: https://github.com/stockmarkteam/ner-wikipedia-dataset
- Wikiann: https://elisa-ie.github.io/wikiann/
- GSD: Conversión del conjunto de datos UD GSD a entidades nombradas por Megagon Labs https://github.com/megagonlabs/ud_japanese-gsd
- KWDLC: El documento web de la Universidad de Kyoto lidera el corpus https://nlp.ist.i.kyoto-u.ac.jp/en/index.php?kwdlc https://github.com/ku-nlp/kwdlc https://nagisa.Readtedocs.io/en/en/tutorial
coreano
- Instituto Nacional de Lengua Corea (ROK) - Ner Corpus: https://github.com/digitalprk/koreaner; https://ithub.korean.go.kr/user/total/referenceview.do?boardseq=5&articleseq=118&boardgb=t&isinsupd&boardtype=corpus
- Kmou ner - https://github.com/kmounlp/ner
- Evaluación de comprensión del idioma coreano - Klue Ner - https://klue-benchmark.com/tasks/69/overview/description
- https://github.com/songys/entity
- Corpus HLCT 2016, con actualizaciones - https://github.com/machinereading/koreAnnerCorpus
Chino
- Ace 2003 (inglés, chino, árabe): https://catalog.ldc.upenn.edu/ldc2004t09
- Ace 2004 (inglés, chino, árabe): https://catalog.ldc.upenn.edu/ldc2005t09
- Ace 2005 (inglés, chino, árabe): https://catalog.ldc.upenn.edu/ldc2006t06
- Ontonotes 5 (inglés, árabe, chino): https://catalog.ldc.upenn.edu/ldc2013t19
- Met-2 (japonés, chino): https://www-nlpir.nist.gov/related_projects/muc/
- Traducción de la entidad refleja (Corpus paralelo: inglés, árabe, chino): https://catalog.ldc.upenn.edu/ldc2009t11
- NE3L Nombrado Entidades Corpus chino (árabe, chino, ruso): http://catalogue.elra.info/en-us/repository/browse/elra-w0079/
- Recopilación original de datos de mensajería en chino (entidades nombradas): http://catalog.elra.info/en-us/repository/browse/elra-w0045_04/
- Recopilación original de datos de breve en chino (entidades nombradas): http://catalog.elra.info/en-us/repository/browse/elra-w0045_08/
- Ereft Corpera (Corpus paralelo: inglés, chino): Mott et al., Entidades, relaciones y eventos en inglés paralelo, Corporación de relaciones y eventos, 2016 (LDC2015E78, LDC2014E114)
- Weibo chino: hodas anotaciones de estilo para menciones nominales y nombradas en las redes sociales chinas (Weibo): https://github.com/hltcoe/golden-horse
- Eduner chino: 2023 conjunto de datos en el dominio educativo: https://link.springer.com/article/10.1007/s00521-023-08635-5 https://github.com/anonymous-xl/eduner
- Aeroespacial chino ner: https://www.nature.com/articles/s41598-023-50705-0 https://github.com/coder-xiaokai/aerospace_nerdatasets
- SciCN: A Chinese Dataset and Benchmark for Scientific Information Extraction https://file.techscience.com/files/cmc/2024/TSP_CMC-78-3/TSP_CMC_35594/TSP_CMC_35594.pdf https://github.com/yangjingla/SciCN
- EMP NER: Historical Chinese https://aclanthology.org/2024.lrec-main.35.pdf https://gitlab.com/enpchina/ENP-NER
Tagalo
- TLUnifed: https://arxiv.org/abs/2311.07161 https://huggingface.co/datasets/ljvmiranda921/tlunified-ner
ruso
- BSNLP 2017 (Croatian, Czech, Polish, Russian, Slovak, Slovene, Ukrainian): http://bsnlp-2017.cs.helsinki.fi/shared_task_results.html
- NE3L named entities Russian corpus (Arabic, Chinese, Russian): https://catalog.elra.info/en-us/repository/browse/ELRA-W0080/
- WikiNER: https://figshare.com/articles/Learning_multilingual_named_entity_recognition_from_Wikipedia/5462500
- WikiNEuRal: https://github.com/Babelscape/wikineural
- MultiNERD: https://github.com/Babelscape/multinerd
- factRuEval-2016: https://github.com/dialogue-evaluation/factRuEval-2016
- RuREBus 2020 (Russian Relation Extraction for Business) corpus https://github.com/dialogue-evaluation/RuREBus
Yoruba
- GV-Yorùbá-NER. Data: https://github.com/ajesujoba/YorubaTwi-Embedding/tree/master/Yoruba/Yor%C3%B9b%C3%A1-NER ; Data statement: https://drive.google.com/file/d/177xu-O2FTJ7VJQ-0ohCWjVd1qu61Tvml/view Paper: Jesujoba O Alabi, Kwabena Amponsah-Kaakyire, David I Adelani, and Cristina Espãna-Bonet. Massive vs. curated word embeddings for low-resourced languages. the case of Yorùbá and Twi. In LREC, 2020 (https://arxiv.org/abs/1912.02481)
swahili
- Helsinki Corpus of Swahili 2.0 (HCS 2.0) Annotated Version: http://metashare.csc.fi/repository/browse/helsinki-corpus-of-swahili-20-hcs-20-annotated-version/232c1910b9eb11e5915e005056be118e59fb2e920f1f4c0cafc94915fc6f5cac/ See: Shah et al., 2010. SYNERGY: A Named Entity Recognition System for Resource-scarce Languages such as Swahili using Online Machine Translation
Igbo
- IgboNER: https://aclanthology.org/2022.lrec-1.547/ https://github.com/Chiamakac/IgboNER-Models later updated in https://openreview.net/pdf?id=tHUS9-vmUfC from https://sites.google.com/view/africanlp2023/home
isiNdebele
- NCHLT isiNdebele Named Entity Annotated Corpus: https://repo.sadilar.org/handle/20.500.12185/306
Xhosa
- NCHLT isiXhosa Named Entity Annotated Corpus: https://repo.sadilar.org/handle/20.500.12185/312
zulú
- NCHLT isiZulu Named Entity Annotated Corpus: https://repo.sadilar.org/handle/20.500.12185/319
Sepedi
- NCHLT Sepedi Named Entity Annotated Corpus: https://repo.sadilar.org/handle/20.500.12185/328
Sesotho
- NCHLT Sesotho Named Entity Annotated Corpus: https://repo.sadilar.org/handle/20.500.12185/334
Setswana
- NCHLT Setswana Named Entity Annotated Corpus: https://repo.sadilar.org/handle/20.500.12185/341
Siswati
- NCHLT Siswati Named Entity Annotated Corpus: https://repo.sadilar.org/handle/20.500.12185/346
Venda
- NCHLT Tshivenda Named Entity Annotated Corpus: https://repo.sadilar.org/handle/20.500.12185/355
- MPHAYANER: Named Entity Recognition for Tshivenḓa: https://openreview.net/pdf?id=0nneuL3bSLt https://github.com/rendanim/MphayaNER from https://sites.google.com/view/africanlp2023/home
Xitsonga
- NCHLT Xitsonga Named Entity Annotated Corpus: https://repo.sadilar.org/handle/20.500.12185/362
latín
- Herodotos Project: https://github.com/alexerdmann/Herodotos_Project_Annotation
A long list can be found here: http://damien.nouvels.net/resourcesen/corpora.html
Referencias
[Alvarado et al., 2015] Alvarado, Julio Cesar Salinas, Karin Verspoor, and Timothy Baldwin. Domain adaption of named entity recognition to support credit risk assessment. In Proceedings of the Australasian Language Technology Association Workshop 2015, pp. 84-90. 2015. Accessed: August 2018.
[Balasuriya et al., 2009] Balasuriya, Dominic, Nicky Ringland, Joel Nothman, Tara Murphy, and James R. Curran. Named entity recognition in wikipedia. In Proceedings of the 2009 Workshop on The People's Web Meets NLP: Collaboratively Constructed Semantic Resources, pp. 10-18. Association for Computational Linguistics, 2009
[Bos et al., 2017] Bos, Johan, Valerio Basile, Kilian Evang, Noortje J. Venhuizen, and Johannes Bjerva. The Groningen meaning bank. In Handbook of linguistic annotation, pp. 463-496. Springer, Dordrecht, 2017.
[Derczynski et al., 2016] Derczynski, Leon, Kalina Bontcheva, and Ian Roberts. Broad twitter corpus: A diverse named entity recognition resource. In Proceedings of COLING 2016, the 26th International Conference on Computational Linguistics: Technical Papers, pp. 1169-1179. 2016. Available at: https://github.com/GateNLP/broad_twitter_corpus Accessed: August 2018.
[Derczynski et al., 2017] Leon Derczynski, Eric Nichols, Marieke van Erp, Nut Limsopatham (2017) Results of the WNUT2017 Shared Task on Novel and Emerging Entity Recognition, in Proceedings of the 3rd Workshop on Noisy, User-generated Text. Available at: https://noisy-text.github.io/2017/emerging-rare-entities.html
[DSTL, 2017] Defence Science and Technology Laboratory. 2017. Relationship and Entity Extraction Evaluation Dataset. https://github.com/dstl/re3d. Accessed: January 2018.
[Grishman and Sundheim, 1996] Ralph Grishman and Beth Sundheim. 1996. Message understanding conference- 6: A brief history. In COLING 1996 Volume 1: The 16th International Conference on Computational Linguistics.
[Karimi et al., 2015] Sarvnaz Karimi, Alejandro Metke-Jimenez, Madonna Kemp, and Chen Wang. 2015. Cadec: A corpus of adverse drug event annotations. Journal of biomedical informatics, 55:73-81. Available at https://data.csiro.au Accessed: November 2017.
[Lim et al., 2017] Lim, Swee Kiat, Aldrian Obaja Muis, Wei Lu, and Chen Hui Ong. MalwareTextDB: A database for annotated malware articles. In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), vol. 1, pp. 1557-1567. 2017.
[Liu et al., 2013a] Jingjing Liu, Panupong Pasupat, Scott Cyphers, and Jim Glass. 2013. Asgard: A portable architecture for multilingual dialogue systems. In Acoustics, Speech and Signal Processing (ICASSP), 2013 IEEE International Conference on, pages 8386-8390. IEEE. Available at https://groups.csail.mit.edu/sls/downloads/restaurant/ Accessed: January 2018
[Liu et al., 2013b] Jingjing Liu, Panupong Pasupat, Yining Wang, Scott Cyphers, and Jim Glass. 2013. Query understanding enhanced by hierarchical parsing structures. In Automatic Speech Recognition and Understanding (ASRU), 2013 IEEE Workshop on, pages 72-77. IEEE. Available at https://groups.csail.mit.edu/sls/downloads/movie/ We used the trivia10k13 portion. Accessed: January 2018
[NIST, 1999 IE-ER] NIST. 1999. Information Extraction - Entity Recognition Evaluation. http://www.nist.gov/speech/tests/ieer/er_99/er_99.htm. The newswire development test data only (included in the NLTK package).
[Ohta et al., 2012] Tomoko Ohta, Sampo Pyysalo, Jun'ichi Tsujii and Sophia Ananiadou. 2012. Open-domain Anatomical Entity Mention Detection. In Proceedings of ACL 2012 Workshop on Detecting Structure in Scholarly Discourse (DSSD), pp. 27-36. Available at: http://www.nactem.ac.uk/anatomy/ and https://github.com/openbiocorpora/anem Accessed: November 2017.
[Ritter et al., 2011] Alan Ritter, Sam Clark, Mausam, and Oren Etzioni. 2011. Named entity recognition in tweets: An experimental study. In Proceedings of the 2011 Conference on Empirical Methods in Natural Language Processing, pages 1524-1534, Edinburgh, Scotland, UK., July. Association for Computational Linguistics. Accessed January 2018.
[Sang and Meulder, 2003] Erik F. Tjong Kim Sang and Fien De Meulder. 2003. Introduction to the CoNLL-2003 shared task: Languageindependent named entity recognition. In Proceedings of the Seventh Conference on Natural Language Learning at HLT-NAACL 2003.
[Stubbs et al., 2015] Amber Stubbs and Ozlem Uzuner. 2015. Annotating longitudinal clinical narratives for de-identification: The 2014 i2b2/UTHealth corpus. Journal of biomedical informatics, 58:S20-S29. Available at https://www.i2b2.org/NLP/DataSets/ Accessed: February 2018.
[Uzuner et al., 2007] Ozlem Uzuner, Yuan Luo, and Peter Szolovits. 2007. Evaluating the state-of-the-art in automatic de-identification. Journal of the American Medical Informatics Association, 14(5):550-563. Available at https://www.i2b2.org/NLP/DataSets/ Accessed: February 2018.
[Weischedel and Brunstein, 2005] Ralph Weischedel and Ada Brunstein. 2005. BBN pronoun coreference and entity type corpus. Linguistic Data Consortium, Philadelphia.
[Weischedel et al., 2013] Weischedel, Ralph, Martha Palmer, Mitchell Marcus, Eduard Hovy, Sameer Pradhan, Lance Ramshaw, Nianwen Xue et al. Ontonotes release 5.0 ldc2013t19. Linguistic Data Consortium, Philadelphia, PA (2013).
[Zeldes, 2017] Amir Zeldes. 2017. The GUM corpus: creating multilayer resources in the classroom. Language Resources and Evaluation, 51(3):581-612. Available at https://github.com/amir-zeldes/gum/tree/master/coref/tsv/ Accessed: November 2017.