Descarga entity recognition datasets - entity recognition datasets Descargar código fuente

entity recognition datasets

Otro código fuente

1.0.0

Descargar

Conjuntos de datos para el reconocimiento de entidades

Este repositorio contiene conjuntos de datos de varios dominios anotados con una variedad de tipos de entidades, útil para el reconocimiento de entidades y tareas de reconocimiento de entidades (NER).

Nota: Ya no estoy agregando activamente conjuntos de datos a esta lista; es probable que haya más conjuntos de datos NER que hayan aparecido desde 2020. Sin embargo, me complace agregar más conjuntos de datos a través de problemas o solicitudes.

Conjuntos de datos para ner en inglés

La siguiente tabla muestra la lista de conjuntos de datos para el reconocimiento de entidades en inglés (para una lista de conjuntos de datos NER en otros idiomas, ver a continuación). El directorio de datos contiene información sobre dónde obtener esos conjuntos de datos que no se pueden compartir debido a las restricciones de licencia, así como el código para convertirlos (si es necesario) al formato Conll 2003. Los enlaces a los corpus ner en otros idiomas también se enumeran a continuación.

Conjunto de datos	Dominio	Licencia	Referencia	Disponibilidad
Conll 2003	Noticias	Dúa	Sang y Meulder, 2003	Fácil de encontrar
Nist-eier	Noticias	Ninguno	NIST 1999 IE-ER	Datos NLTK
Muc-6	Noticias	LDC	Grishman y Sundheim, 1996	LDC 2003T13
Ontonotes 5	Varios	LDC	Weischedel et al., 2013	LDC 2013T19
Bbn	Varios	LDC	Weischedel y Brunstein, 2005	LDC 2005T33
GMB-1.0.0	Varios	Ninguno	Bos et al., 2017	http://gmb.let.rug.nl/data.php
Goma-3.1.0	Wiki	Varios ( * 2)	Zeldes, 2016	✔ Incluido aquí
wikigold	Wikipedia	CC-By 4.0	Balasuriya et al., 2009	✔ Incluido aquí
Ritmo	Gorjeo	Ninguno	Ritter et al., 2011	Sin división, tren/prueba/división de desarrollo
BTC	Gorjeo	CC-By 4.0	Derczynski et al., 2016	✔ Incluido aquí
WNUT17	Redes sociales	CC-By 4.0	Derczynski et al., 2017	✔ Incluido aquí
I2B2-2006	Médico	Dúa	Uzuner et al., 2007	http://www.i2b2.org
I2B2-2014	Médico	Dúa	Stubbs et al., 2015	http://www.i2b2.org
Cadeco	Médico	Csiro	Karimi et al., 2015	http://data.csiro.au/
Anem	Anatómico	CC-BY-SA 3.0	Ohta et al., 2012	✔ Incluido aquí
Mitrestaurant	Consultas	Ninguno	Liu et al., 2013a	http://groups.csail.mit.edu/sls/
Mitmovie	Consultas	Ninguno	Liu et al., 2013b	http://groups.csail.mit.edu/sls/
Malwaretextdb	Malware	Ninguno	Lim et al., 2017	http://www.statnlp.org/
re3d	Defensa	Varios ( * 1)	DSTL, 2017	✔ Incluido aquí
Filo de la SEC	Finanzas	CC-By 3.0	Alvarado et al., 2015	✔ Incluido aquí
Asamblea	Robótica	incógnita	Costa et al., 2017	incógnita
Wikineural	Wikipedia	CC BY-SA-NC 4.0	Tedeschi et al., 2021	https://github.com/babelscape/wikineural
Multinerd	Wikipedia	CC BY-SA-NC 4.0	Tedeschi et al., 2022	https://github.com/babelscape/multinerd
HIPE-2022	Histórico	CC BY-SA-NC 4.0	Ehrmann et al., 2022	https://github.com/hipe-eval/hipe-2022-data
Musical	Música	MIT	Epoure y Hennequin, 2023	https://github.com/deezer/music-ner-eacl2023
WIESP2022-NER	Astrofísica	CC BY-SA-NC 4.0	Grezes et al., 2022	https://huggingface.co/datasets/adsabs/wiesp2022-ner
Nne	Noticias	CC 4.0 / LDC	Ringland et al., 2019	https://github.com/nickyringland/nested_named_entities
Mundial	Noticias	CC BY-SA-NC 4.0	Shan et al., 2023	https://github.com/stanfordnlp/en-worldwide-newswire https://arxiv.org/abs/2404.13465

Licencias

Notas sobre licencias:

(1) RE3D ("conjunto de datos de evaluación de extracción de relaciones y entidades") contiene varios conjuntos de datos, con diferentes licencias. Estos son:

CC-by-SA 3.0 (conjunto de datos de Wikipedia)
CC BY-NC 3.0 (conjunto de datos BBC_Online)
CC por 3.0 Au (Australian_department_of_foreign_affairs DataSet)
Dominio público (US_STATE_DEPARTMent DataSet, Centcom DataSet)
Licencia de gobierno abierto del Reino Unido v3.0 (conjunto de datos de gubernamental del Reino Unido)
Delegación_of_the_european_union_to_syria: ver https://eeas.europa.eu/delegations/syria/8157/legal-notice_en

Gum 3.1.0 comprende tres conjuntos de datos, con licencias CC-By 3.0, CC-BY-SA 3.0 y CC-BY-NC-SA 3.0. Las anotaciones tienen licencia bajo CC-by 4.0.

Se puede encontrar información de licencia más detallada para cada conjunto de datos en el subdirectorio correspondiente.

Más tarde ... - Tabassum et al., Código y reconocimiento de entidad nombrado en stackoverflow https://cocoxu.github.io/publications/acl2020_stackoverflow_ner.pdf - litbank: https://github.com/dbamman/litbank (bamman, popat y shen, un entidades anotadas de literary 2019) - nailatary. NNE: A Dataset for Nested Named Entity Recognition in English Newswire, 2019 https://github.com/nickyringland/nested_named_entities - Mars Target Encyclopedia - LPSC abstracts labeled data set: https://zenodo.org/record/1048419#.W5a2CBwnZhE - Best Buy queries: https://www.kaggle.com/dataturks/best-buy-ecommerce-ner-dataset/home-Entidades de currículum para ner: https://www.kaggle.com/dataturks/resume-entities-for-ner/home-pocos-ner: un poco de reconocimiento de entidad dataSet https://aclanthology.org/2021.acl-long.248/

Conjuntos de datos para ner en otros idiomas

Recursos de entidad con nombre léxico

Heiner: http://heiner.cl.uni-heidelberg.de/index.shtml
Neckar: https://event.ifi.uni-heidelberg.de/?page_id=532#wikidata_ne_dataset

Cambio de código

Tweets en inglés-spanish (Calcs 2018): https://code-switching.github.io/2018/; https://code-switching.github.io/2018/files/spa-eng/release.zip; http://www.aclweb.org/anthology/w18-3219
Tweets árabe-egipcio (Calcs 2018): https://code-switching.github.io/2018/; https://code-switching.github.io/2018/files/msa-egy/arabictweetstokenassigner.zip; http://www.aclweb.org/anthology/w18-3219
Hindi-English Social Media Texto: https://github.com/silentflame/named-entity-recognition; http://aclweb.org/anthology/w18-2405
Tarea compartida de EMNLP 2014-Tweets marcados con código (nepali-inglish, español-inglés, mandarín-inglés, dialectos árabes-árabe): http://emnlp2014.org/workshops/codeswitch/call.html

Alemán

Conll 2003 (inglés, alemán): https://www.clips.uantwerpen.be/conll2003/ner/
Germeval 2014: https://sites.google.com/site/germeval2014ner/data
Tübingen Treebank de alemán escrito (Tüba-D/Z): http://www.sfs.uni-tuebingen.de/en/ascl/resources/corpora/tueba-dz.html
Europeana Newspapers (holandés, francés, alemán): https://github.com/europeanewspapers/ner-corpana; http://lab.kb.nl/dataset/europeana-newspapers-ner#access
Transcripciones alemanas de Europarl (subconjunto): https://nlpado.de/~sebastian/software/ner_german.shtml
Modelo de entidad nombrado para alemán, Política (NEMGP): https://www.thomas-zastrow.de/nlp/
Wikiner: https://figshare.com/articles/learning_multilingual_named_entity_recognition_from_wikipedia/5462500
Wikineural: https://github.com/babelscape/wikineural
Multinerd: https://github.com/babelscape/multinerd
DFKI SmartData Corpus (Geo-Entities): https://dfki-lt-re-group.bitbucket.io/smartdata-corpus/ (un corpus alemán para el reconocimiento de entidad de grano fino y la relación de tráfico y eventos de la industria. Leonhard Hennig.
Dbpedia Abstract Corpus (inglés, alemán, holandés, francés, italiano, japonés): http://downloads.dbpedia.org/2015-04/ext/nlp/abstracts/
DataSet Dawt - Textos de Wikipedia densamente anotados en múltiples idiomas (inglés, español, francés, italiano, alemán, árabe): https://github.com/klout/opendata/tree/master/wiki_annotation
Elena Leitner, Georg Rehm, Juli ́an Moreno-Schneider, un conjunto de datos de documentos legales alemanes para el reconocimiento de entidades nombrado, LREC 2020: http://georg-re.hm/pdf/lrec-2020-leitner-et-et-alprint.pdf; Datos: https://github.com/elenanereiss/legal-entity-recognition
HIPE-2022, reconocimiento de entidad nombrado y vinculación de entidad en documentos históricos multilingües: https://hipe-eval.github.io/hipe-2022/ https://github.com/hipe-eval/hipe-2022-data-data

Holandés

Conll 2002 (español, holandés): https://www.clips.uantwerpen.be/conll2002/ner/
Europeana Newspapers (holandés, francés, alemán): https://github.com/europeanewspapers/ner-corpana; http://lab.kb.nl/dataset/europeana-newspapers-ner#access
Mientras tanto, Corpus (Corpus paralelo: inglés, español, italiano, holandés): http://www.newsreader-project.eu/results/data/wikinews/
Wikiner: https://figshare.com/articles/learning_multilingual_named_entity_recognition_from_wikipedia/5462500
Wikineural: https://github.com/babelscape/wikineural
Multinerd: https://github.com/babelscape/multinerd
Dbpedia Abstract Corpus (inglés, alemán, holandés, francés, italiano, japonés): http://downloads.dbpedia.org/2015-04/ext/nlp/abstracts/
Documentos parlamentarios holandeses 2015-2016, de 1848.nl (Jonkers, nombrado reconocimiento de entidades sobre documentos parlamentarios holandeses usando rana, tesis, Universidad de Amsterdam, 2016): https://github.com/poezedoez/ner/blob/code/data/lobby/golden_standandard
Sonar 1 - Desmet y Hoste, Holandeses de grano fino nombrado Entity Reconocido, 2014 (jerarquía de clases)
Corpus-Sonar Books y Corpus Gutenberg Dutch: http://blog.namescape.nl/?page_id=85; http://portal.clarin.nl/node/1940

africaans

NCHLT Afrikaans nombrado Entity Annotated Corpus: https://repo.sadilar.org/handle/20.500.12185/299

Español

Conll 2002 (español, holandés): https://www.clips.uantwerpen.be/conll2002/ner/
Ancora (español, catalán): http://clic.ub.edu/corpus/en
HEFT Spanish Treebank (LDC2018T01): https://catalog.ldc.upenn.edu/ldc2018t01
Panacea (laboratorio): http://panacea-lr.eu/en/info-for-researchers/data-sets/Dependency-Parsed-corpora/dependency-lab-es
Panacea (env): http://panacea-lr.eu/en/info-for-researchers/data-sets/Dependency-Parsed-Corpora/dependency-env-es
Mientras tanto, Corpus (Corpus paralelo: inglés, español, italiano, holandés): http://www.newsreader-project.eu/results/data/wikinews/
Ace 2007 (español y árabe): https://catalog.ldc.upenn.edu/ldc2014t18
Wikiner: https://figshare.com/articles/learning_multilingual_named_entity_recognition_from_wikipedia/5462500
Wikineural: https://github.com/babelscape/wikineural
Multinerd: https://github.com/babelscape/multinerd
http://www.grupolys.org/~marcos/pub/lrec16.tar.bz2 (utilizado en "incorporar la heurística de léxico-semántica en tamices de resolución de coreferencia para el reconocimiento de entidad nombrado a nivel de documento")
Corporación multilingüe con anotación coreferencial de entidades de persona (español, galicánga, portugués): http://gramatica.usc.es/~marcos/lrec.tar.bz2
DrugSemantics Gold Standard (Moreno et al., DrugSemantics: A Corpus para el reconocimiento de entidades nombrado en resúmenes españoles de las características del producto, 2017): https://data.mendeley.com/datasets/FWC7JRC5JR/1
Dbpedia Abstract Corpus (inglés, alemán, holandés, francés, italiano, japonés): http://downloads.dbpedia.org/2015-04/ext/nlp/abstracts/
DataSet Dawt - Textos de Wikipedia densamente anotados en múltiples idiomas (inglés, español, francés, italiano, alemán, árabe): https://github.com/klout/opendata/tree/master/wiki_annotation
Cantemist (Tarea compartida de minería de texto del cáncer - Reconocimiento de entidades con nombre de tumor) - Reconocimiento de entidad nombrado de un tipo crítico de concepto relacionado con el cáncer, a saber, la morfología tumoral en textos médicos españoles: https://temu.bsc.es/cantemist/

catalán

Ancora (español, catalán): http://clic.ub.edu/corpus/en

gallego

Galician Ner Corpus: https://gramatica.usc.es/~marcos/resources/corpus_gal_nec.txt.gz
Corporación multilingüe con anotación coreferencial de entidades de persona (español, galicánga, portugués): http://gramatica.usc.es/~marcos/lrec.tar.bz2

vasco

Vasco nombrado Corpus Entities (EIEC): http://ixa.eus/node/4486?Language=en
Desambigado vasco Corpus de entidades nombrado (ediec): http://ixa.si.ehu.es/node/4485? Language=en
EGUKARIA 2000 Corpus (383 Textos de Newswire), mencionado en http://qtleap.eu/wp-content/uploads/2014/04/qtleap-2013-15.1.pdf

portugués

Harén: https://www.linguateca.pt/aval_conjunta/harem/harem_ing.html
Cintil Corpus: http://cintil.ul.pt/cintilfeature.html#corpus
Wikiner: https://figshare.com/articles/learning_multilingual_named_entity_recognition_from_wikipedia/5462500
Wikineural: https://github.com/babelscape/wikineural
Multinerd: https://github.com/babelscape/multinerd
Corporación multilingüe con anotación coreferencial de entidades de persona (español, galicánga, portugués): http://gramatica.usc.es/~marcos/lrec.tar.bz2
Formato de bosque 8.0 Eagles: https://gramatica.usc.es/~marcos/resources/corpora_flpt.tgz
Lener-Br (documentos legales brasileños): https://cic.unb.br/~teodecampos/lener-br/
Paramopama: un corpus brasileño-portugués para el reconocimiento de entidad nombrada

Francés

Ester: http://catalogue.elra.info/en-us/repository/browse/elra-s0241/
Ester 2: http://catalogue.elra.info/en-us/repository/browse/elra-s0338/
Etape: http://catalogue.elra.info/en-us/repository/browse/elra-e0046/
Europeana Newspapers (holandés, francés, alemán): https://github.com/europeanewspapers/ner-corpana; http://lab.kb.nl/dataset/europeana-newspapers-ner#access
Quaero Corpus médico francés: https://quaerofrenchmed.limsi.fr/
Quaero Broadcast News Extended Entity Corpus: http://catalog.elra.info/en-us/repository/browse/elra-s0349/
Quaero Old Press Extended nombrado Entity Corpus: http://catalog.elra.info/en-us/repository/browse/elra-w0073/
Wikiner: https://figshare.com/articles/learning_multilingual_named_entity_recognition_from_wikipedia/5462500
Wikiner-frr-gold https://arxiv.org/abs/2411.00030 https://huggingface.co/datasets/danrun/wikinerfr-gold
Wikineural: https://github.com/babelscape/wikineural
Multinerd: https://github.com/babelscape/multinerd
Dbpedia Abstract Corpus (inglés, alemán, holandés, francés, italiano, japonés): http://downloads.dbpedia.org/2015-04/ext/nlp/abstracts/
DataSet Dawt - Textos de Wikipedia densamente anotados en múltiples idiomas (inglés, español, francés, italiano, alemán, árabe): https://github.com/klout/opendata/tree/master/wiki_annotation
CAP 2017 - (Datos de Twitter), López et al., Cap 2017 Desafío: Reconocimiento de entidades con nombramiento de Twitter, 2017: http://cap2017.imag.fr/competition.html
HIPE-2022, reconocimiento de entidad nombrado y vinculación de entidad en documentos históricos multilingües: https://hipe-eval.github.io/hipe-2022/ https://github.com/hipe-eval/hipe-2022-data-data

italiano

Tipo: https://github.com/dhfbk/kind
Evalita: http://www.evalita.it/2009/tasks/entity
Mientras tanto, Corpus (Corpus paralelo: inglés, español, italiano, holandés): http://www.newsreader-project.eu/results/data/wikinews/
Panacea (env): http://panacea-lr.eu/en/info-for-researchers/data-sets/Dependency-Parsed-corpora/dependency-env-it
Panacea (laboratorio): http://panacea-lr.eu/en/info-for-researchers/data-sets/Dependency-Parsed-Corpora/dependency-lab-it
Wikiner: https://figshare.com/articles/learning_multilingual_named_entity_recognition_from_wikipedia/5462500
Wikineural: https://github.com/babelscape/wikineural
Multinerd: https://github.com/babelscape/multinerd
Dbpedia Abstract Corpus (inglés, alemán, holandés, francés, italiano, japonés): http://downloads.dbpedia.org/2015-04/ext/nlp/abstracts/
DataSet Dawt - Textos de Wikipedia densamente anotados en múltiples idiomas (inglés, español, francés, italiano, alemán, árabe): https://github.com/klout/opendata/tree/master/wiki_annotation

rumano

Ronec (Dumitrescu y Avram, presentando a Ronec, el rumano nombrado Corpus de la Entidad. LREC 2020). Documento: https://arxiv.org/pdf/1909.01247.pdf Datos: https://github.com/dumitrescustefan/ronec
Corpus periodístico rumano (ROCO): http://metasashare.elda.org/repository/browse/romanian-journalistic-corpus-roco/038baa80dc7311e5aaa0b00237df3e3583781d7c0f2084057aa018a22d987e987e99/
Corpus Balanced rumano (Rombac): http://metashare.elda.org/repository/browse/romanian-balanced-corpus-rombac/0a7dd85edc7311e5aa0b00237df3e35873a0d662435d42d94fba48c29dc0065/

Griego

Panacea (env): http://panacea-lr.eu/en/info-for-researchers/data-sets/Dependency-Parsed-corpora/dependency-env-el
Panacea (laboratorio): http://panacea-lr.eu/en/info-for-researchers/data-sets/Dependency-Parsed-Corpora/dependency-lab-el

húngaro

Húngaro nombrado Entity Corpera: http://rgai.inf.u-szeged.hu/index.php?lang=en&page=corpus_ne
hunnerwiki: http://hlt.sztaki.hu/resources/hunnerwiki.html
Nytk: https://github.com/nytud/nytk-nerkor

checo

Checo llamado Entity Corpus: http://ufal.mff.cuni.cz/cnec
BSNLP 2017 (croata, checo, polaco, ruso, eslovaco, eslovene, ucraniano): http://bsnlp-2017.cs.helsinki.fi/shared_task_results.html
Czeng 1.0 (Corpus paralelo: chech-inglish): http://ufal.mff.cuni.cz/czeng/czeng10
PERO OCR NER (Czech Historical OCR Chronicles): https://github.com/roman-janik/poner https://dspace.vut.cz/items/6092e1b0-3d75-4451-8582-28573ac30404

Polaco

El cuerpo de SEJM polaco: http://clip.ipipan.waw.pl/psc
BSNLP 2017 (croata, checo, polaco, ruso, eslovaco, eslovene, ucraniano): http://bsnlp-2017.cs.helsinki.fi/shared_task_results.html
Corpus de Coreference polaco: http://zil.ipipan.waw.pl/polishcoreferenceRpus
Wikiner: https://figshare.com/articles/learning_multilingual_named_entity_recognition_from_wikipedia/5462500
Wikineural: https://github.com/babelscape/wikineural
Multinerd: https://github.com/babelscape/multinerd
Corpus of Economic News (CEN Corpus): http://www.nlp.pwr.wroc.pl/narzedzia-i-i-zasoby/zasoby/cen
KPWR (Korpus Języka Polskiego Politechniki wrocławskiej/polaco Corpus de la Universidad de Tecnología de Wrocław): http://plwordnet.pwr.wroc.pl/index.php?option=com_content&view=article&id=35&itemid=181&lang=pl; http://plwordnet.pwr.wroc.pl/attachments/article/35/kpwr-1.1.7z (Broda et al., KPWR: Hacia un corpus gratuito de polaco, 2012)
Nkjp: http://clip.ipipan.waw.pl/nationalcorpusofpolish?action=attachfile&do=view&target=nkjp-podkorpusmilionowy-1.2.tar.gz

croata

HR500K 1.0: http://hdl.handle.net/11356/1183
BSNLP 2017 (croata, checo, polaco, ruso, eslovaco, eslovene, ucraniano): http://bsnlp-2017.cs.helsinki.fi/shared_task_results.html
Reldi-Normtagner-HR (tweets croata): http://hdl.handle.net/11356/1170

eslovaco

BSNLP 2017 (croata, checo, polaco, ruso, eslovaco, eslovene, ucraniano): http://bsnlp-2017.cs.helsinki.fi/shared_task_results.html
Eslovak categorizado Corpus de noticias: https://nlp.web.tuke.sk/pages/categorizedNews

esloveno

BSNLP 2017 (croata, checo, polaco, ruso, eslovaco, eslovene, ucraniano): http://bsnlp-2017.cs.helsinki.fi/shared_task_results.html
SSJ500K: http://www.slovenscina.eu/tehnologije/ucni-korpus; http://eng.slovenscina.eu/tehnologije/ucni-korpus; https://www.clarin.si/repository/xmlui/handle/11356/1029; Nota: Para V 2.2 Ver: http://hdl.handle.net/11356/1210
Slovenene News: http://zitnik.si/mediawiki/index.php?title=datasets#slovene_news; http://zitnik.si/mediawiki/images/7/7d/rtvslo_dec2011.tsv; http://zitnik.si/mediawiki/images/5/5e/rtvslo_dec2011_v2.tsv
Janes-Tag 2.0 (Texto de las redes sociales) https://www.clarin.si/repository/xmlui/handle/11356/1123; Ver también: Fišer et al., El proyecto Janes: recursos de idiomas y herramientas para el contenido generado por el usuario esloveno, 2018.

ucranio

BSNLP 2017 (croata, checo, polaco, ruso, eslovaco, eslovene, ucraniano): http://bsnlp-2017.cs.helsinki.fi/shared_task_results.html
Ucraniano Brown Ner Corpus: https://github.com/lang-uk/ner-uk; http://lang.org.ua/en/corpora/

serbio

Setimes.sr - http://hdl.handle.net/11356/1200
Corpus de evaluación de entidades nombradas para serbio: http://www.korpus.matf.bg.ac.rs/srpneval/
Reldi-Normtagner-Sr (tweets serbios): http://hdl.handle.net/11356/1171

búlgaro

Bultreebank (BTB)

islandés

Mim-Gold -ner (Ingólfsdóttir, Svanhvít Lilja, Sigurjón Þorsteinsson y Hrafn Loftsson. "Hacia la alta precisión del reconocimiento de entidades nombrado para islandés". http://www.malfong.is/index.php?pg=mim_gold_ner

danés

Dane: Hvingelby et al., [Dane: un recurso de entidad nombrado para danés.] (Http://www.lrec-conf.org/proceedings/lrec2020/pdf/2020.lrec-1.565.pdf), lrec 2020: https://github.com/alexandrainst/danlp/
Propbank danés (DPB): http://catalog.elra.info/en-us/repository/browse/elra-w0117/
Arboretum TreeBank: http://catalog.elra.info/en-us/repository/browse/elra-w0084/

noruego

Bjarte Johansen, reconocimiento de la entidad nombrada para Noruega, Actas de la 22a Conferencia Nórdica sobre Lingüística Computacional. 2019 (https://www.aclweb.org/anthology/w19-6123.pdf) Datos: https://github.com/ljos/navnkjenner
Fredrik Jørgensen et al., Norne: anotando entidades nombradas para Norwegian, 2019 (https://arxiv.org/pdf/1911.12146.pdf). Datos: https://github.com/ltgoslo/norne/; https://www.nb.no/sprakbanken/show?serial=oai%3anb.no%3asbr-49

sueco

Estocolmo en Internet Corpus: https://www.ling.su.se/english/nlp/corpora-and-resources/Sic
Suc 3.0: https://spraakbanken.gu.se/eng/resource/suc3
Sueco anotado manualmente ner: https://github.com/klintan/swedish-ner-corpus/
Datos de Wikipedia Medical (Almgren et al., Nombrado reconocimiento de entidad en registros de salud suecos con LSTM de bidireccionales profundos basados en personajes, 2016): https://github.com/olofmogren/biomedical-ner-data-swedish
HIPE-2022, reconocimiento de entidad nombrado y vinculación de entidad en documentos históricos multilingües: https://hipe-eval.github.io/hipe-2022/ https://github.com/hipe-eval/hipe-2022-data-data

finlandés

Conjuntos de datos para la recoginición de entidad con nombre finlandés: https://github.com/mpsilfve/finer-data
Turku Ner Corpus: https://github.com/turkunlp/turku-ner-corpus
HIPE-2022, reconocimiento de entidad nombrado y vinculación de entidad en documentos históricos multilingües: https://hipe-eval.github.io/hipe-2022/ https://github.com/hipe-eval/hipe-2022-data-data

Estoniano

Estonian Ner Corpus: https://metashare.ut.ee/repository/browse/estonian-ner-corpus/88d030c0acde11e2a6e4005056b40024f1def472ed254e77a8952e1003d9f81e/

Letón y lituano

https://github.com/accurat-toolkit/tildener/tree/master/test (Pinnis, Letonia y Lituania reconoce la entidad con Tildenener, LREC 2012)
Datos de entrenamiento para el etiquetador LV: https://github.com/peterisp/lvtagger/tree/master/nergeringdata

turco

K̈ucuk and Can, un conjunto de datos de tweet anotado para el reconocimiento de entidad nombrado y la detección de posturas, 2019: https://github.com/dkucuk/tweet-dataset-ner-sd
K̈ucuk et al., Nombrado reconocimiento de entidad en tweets turcos: http://optima.jrc.it/resources/2014_jrc_twitter_tr_ner-dataset.zip
English/Turkish Wikipedia nombramiento de datos de reconocimiento de entidad y categorización de texto (http://arxiv.org/abs/1702.02363): https://data.mendeley.com/datasets/cdcztymf4k/1
Çoban et al, reconocido entidad sobre FBNer: un nuevo conjunto de datos de Facebook en turco: https://ieeExplore.ieee.org/document/9598971 Datos disponibles para fines de investigación a pedido

Kazáceo

Kaznerd: https://arxiv.org/pdf/2111.13419.pdf, https://github.com/is2ai/kaznerd

Uigur

Uyghur nombrado Corpus de la relación Entity: https://github.com/kaharjan/uynerel (AbedereRexiti et al., Esquemas de anotación para construir Uyghur nombrado Corpus de Relacional de Entidad. IALP 2016)

armenio

Pioner (conjuntos de datos de standard y standard de oro): https://github.com/ispras-texterra/pioner (Ghukasyan et al., Pioner: conjuntos de datos y líneas de base para el reconocimiento de entidades nombrado armenio, 2018)
Armtdp-ner: https://github.com/myavrum/armtdp-ner

copto

El TreeBank de dependencia universal Coptic: https://github.com/universaldependencies/ud_coptic-scriptorium/tree/dev (ver también https://copticscriptorium.org/treebank.html). Esto contiene 46,000 tokens de entidades anidadas (no) nombradas y wikificadas de textos coptos sahídicos.

Amárico

Diga Corpus (ver "Reconocimiento de entidad nombrado para Amharic usando el aprendizaje profundo"): https://github.com/geezorg/data/tree/master/amharic/tagged/nmsu-say; http://data.geez.org/

árabe

AQMAR Árabe Wikipedia nombrada Entity Corpus: http://www.cs.cmu.edu/~ark/arabicner/
NE3L Nombrado Entidades Corpus Árabe (árabe, chino, ruso): http://catalog.elra.info/en-us/repository/browse/elra-w0078/
Traducción de la entidad refleja (Corpus paralelo: inglés, árabe, chino): https://catalog.ldc.upenn.edu/ldc2009t11
Anercorp: http://users.dsic.upv.es/~ybenajiba/downloads.html (ver también: http://alias-i.com/lingpipe/demos/tutorial/ne/read-me.html)
Ace 2003 (inglés, chino, árabe): https://catalog.ldc.upenn.edu/ldc2004t09
Ace 2004 (inglés, chino, árabe): https://catalog.ldc.upenn.edu/ldc2005t09
Ace 2005 (inglés, chino, árabe): https://catalog.ldc.upenn.edu/ldc2006t06
Ace 2007 (español y árabe): https://catalog.ldc.upenn.edu/ldc2014t18
Ontonotes 5 (inglés, árabe, chino): https://catalog.ldc.upenn.edu/ldc2013t19
DataSet Dawt - Textos de Wikipedia densamente anotados en múltiples idiomas (inglés, español, francés, italiano, alemán, árabe): https://github.com/klout/opendata/tree/master/wiki_annotation
Wojood - 2022 Árabe anidado nombrado Entity Corpus. https://dlnlp.ai/st/wojood/ https://aclanthology.org/2022.lrec-1.387.pdf https://codalab.lisn.upsaclay.fr/Competitions/11740

persa

ArmanpersonerCorpus: http://islrn.org/resources/399-379-640-828-6/; https://github.com/haniehp/persianner

Sindhi

Siner: https://aclanthology.org/2020.lrec-1.361/, https://github.com/aliwazir/siner-dataset

Urdu

IJCNLP 2008 Sseal: http://ltrc.iiit.ac.in/ner-ssea-08/index.cgi?topic=5
DataSet de UNER (Khan et al., Nombrado el conjunto de datos de entidad para Urdu nombrada Tarea de reconocimiento de entidades, 2016). Disponible en http://www.iiu.edu.pk/?page_id=5181
Mk-Pucit: https://www.dropbox.com/sh/1ivw7ykm2tugg94/aab9t5wnn7fynpo7tjjw8la; Ver: Kanwal et al., Urdu nombrado Reconocimiento de la entidad: Corpus Generation and Deep Learning Applications, 2019

Indicador

Naamapadam: conjunto de datos de reconocimiento de entidad (NER) nombrado para 11 idiomas indios principales de dos familias de idiomas. https://research.ibm.com/publications/naamapadam-a-large-scale-named-entity-annotated-data-for-indic-languages https://ai4bharat.iitm.ac.in/naamapadam

hindi

Hiner: https://github.com/cfiltnlp/hiner
Hindi Health DataSet: https://www.kaggle.com/aijain/hindi-health-dataset/home
Fire 2015, ESM-IL (inglés, hindi, tamil, malayalam): http://au-kbc.org/nlp/esm-fire2015/#traincorpus
Fire Ner 2013 (inglés, hindi, tamil, malayalam, bengalí): http://au-kbc.org/nlp/ner-fire2013/
IJCNLP 2008 Sseal: http://ltrc.iiit.ac.in/ner-ssea-08/index.cgi?topic=5

bengalí

Fire Ner 2013 (inglés, hindi, tamil, malayalam, bengalí): http://au-kbc.org/nlp/ner-fire2013/
IJCNLP 2008 Sseal: http://ltrc.iiit.ac.in/ner-ssea-08/index.cgi?topic=5
Bengali-ner: https://github.com/rifat1493/bengali-ner, https://ieeexplore.ieee.org/document/8944804
Ner-bangla: https://github.com/misabic/ner-bangla-dataset, https://content.iospress.com/articles/journal-of-intelligent-and-fuzzy-systems/ifs179349

Telugu

Ner_telugu: https://github.com/anikethjr/ner_telugu
IJCNLP 2008 Sseal: http://ltrc.iiit.ac.in/ner-ssea-08/index.cgi?topic=5
Entidad nombrada Corporación anotada para telugu: http://www.tdil-dc.in/index.php?option=com_download&task=showresourcedetails&toolid=982&lang=en

Maithili

El primer reconocimiento de entidad nombrado en Maithili: Creación de recursos y desarrollo del sistema: https://content.iospress.com/articles/journal-of-intelligent-and-fuzzy-systems/IFS210051

Nepalí

Everestner: https://journals.flvc.org/flairs/article/view/130725, https://github.com/nowalab/everest-ner

Marathi

Entidad nombrada Corporación anotada para marathi: http://www.tdil-dc.in/index.php?option=com_download&task=showresourcedetails&toolid=979&lang=en
L3cube Mahaner: https://arxiv.org/abs/2204.06029 https://github.com/l3cube-pune/marathinlp

punjabi

Entidad nombrada Corporación anotada para Punjabi: http://www.tdil-dc.in/index.php?option=com_download&task=showresourcedetails&toolid=980&lang=en

Tamil

Fire 2015, ESM-IL (inglés, hindi, tamil, malayalam): http://au-kbc.org/nlp/esm-fire2015/#traincorpus
Fire Ner 2013 (inglés, hindi, tamil, malayalam, bengalí): http://au-kbc.org/nlp/ner-fire2013/

Malayalam

Fire 2015, ESM-IL (inglés, hindi, tamil, malayalam): http://au-kbc.org/nlp/esm-fire2015/#traincorpus
Fire Ner 2013 (inglés, hindi, tamil, malayalam, bengalí): http://au-kbc.org/nlp/ner-fire2013/

Oriya/odia

IJCNLP 2008 Sseal: http://ltrc.iiit.ac.in/ner-ssea-08/index.cgi?topic=5

Cingala/cingalés

Lorelei (LDC2018E57)

tailandés

Thai-Named-Entity-Recognition-data: https://github.com/pythainlp/thai-named-entity-recognition-data
Thai nombrado Entity Corpera: http://pioneer.chula.ac.th/~awirote/resources/corpor-data.html; http://pioneer.chula.ac.th/~awirote/data-nutcha.zip; http://pioneer.chula.ac.th/~awirote/data-sasiwimon.zip; http://pioneer.chula.ac.th/~awirote/data-nattadaporn.zip
LST20: https://huggingface.co/datasets/lst20; https://arxiv.org/abs/2008.05055
Thai-nner: https://github.com/vistec-ai/thai-nner, https://aclanthology.org/2022.findings-acl.116

indonesio

IDENTICO: http://metashare.elda.org/repository/browse/ididic/fed3fada7ef111e5aa3b001dd8b71c66c98eee36eabd42f18ffd9a95da9104cc/
https://github.com/yohanesgultom/nlp-experiments/tree/master/data/ner
Indonesia-ner: Syaifudin & Nurwidyantoro https://ieeexplore.ieee.org/document/7828656 https://github.com/yusufsyaifudin/indonesia-ner
Idner-News-2K: un conjunto de datos de noticias de Indonesia para la tarea de reconocimiento de entidad nombrada. Reannotación de Syaifudin & Nurwidyantoro https://dl.acm.org/doi/10.1145/3592854#fn8 https://github.com/khairunnisaor/idner-news-2k/
Nerp y Ner-Grit: dos conjuntos de datos indonesios de Indonlp/Indonlu https://github.com/indonlp/indonlu/tree/master/dataset https://aclanthology.org/2020.aacl-main.85/

vietnamita

VLSP 2016: http://vlsp.org.vn/resources-vlsp2016; https://github.com/undertheseanlp/ner
VLSP 2018: http://vlsp.org.vn/resources-vlsp2018; https://github.com/undertheseanlp/ner
Phoner_Covid19: https://github.com/vinairesearch/phoner_covid19

japonés

Irex: https://nlp.cs.nyu.edu/irex/package/
Met-2 (japonés, chino): https://www-nlpir.nist.gov/related_projects/muc/
BCCWJ BASIC NE Corpus: https://sites.google.com/site/projectnextnlpne/en (Iwakura et al., Construyendo un corpus de entidad básico japonés nombrado de varios géneros, noticias 2016)
Dbpedia Abstract Corpus (inglés, alemán, holandés, francés, italiano, japonés): http://downloads.dbpedia.org/2015-04/ext/nlp/abstracts/
Datos de: Mai et al., Un estudio empírico sobre el reconocimiento de entidades con nombre de grano fino, Coling 2018 (inglés, japonés): https://fgner.alt.ai/duc/ene/testsets/comp/
Wikipedia Ner Corpus: https://github.com/stockmarkteam/ner-wikipedia-dataset
Wikiann: https://elisa-ie.github.io/wikiann/
GSD: Conversión del conjunto de datos UD GSD a entidades nombradas por Megagon Labs https://github.com/megagonlabs/ud_japanese-gsd
KWDLC: El documento web de la Universidad de Kyoto lidera el corpus https://nlp.ist.i.kyoto-u.ac.jp/en/index.php?kwdlc https://github.com/ku-nlp/kwdlc https://nagisa.Readtedocs.io/en/en/tutorial

coreano

Instituto Nacional de Lengua Corea (ROK) - Ner Corpus: https://github.com/digitalprk/koreaner; https://ithub.korean.go.kr/user/total/referenceview.do?boardseq=5&articleseq=118&boardgb=t&isinsupd&boardtype=corpus
Kmou ner - https://github.com/kmounlp/ner
Evaluación de comprensión del idioma coreano - Klue Ner - https://klue-benchmark.com/tasks/69/overview/description
https://github.com/songys/entity
Corpus HLCT 2016, con actualizaciones - https://github.com/machinereading/koreAnnerCorpus

Chino

Ace 2003 (inglés, chino, árabe): https://catalog.ldc.upenn.edu/ldc2004t09
Ace 2004 (inglés, chino, árabe): https://catalog.ldc.upenn.edu/ldc2005t09
Ace 2005 (inglés, chino, árabe): https://catalog.ldc.upenn.edu/ldc2006t06
Ontonotes 5 (inglés, árabe, chino): https://catalog.ldc.upenn.edu/ldc2013t19
Met-2 (japonés, chino): https://www-nlpir.nist.gov/related_projects/muc/
Traducción de la entidad refleja (Corpus paralelo: inglés, árabe, chino): https://catalog.ldc.upenn.edu/ldc2009t11
NE3L Nombrado Entidades Corpus chino (árabe, chino, ruso): http://catalogue.elra.info/en-us/repository/browse/elra-w0079/
Recopilación original de datos de mensajería en chino (entidades nombradas): http://catalog.elra.info/en-us/repository/browse/elra-w0045_04/
Recopilación original de datos de breve en chino (entidades nombradas): http://catalog.elra.info/en-us/repository/browse/elra-w0045_08/
Ereft Corpera (Corpus paralelo: inglés, chino): Mott et al., Entidades, relaciones y eventos en inglés paralelo, Corporación de relaciones y eventos, 2016 (LDC2015E78, LDC2014E114)
Weibo chino: hodas anotaciones de estilo para menciones nominales y nombradas en las redes sociales chinas (Weibo): https://github.com/hltcoe/golden-horse
Eduner chino: 2023 conjunto de datos en el dominio educativo: https://link.springer.com/article/10.1007/s00521-023-08635-5 https://github.com/anonymous-xl/eduner
Aeroespacial chino ner: https://www.nature.com/articles/s41598-023-50705-0 https://github.com/coder-xiaokai/aerospace_nerdatasets
SciCN: A Chinese Dataset and Benchmark for Scientific Information Extraction https://file.techscience.com/files/cmc/2024/TSP_CMC-78-3/TSP_CMC_35594/TSP_CMC_35594.pdf https://github.com/yangjingla/SciCN
EMP NER: Historical Chinese https://aclanthology.org/2024.lrec-main.35.pdf https://gitlab.com/enpchina/ENP-NER

Tagalo

TLUnifed: https://arxiv.org/abs/2311.07161 https://huggingface.co/datasets/ljvmiranda921/tlunified-ner

ruso

BSNLP 2017 (Croatian, Czech, Polish, Russian, Slovak, Slovene, Ukrainian): http://bsnlp-2017.cs.helsinki.fi/shared_task_results.html
NE3L named entities Russian corpus (Arabic, Chinese, Russian): https://catalog.elra.info/en-us/repository/browse/ELRA-W0080/
WikiNER: https://figshare.com/articles/Learning_multilingual_named_entity_recognition_from_Wikipedia/5462500
WikiNEuRal: https://github.com/Babelscape/wikineural
MultiNERD: https://github.com/Babelscape/multinerd
factRuEval-2016: https://github.com/dialogue-evaluation/factRuEval-2016
RuREBus 2020 (Russian Relation Extraction for Business) corpus https://github.com/dialogue-evaluation/RuREBus

Yoruba

GV-Yorùbá-NER. Data: https://github.com/ajesujoba/YorubaTwi-Embedding/tree/master/Yoruba/Yor%C3%B9b%C3%A1-NER ; Data statement: https://drive.google.com/file/d/177xu-O2FTJ7VJQ-0ohCWjVd1qu61Tvml/view Paper: Jesujoba O Alabi, Kwabena Amponsah-Kaakyire, David I Adelani, and Cristina Espãna-Bonet. Massive vs. curated word embeddings for low-resourced languages. the case of Yorùbá and Twi. In LREC, 2020 (https://arxiv.org/abs/1912.02481)

swahili

Helsinki Corpus of Swahili 2.0 (HCS 2.0) Annotated Version: http://metashare.csc.fi/repository/browse/helsinki-corpus-of-swahili-20-hcs-20-annotated-version/232c1910b9eb11e5915e005056be118e59fb2e920f1f4c0cafc94915fc6f5cac/ See: Shah et al., 2010. SYNERGY: A Named Entity Recognition System for Resource-scarce Languages such as Swahili using Online Machine Translation

Igbo

IgboNER: https://aclanthology.org/2022.lrec-1.547/ https://github.com/Chiamakac/IgboNER-Models later updated in https://openreview.net/pdf?id=tHUS9-vmUfC from https://sites.google.com/view/africanlp2023/home

isiNdebele

NCHLT isiNdebele Named Entity Annotated Corpus: https://repo.sadilar.org/handle/20.500.12185/306

Xhosa

NCHLT isiXhosa Named Entity Annotated Corpus: https://repo.sadilar.org/handle/20.500.12185/312

zulú

NCHLT isiZulu Named Entity Annotated Corpus: https://repo.sadilar.org/handle/20.500.12185/319

Sepedi

NCHLT Sepedi Named Entity Annotated Corpus: https://repo.sadilar.org/handle/20.500.12185/328

Sesotho

NCHLT Sesotho Named Entity Annotated Corpus: https://repo.sadilar.org/handle/20.500.12185/334

Setswana

NCHLT Setswana Named Entity Annotated Corpus: https://repo.sadilar.org/handle/20.500.12185/341

Siswati

NCHLT Siswati Named Entity Annotated Corpus: https://repo.sadilar.org/handle/20.500.12185/346

Venda

NCHLT Tshivenda Named Entity Annotated Corpus: https://repo.sadilar.org/handle/20.500.12185/355
MPHAYANER: Named Entity Recognition for Tshivenḓa: https://openreview.net/pdf?id=0nneuL3bSLt https://github.com/rendanim/MphayaNER from https://sites.google.com/view/africanlp2023/home

Xitsonga

NCHLT Xitsonga Named Entity Annotated Corpus: https://repo.sadilar.org/handle/20.500.12185/362

latín

Herodotos Project: https://github.com/alexerdmann/Herodotos_Project_Annotation

A long list can be found here: http://damien.nouvels.net/resourcesen/corpora.html

Referencias

[Alvarado et al., 2015] Alvarado, Julio Cesar Salinas, Karin Verspoor, and Timothy Baldwin. Domain adaption of named entity recognition to support credit risk assessment. In Proceedings of the Australasian Language Technology Association Workshop 2015, pp. 84-90. 2015. Accessed: August 2018.

[Balasuriya et al., 2009] Balasuriya, Dominic, Nicky Ringland, Joel Nothman, Tara Murphy, and James R. Curran. Named entity recognition in wikipedia. In Proceedings of the 2009 Workshop on The People's Web Meets NLP: Collaboratively Constructed Semantic Resources, pp. 10-18. Association for Computational Linguistics, 2009

[Bos et al., 2017] Bos, Johan, Valerio Basile, Kilian Evang, Noortje J. Venhuizen, and Johannes Bjerva. The Groningen meaning bank. In Handbook of linguistic annotation, pp. 463-496. Springer, Dordrecht, 2017.

[Derczynski et al., 2016] Derczynski, Leon, Kalina Bontcheva, and Ian Roberts. Broad twitter corpus: A diverse named entity recognition resource. In Proceedings of COLING 2016, the 26th International Conference on Computational Linguistics: Technical Papers, pp. 1169-1179. 2016. Available at: https://github.com/GateNLP/broad_twitter_corpus Accessed: August 2018.

[Derczynski et al., 2017] Leon Derczynski, Eric Nichols, Marieke van Erp, Nut Limsopatham (2017) Results of the WNUT2017 Shared Task on Novel and Emerging Entity Recognition, in Proceedings of the 3rd Workshop on Noisy, User-generated Text. Available at: https://noisy-text.github.io/2017/emerging-rare-entities.html

[DSTL, 2017] Defence Science and Technology Laboratory. 2017. Relationship and Entity Extraction Evaluation Dataset. https://github.com/dstl/re3d. Accessed: January 2018.

[Grishman and Sundheim, 1996] Ralph Grishman and Beth Sundheim. 1996. Message understanding conference- 6: A brief history. In COLING 1996 Volume 1: The 16th International Conference on Computational Linguistics.

[Karimi et al., 2015] Sarvnaz Karimi, Alejandro Metke-Jimenez, Madonna Kemp, and Chen Wang. 2015. Cadec: A corpus of adverse drug event annotations. Journal of biomedical informatics, 55:73-81. Available at https://data.csiro.au Accessed: November 2017.

[Lim et al., 2017] Lim, Swee Kiat, Aldrian Obaja Muis, Wei Lu, and Chen Hui Ong. MalwareTextDB: A database for annotated malware articles. In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), vol. 1, pp. 1557-1567. 2017.

[Liu et al., 2013a] Jingjing Liu, Panupong Pasupat, Scott Cyphers, and Jim Glass. 2013. Asgard: A portable architecture for multilingual dialogue systems. In Acoustics, Speech and Signal Processing (ICASSP), 2013 IEEE International Conference on, pages 8386-8390. IEEE. Available at https://groups.csail.mit.edu/sls/downloads/restaurant/ Accessed: January 2018

[Liu et al., 2013b] Jingjing Liu, Panupong Pasupat, Yining Wang, Scott Cyphers, and Jim Glass. 2013. Query understanding enhanced by hierarchical parsing structures. In Automatic Speech Recognition and Understanding (ASRU), 2013 IEEE Workshop on, pages 72-77. IEEE. Available at https://groups.csail.mit.edu/sls/downloads/movie/ We used the trivia10k13 portion. Accessed: January 2018

[NIST, 1999 IE-ER] NIST. 1999. Information Extraction - Entity Recognition Evaluation. http://www.nist.gov/speech/tests/ieer/er_99/er_99.htm. The newswire development test data only (included in the NLTK package).

[Ohta et al., 2012] Tomoko Ohta, Sampo Pyysalo, Jun'ichi Tsujii and Sophia Ananiadou. 2012. Open-domain Anatomical Entity Mention Detection. In Proceedings of ACL 2012 Workshop on Detecting Structure in Scholarly Discourse (DSSD), pp. 27-36. Available at: http://www.nactem.ac.uk/anatomy/ and https://github.com/openbiocorpora/anem Accessed: November 2017.

[Ritter et al., 2011] Alan Ritter, Sam Clark, Mausam, and Oren Etzioni. 2011. Named entity recognition in tweets: An experimental study. In Proceedings of the 2011 Conference on Empirical Methods in Natural Language Processing, pages 1524-1534, Edinburgh, Scotland, UK., July. Association for Computational Linguistics. Accessed January 2018.

[Sang and Meulder, 2003] Erik F. Tjong Kim Sang and Fien De Meulder. 2003. Introduction to the CoNLL-2003 shared task: Languageindependent named entity recognition. In Proceedings of the Seventh Conference on Natural Language Learning at HLT-NAACL 2003.

[Stubbs et al., 2015] Amber Stubbs and Ozlem Uzuner. 2015. Annotating longitudinal clinical narratives for de-identification: The 2014 i2b2/UTHealth corpus. Journal of biomedical informatics, 58:S20-S29. Available at https://www.i2b2.org/NLP/DataSets/ Accessed: February 2018.

[Uzuner et al., 2007] Ozlem Uzuner, Yuan Luo, and Peter Szolovits. 2007. Evaluating the state-of-the-art in automatic de-identification. Journal of the American Medical Informatics Association, 14(5):550-563. Available at https://www.i2b2.org/NLP/DataSets/ Accessed: February 2018.

[Weischedel and Brunstein, 2005] Ralph Weischedel and Ada Brunstein. 2005. BBN pronoun coreference and entity type corpus. Linguistic Data Consortium, Philadelphia.

[Weischedel et al., 2013] Weischedel, Ralph, Martha Palmer, Mitchell Marcus, Eduard Hovy, Sameer Pradhan, Lance Ramshaw, Nianwen Xue et al. Ontonotes release 5.0 ldc2013t19. Linguistic Data Consortium, Philadelphia, PA (2013).

[Zeldes, 2017] Amir Zeldes. 2017. The GUM corpus: creating multilayer resources in the classroom. Language Resources and Evaluation, 51(3):581-612. Available at https://github.com/amir-zeldes/gum/tree/master/coref/tsv/ Accessed: November 2017.

Expandir

Información adicional

Versión 1.0.0
Tipo Otro código fuente
Fecha de actualización 2025-04-17
tamaño 2.39MB
Proviene de Github

Aplicaciones relacionadas

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
Juego Back Room Entity 30

2023-06-12
juegos de sala de entidades

2023-04-26
MVC+Linq a Entity Music Store v1.0

2022-06-02

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo