Conjuntos de dados para reconhecimento de entidades
Esse repositório contém conjuntos de dados de vários domínios anotados com uma variedade de tipos de entidades, úteis para reconhecimento de entidades e tarefas de reconhecimento de entidade (NER).
NOTA: Não estou mais adicionando ativamente conjuntos de dados a esta lista - provavelmente existem mais conjuntos de dados NER que apareceram desde 2020. No entanto, fico feliz em adicionar mais conjuntos de dados por meio de problemas ou solicitações de puxar.
Conjuntos de dados para NER em inglês
A tabela a seguir mostra a lista de conjuntos de dados para reconhecimento de entidades em inglês (para uma lista de conjuntos de dados NER em outros idiomas, veja abaixo). O diretório de dados contém informações sobre onde obter os conjuntos de dados que não poderiam ser compartilhados devido a restrições de licenciamento, bem como o código para convertê -los (se necessário) no formato Conll 2003. Os links para o NER Corpora em outros idiomas também estão listados abaixo.
| Conjunto de dados | Domínio | Licença | Referência | Disponibilidade |
|---|
| Conll 2003 | Notícias | Dua | Sang e Meulder, 2003 | Fácil de encontrar |
| Nist-ieer | Notícias | Nenhum | NIST 1999 IE-er | Dados nltk |
| MUC-6 | Notícias | LDC | Grishman e Sundheim, 1996 | LDC 2003T13 |
| Ontonotes 5 | Vários | LDC | Weischedel et al., 2013 | LDC 2013T19 |
| Bbn | Vários | LDC | Weischedel e Brunstein, 2005 | LDC 2005T33 |
| GMB-1.0.0 | Vários | Nenhum | Bos et al., 2017 | http://gmb.let.rug.nl/data.php |
| Gum-3.1.0 | Wiki | Vários ( * 2) | Zeldes, 2016 | ✔ incluído aqui |
| Wikigold | Wikipedia | CC-BY 4.0 | Balasuriya et al., 2009 | ✔ incluído aqui |
| Ritter | Twitter | Nenhum | Ritter et al., 2011 | Sem divisão, trem/teste/divisão |
| BTC | Twitter | CC-BY 4.0 | Derczynski et al., 2016 | ✔ incluído aqui |
| Wnut17 | Mídia social | CC-BY 4.0 | Derczynski et al., 2017 | ✔ incluído aqui |
| I2B2-2006 | Médico | Dua | Uzuner et al., 2007 | http://www.i2b2.org |
| I2B2-2014 | Médico | Dua | Stubbs et al., 2015 | http://www.i2b2.org |
| CADEC | Médico | CSIRO | Karimi et al., 2015 | http://data.csiro.au/ |
| Anem | Anatômico | CC-BY-SA 3.0 | Ohta et al., 2012 | ✔ incluído aqui |
| Mitrestaurant | Perguntas | Nenhum | Liu et al., 2013a | http://groups.csail.mit.edu/sls/ |
| Mitmovie | Perguntas | Nenhum | Liu et al., 2013b | http://groups.csail.mit.edu/sls/ |
| MalwareTextDB | Malware | Nenhum | Lim et al., 2017 | http://www.statnlp.org/ |
| re3d | Defesa | Vários ( * 1) | DSTL, 2017 | ✔ incluído aqui |
| Filões secos | Financiar | CC-BY 3.0 | Alvarado et al., 2015 | ✔ incluído aqui |
| Conjunto | Robótica | X | Costa et al., 2017 | X |
| Wikineural | Wikipedia | CC BY-SA-NC 4.0 | Tedeschi et al., 2021 | https://github.com/babelscape/wikineur |
| Multinerd | Wikipedia | CC BY-SA-NC 4.0 | Tedeschi et al., 2022 | https://github.com/babelscape/multinerd |
| Hipe-2022 | Histórico | CC BY-SA-NC 4.0 | Ehrmann et al., 2022 | https://github.com/hipe-eval/hipe-2022-data |
| Music-ir | Música | Mit | Epure e Hennequin, 2023 | https://github.com/deezer/music-ner-ecl2023 |
| Wiesp2022-ner | Astrofísica | CC BY-SA-NC 4.0 | Grezes et al., 2022 | https://huggingface.co/datasets/adsabs/wiesp2022-ner |
| Nne | Notícias | CC 4.0 / LDC | Ringland et al., 2019 | https://github.com/nickyringland/nested_named_entities |
| Mundialmente | Notícias | CC BY-SA-NC 4.0 | Shan et al., 2023 | https://github.com/stanfordnlp/en-worldwide-newswire https://arxiv.org/abs/2404.13465 |
Licenças
Notas sobre licenças:
(1) RE3D ("O conjunto de dados de avaliação de extração de entidades e relacionamento") contém vários conjuntos de dados, com licenças diferentes. Estes são:
- CC-BY-SA 3.0 (conjunto de dados da Wikipedia)
- CC BY-NC 3.0 (BBC_ONLINE DATASET)
- CC por 3.0 AU (australian_department_of_foreign_affairs DataSet)
- Domínio público (US_STATE_DEPARTMENT DATASET, DATASET CENTCOM)
- Licença do Governo Aberto do Reino Unido v3.0 (uk_government DATASET)
- Delegation_of_the_european_union_to_syria: consulte https://eeas.europa.eu/delegações/syria/8157/legal-notorice_en
- Goma 3.1.0 compreende três conjuntos de dados, com licenças CC-BY 3.0, CC-BY-SA 3.0 e CC-BY-NC-SA 3.0. As anotações são licenciadas em CC-BY 4.0.
Informações de licença mais detalhadas para cada conjunto de dados podem ser encontradas no subdiretório correspondente.
Later ... - Tabassum et al., Code and Named Entity Recognition in StackOverflow https://cocoxu.github.io/publications/ACL2020_stackoverflow_NER.pdf - LitBank: https://github.com/dbamman/litbank (Bamman, Popat and Shen, An Annotated Dataset of Literary Entities, NAACL 2019) - NNE: Um conjunto de dados para o reconhecimento de entidade nomeado aninhado em Inglês Newswire, 2019 https://github.com/nickyringland/nested_named_entities - MARS Target Encyclopedia - LPSC Abstracts Setting Data Roted Data: Https://zenodo.org/Record/10484191912.wnodo.wnowes - Whttps://zenodo.org/Record/104841919191912. https://www.kaggle.com/dataturks/best-buy-ecommerce-ner-dataset/home-retomar entidades para ner: https://www.kaggle.com/dataturks/Resume-entities-for-ner/home-Pouco-nerd: um pouco de shot nomeado entidades nomeado https://aclanthology.org/2021.acl-long.248/
Conjuntos de dados para NER em outros idiomas
Recursos de entidade nomeados lexicais
- Heiner: http://heiner.cl.uni-heidelberg.de/index.shtml
- Neckar: https://event.ifi.uni-heidelberg.de/?page_id=532#wikidata_ne_dataset
Troca de código
- Tweets em inglês (Calcs 2018): https://code-switching.github.io/2018/; https://code-switching.github.io/2018/files/spa-eng/release.zip; http://www.aclweb.org/anthology/w18-3219
- Tweets em árabe-egípcio (Calcs 2018): https://code-switching.github.io/2018/; https://code-switching.github.io/2018/files/msa-egy/arabictweetstokenassigner.zip; http://www.aclweb.org/anthology/w18-3219
- Texto da mídia social em inglês: https://github.com/silentflame/named-entity-recognition; http://aclweb.org/anthology/w18-2405
- EMNLP 2014 Tarefa compartilhada-Tweets compensados por código (dialeto de inglês, inglês, mandarim-inglês, árabe-arábico): http://emnlp2014.org/workshops/codeswitch/call.html
Alemão
- Conll 2003 (inglês, alemão): https://www.clips.uantwerpen.be/conll2003/ner/ner/
- Germeval 2014: https://sites.google.com/site/germeval2014ner/data
- Tübingen Treebank de alemão escrito (Tüba-D/Z): http://www.sfs.uni-tuebingen.de/en/ascl/resources/corpora/tueba-dz.html
- Jornais europeus (holandês, francês, alemão): https://github.com/europeanewspapers/ner-corpora; http://lab.kb.nl/dataset/europeana-newspapers-ner#access
- Transcrições alemãs europarl (subconjunto): https://nlpado.de/~sebastian/software/ner_german.shtml
- Modelo de entidade nomeado para alemão, Política (NEMGP): https://www.thomas-zastrow.de/nlp/
- Wikiner: https://figshare.com/articles/learning_multilingual_named_entity_recognition_from_wikipedia/5462500
- Wikineural: https://github.com/babelscape/wikineur
- Multinerd: https://github.com/babelscape/multinerd
- DFKI SmartData Corpus (Geo-Intitities): https://dfki-lt-re-group.bitbucket.io/smartdata-corpus/ (um corpus alemão para o reconhecimento de entidades de granulação fino, o MAIMILHRATILION EXTRATIONCH SCHMATMET SCHMATT, SCHIERSIPT, VESELINA MAIMILILAN, MAIMILHAN SCHMA, SCHMAIRS SCHMONILAN. Leonhard Hennig.
- DBpedia Abstract Corpus (inglês, alemão, holandês, francês, italiano, japonês): http://downloads.dbpedia.org/2015-04/ext/nlp/abstracts/
- DataSet Dawt - Textos densamente anotados na Wikipedia em vários idiomas (inglês, espanhol, francês, italiano, alemão, árabe): https://github.com/klout/pendata/tree/master/wiki_annotation
- Elena Leitner, Georg Rehm, Juli ́an Moreno-Schneider, um conjunto de dados de documentos jurídicos alemães para reconhecimento de entidade nomeado, LREC 2020: http://georg-re.hm/pdf/lrec-2020-leitner-et-et-et-preprint.pdf; Dados: https://github.com/EleneReiss/Legal-Entity-DoCognition
- Hipe-2022, nomeado reconhecimento de entidades e entidade ligada em documentos históricos multilíngues: https://hipe-eval.github.io/hipe-2022/ https://github.com/hipe-eval/hipe-2022-data
Holandês
- CONLL 2002 (Espanhol, holandês): https://www.clips.uantwerpen.be/conll2002/ner/
- Jornais europeus (holandês, francês, alemão): https://github.com/europeanewspapers/ner-corpora; http://lab.kb.nl/dataset/europeana-newspapers-ner#access
- Enquanto isso, Corpus (Corpus paralelo: inglês, espanhol, italiano, holandês): http://www.newsreader-project.eu/results/data/wikinews/
- Wikiner: https://figshare.com/articles/learning_multilingual_named_entity_recognition_from_wikipedia/5462500
- Wikineural: https://github.com/babelscape/wikineur
- Multinerd: https://github.com/babelscape/multinerd
- DBpedia Abstract Corpus (inglês, alemão, holandês, francês, italiano, japonês): http://downloads.dbpedia.org/2015-04/ext/nlp/abstracts/
- Dutch parliamentary documents 2015-2016, from 1848.nl (Jonkers, Named Entity Recognition on Dutch Parliamentary Documents using Frog, thesis, University of Amsterdam, 2016): https://github.com/Poezedoez/NER/blob/master/Code/data/lobby/golden_standard
- Sonar 1 - Desmet e Hoste, holandês de granulação fina denominada reconhecimento de entidade, 2014 (Hierarquia de Classes)
- Livros do Corpus-Sonar e Corpus Gutenberg holandês: http://blog.namescape.nl/?page_id=85; http://portal.clarin.nl/node/1940
afrikaans
- NCHLT afrikaans nomeados entidade anotada Corpus: https://repo.sadilar.org/handle/20.500.12185/299
Espanhol
- CONLL 2002 (Espanhol, holandês): https://www.clips.uantwerpen.be/conll2002/ner/
- Ancora (espanhol, catalão): http://clic.ub.edu/corpus/en
- Espanhola de Treebank Espanhola (LDC2018T01): https://catalog.ldc.upenn.edu/ldc2018t01
- Panacea (Lab): http://panacea-lr.eu/en/info-for-researchers/data-sets/dependency-parsed-corpora/dependency-lab-es
- Panacea (Env): http://panacea-lr.eu/en/info-for-researchers/data-sets/dependency-parsed-corpora/dependency-env-es
- Enquanto isso, Corpus (Corpus paralelo: inglês, espanhol, italiano, holandês): http://www.newsreader-project.eu/results/data/wikinews/
- ACE 2007 (espanhol e árabe): https://catalog.ldc.upenn.edu/ldc2014t18
- Wikiner: https://figshare.com/articles/learning_multilingual_named_entity_recognition_from_wikipedia/5462500
- Wikineural: https://github.com/babelscape/wikineur
- Multinerd: https://github.com/babelscape/multinerd
- http://www.grupolys.org/~marcos/pub/lrec16.tar.bz2 (usado em "Incorporando heurísticas lexico-semânticas em peneiras de resolução de coreferência para reconhecimento de entidade nomeado no nível de documentos")
- Corpora multilíngue com anotação coreferencial de entidades pessoais (espanhol, galinha, português): http://gramatica.usc.es/~marcos/lrec.tar.bz2
- DrugSemantics Gold Standard (Moreno et al., DrugSemantics: um corpus para reconhecimento de entidade nomeado nos resumos espanhóis das características do produto, 2017): https://data.mendeley.com/datasets/fwc7jrc5jr/1
- DBpedia Abstract Corpus (inglês, alemão, holandês, francês, italiano, japonês): http://downloads.dbpedia.org/2015-04/ext/nlp/abstracts/
- DataSet Dawt - Textos densamente anotados na Wikipedia em vários idiomas (inglês, espanhol, francês, italiano, alemão, árabe): https://github.com/klout/pendata/tree/master/wiki_annotation
- CANDEMIST (Tarefa compartilhada de mineração de textos de câncer - reconhecimento de entidade denominado tumor) - Nomeado reconhecimento de entidade de um tipo crítico de conceito relacionado ao câncer, a saber, morfologia tumoral em textos médicos espanhóis: https://temu.bsc.es/cantemist/
catalão
- Ancora (espanhol, catalão): http://clic.ub.edu/corpus/en
Galian
- Galician Ner Corpus: https://gramatica.usc.es/~marcos/resources/corpus_gal_nec.txt.gz
- Corpora multilíngue com anotação coreferencial de entidades pessoais (espanhol, galinha, português): http://gramatica.usc.es/~marcos/lrec.tar.bz2
Basco
- Basco Nomeado Entidades Corpus (EIEC): http://ixa.eus/node/4486?language=en
- Basco desambiguado nomeado entidades corpus (ediec): http://ixa.si.ehu.es/node/4485?language=en
- EGunkaria 2000 Corpus (383 textos de Newswire), mencionado em http://qtleap.eu/wp-content/uploads/2014/04/qtleap-2013-d5.1.pdf
Português
- Harem: https://www.linguateca.pt/aval_conjunta/harem/harem_ing.html
- Cintil Corpus: http://cintil.ul.pt/cintilfeatures.html#corpus
- Wikiner: https://figshare.com/articles/learning_multilingual_named_entity_recognition_from_wikipedia/5462500
- Wikineural: https://github.com/babelscape/wikineur
- Multinerd: https://github.com/babelscape/multinerd
- Corpora multilíngue com anotação coreferencial de entidades pessoais (espanhol, galinha, português): http://gramatica.usc.es/~marcos/lrec.tar.bz2
- Bosque 8.0 Eagles Formato: https://gramatica.usc.es/~marcos/resources/corpora_flpt.tgz
- Lener-BR (documentos legais brasileiros): https://cic.unb.br/~teodecampos/lener-rbr/
- Paramopama: um corpus brasileiro-português para reconhecimento de entidade nomeado
Francês
- Ester: http://catalogue.elra.info/en-us/repository/browse/elra-s0241/
- Ester 2: http://catalogue.elra.info/en-us/repository/browse/elra-s0338/
- Etape: http://catalogue.elra.info/en-us/repository/browse/elra-e0046/
- Jornais europeus (holandês, francês, alemão): https://github.com/europeanewspapers/ner-corpora; http://lab.kb.nl/dataset/europeana-newspapers-ner#access
- Quaero Corpus médico francês: https://quaerofrenchmed.limsi.fr/
- O Quaero Broadcast News estendido nomeado entidade Corpus: http://catalog.elra.info/en-us/repository/browse/elra-s0349/
- Quaero Old Press ampliou a entidade nomeada Corpus: http://catalog.elra.info/en-us/repository/browse/elra-w0073/
- Wikiner: https://figshare.com/articles/learning_multilingual_named_entity_recognition_from_wikipedia/5462500
- Wikiner-fr-gold https://arxiv.org/abs/2411.00030 https://huggingface.co/datasets/danrun/wikiner-fr-gld
- Wikineural: https://github.com/babelscape/wikineur
- Multinerd: https://github.com/babelscape/multinerd
- DBpedia Abstract Corpus (inglês, alemão, holandês, francês, italiano, japonês): http://downloads.dbpedia.org/2015-04/ext/nlp/abstracts/
- DataSet Dawt - Textos densamente anotados na Wikipedia em vários idiomas (inglês, espanhol, francês, italiano, alemão, árabe): https://github.com/klout/pendata/tree/master/wiki_annotation
- CAP 2017 - (Dados do Twitter), Lopez et al., Cap 2017 Challenge: Twitter Named Entity Reconhition, 2017: http://cap2017.imag.fr/competition.html
- Hipe-2022, nomeado reconhecimento de entidades e entidade ligada em documentos históricos multilíngues: https://hipe-eval.github.io/hipe-2022/ https://github.com/hipe-eval/hipe-2022-data
italiano
- Kind: https://github.com/dhfbk/kind
- Evalita: http://www.evalita.it/2009/tasks/entity
- Enquanto isso, Corpus (Corpus paralelo: inglês, espanhol, italiano, holandês): http://www.newsreader-project.eu/results/data/wikinews/
- Panacea (Env): http://panacea-lr.eu/en/info-for-researchers/data-sets/dependency-parsed-corpora/dependency-env-it
- Panacea (Lab): http://panacea-lr.eu/en/info-for-researchers/data-sets/dependency-parsed-corpora/dependency-lab-it
- Wikiner: https://figshare.com/articles/learning_multilingual_named_entity_recognition_from_wikipedia/5462500
- Wikineural: https://github.com/babelscape/wikineur
- Multinerd: https://github.com/babelscape/multinerd
- DBpedia Abstract Corpus (inglês, alemão, holandês, francês, italiano, japonês): http://downloads.dbpedia.org/2015-04/ext/nlp/abstracts/
- DataSet Dawt - Textos densamente anotados na Wikipedia em vários idiomas (inglês, espanhol, francês, italiano, alemão, árabe): https://github.com/klout/pendata/tree/master/wiki_annotation
romeno
- Ronec (Dumitrescu e Avram, apresentando Ronec - o romeno chamado entidade Corpus. LREC 2020). Papel: https://arxiv.org/pdf/1909.01247.pdf Dados: https://github.com/dumitrescustefan/ronec
- Romanian journalistic corpus (ROCO): http://metashare.elda.org/repository/browse/romanian-journalistic-corpus-roco/038baa80dc7311e5aa0b00237df3e3583781d7c0f2084057aa018a2d63d987e9/
- Romanian Balanced Corpus (ROMBAC): http://metashare.elda.org/repository/browse/romanian-balanced-corpus-rombac/0a7dd85edc7311e5aa0b00237df3e35873a0d662435d42dd94fba48c29dc0065/
grego
- Panacea (Env): http://panacea-lr.eu/en/info-for-researchers/data-sets/dependency-parsed-corpora/dependency-env-el
- Panacea (Lab): http://panacea-lr.eu/en/info-for-researchers/data-sets/dependency-parsed-corpora/dependency-lab-el
húngaro
- Húngaro nomeado entidade corporal: http://rgai.inf.u-szeged.hu/index.php?lang=en&page=corpus_ne
- hunnerwiki: http://hlt.sztaki.hu/resources/hunnerwiki.html
- NYTK: https://github.com/nytud/nytk-nerkor
Tcheco
- Tchech Named Entity Corpus: http://ufal.mff.cuni.cz/cnec
- BSNLP 2017 (croata, tcheco, polonês, russo, eslovaco, esloveno, ucraniano): http://bsnlp-2017.cs.helsinki.fi/shared_task_results.html
- CZENG 1.0 (Corpus paralelo: tcheco-inglês): http://ufal.mff.cuni.cz/czeng/czeng10
- PERO OCR NER (CHRONICLES HISTÓRICAS HISTÓRICAS DE TCHECO): https://github.com/roman-janik/poner https://dspace.vut.cz/items/6092e1b0-3d75-4451-8582-28573AC30404
polonês
- O corpus polonês Sejm: http://clip.ipipan.waw.pl/psc
- BSNLP 2017 (croata, tcheco, polonês, russo, eslovaco, esloveno, ucraniano): http://bsnlp-2017.cs.helsinki.fi/shared_task_results.html
- Coreferência polonesa corpus: http://zil.ipipan.waw.pl/polishcoreferencorpus
- Wikiner: https://figshare.com/articles/learning_multilingual_named_entity_recognition_from_wikipedia/5462500
- Wikineural: https://github.com/babelscape/wikineur
- Multinerd: https://github.com/babelscape/multinerd
- Corpus of Economic News (CEN Corpus): http://www.nlp.pwr.wroc.pl/narzedzia-i-i-soby/zasoby/cen
- KPWR (Korpus Języka Polskiego Politechniki Wrocławskiej/Corpus polonês da Universidade de Wrocław): http://plwordnet.pwr.wroc.pl/index.php?option=com_content&lank=article&id=35 & http://plwordnet.pwr.wroc.pl/attachments/article/35/kpwr-1.1.7z (Broda et al., KPWR: Rumo a um corpus gratuito de polonês, 2012)
- Nkjp: http://clip.ipipan.waw.pl/nationalcorpusofpolish?action=attachfile&do=view&target=nkjp-podkorpusmilionowy-1.2.tar.gz
croata
- HR500K 1.0: http://hdl.handle.net/11356/1183
- BSNLP 2017 (croata, tcheco, polonês, russo, eslovaco, esloveno, ucraniano): http://bsnlp-2017.cs.helsinki.fi/shared_task_results.html
- Reldi-normtagner-hr (tweets croatas): http://hdl.handle.net/11356/1170
Eslovaco
- BSNLP 2017 (croata, tcheco, polonês, russo, eslovaco, esloveno, ucraniano): http://bsnlp-2017.cs.helsinki.fi/shared_task_results.html
- Slovak Categorizou News Corpus: https://nlp.web.tuke.sk/pages/categorizednews
Esloveno
- BSNLP 2017 (croata, tcheco, polonês, russo, eslovaco, esloveno, ucraniano): http://bsnlp-2017.cs.helsinki.fi/shared_task_results.html
- SSJ500K: http://www.slovenscina.eu/tehnologije/ucni-korpus; http://eng.slovenscina.eu/tehnologije/ucni-korpus; https://www.clarin.si/repository/xmlui/handle/11356/1029; Nota: Para V 2.2, consulte: http://hdl.handle.net/11356/1210
- Notícias da Slovene: http://zitnik.si/mediawiki/index.php?title=datasets#slovene_news; http://zitnik.si/mediawiki/images/7/7d/rtvslo_dec2011.tsv; http://zitnik.si/mediawiki/images/5/5e/rtvslo_dec2011_v2.tsv
- Janes-Tag 2.0 (texto da mídia social) https://www.clarin.si/repository/xmlui/handle/11356/1123; Veja também: Fišer et al., O Projeto Janes: Recursos e Ferramentas de Idioma para o Conteúdo Gerado de Usuário Slovene, 2018.
ucraniano
- BSNLP 2017 (croata, tcheco, polonês, russo, eslovaco, esloveno, ucraniano): http://bsnlp-2017.cs.helsinki.fi/shared_task_results.html
- Ucraniano Brown Ner Corpus: https://github.com/lang-uk/ner-uk; http://lang.org.ua/en/corpora/
sérvio
- Setimes.sr - http://hdl.handle.net/11356/1200
- Nomeado de avaliação de entidades para sérvio: http://www.korpus.matf.bg.ac.rs/srpneval/
- Reldi-normtagner-sr (tweets sérvios): http://hdl.handle.net/11356/1171
búlgaro
islandês
- Mim-Gold-ir (ingólfsdóttir, Svanhví lilja, Sigurjón Þorsteinsson e Hrafn Loftsson. http://www.malfong.is/index.php?pg=mim_gold_ner
dinamarquês
- DaNE: Hvingelby et al., [DaNE: A Named Entity Resource for Danish.](http://www.lrec-conf.org/proceedings/lrec2020/pdf/2020.lrec-1.565.pdf), LREC 2020: https://github.com/alexandrainst/danlp/
- Propbank dinamarquês (DPB): http://catalog.elra.info/en-us/repository/browse/elra-w0117/
- Arboretum Treebank: http://catalog.elra.info/en-us/repository/browse/elra-w0084/
norueguês
- Bjarte Johansen, nomeado reconhecimento de entidade para norueguês, Anais da 22ª Conferência Nórdica sobre Linguística Computacional. 2019 (https://www.aclweb.org/anthology/w19-6123.pdf) Dados: https://github.com/ljos/navnkjenner
- Fredrik Jørgensen et al., Norne: anotar entidades nomeadas para norueguês, 2019 (https://arxiv.org/pdf/1911.12146.pdf). Dados: https://github.com/ltgoslo/norne/; https://www.nb.no/sprakbanken/show?serial=oai%3Anb.no%3asbr-49
sueco
- Estocolmo Internet Corpus: https://www.ling.su.se/english/nlp/corpora-and-sousources/sic
- Suc 3.0: https://spraakbanken.gu.se/eng/resource/suc3
- Swedish anotado manualmente: https://github.com/klintan/swedish-ner-corpus/
- Dados da Wikipedia Medical (Almgren et al., Nomeada reconhecimento de entidades em registros de saúde suecos com LSTMs bidirecionais profundos baseados em caracteres, 2016): https://github.com/olofmogren/biomedical-ner-data-swedish
- Hipe-2022, nomeado reconhecimento de entidades e entidade ligada em documentos históricos multilíngues: https://hipe-eval.github.io/hipe-2022/ https://github.com/hipe-eval/hipe-2022-data
finlandês
- Conjuntos de dados para a entidade nomeada finlandesa Recoginição: https://github.com/mpsilfve/finer-data
- Turku Ner Corpus: https://github.com/turkunlp/turku-ner-corpus
- Hipe-2022, nomeado reconhecimento de entidades e entidade ligada em documentos históricos multilíngues: https://hipe-eval.github.io/hipe-2022/ https://github.com/hipe-eval/hipe-2022-data
estoniano
- Estoniano NER Corpus: https://metashare.ut.ee/repository/browse/estonian-ner-corpus/88d030c0acde11e2a6e4005056b40024f1def472ed254e77a8952e1003d9f81ef472ed254e77a8952e1003D9f81e
Letão e lituano
- https://github.com/accurat-toolkit/tildener/tree/master/test (Pinnis, letão e lituano nomeado reconhecimento de entidade com TIDENER, LREC 2012)
- Dados de treinamento para o Tagger LV: https://github.com/peterisp/lvtagger/tree/master/nertrainingdata
turco
- K̈ucuk e Can, um conjunto de dados de tweet anotado para reconhecimento de entidades nomeado e detecção de posições, 2019: https://github.com/dkucuk/tweet-dataset-ner-sd
- K̈ucuk et al., Nomeado reconhecimento de entidades em tweets turcos: http://optima.jrc.it/resources/2014_jrc_twitter_tr_tr_ner-dataset.zip
- Inglês/Turkish Wikipedia denominada DataSet de Reconhecimento e Texto de Intidade (http://arxiv.org/abs/1702.02363): https://data.mendeley.com/datasets/cdcztymf4k/1
- Çoban et al, nomeado reconhecimento de entidades sobre o FBNER: um novo conjunto de dados do Facebook em turco: https://ieexplore.ieee.org/document/9598971 Dados disponíveis para fins de pesquisa sob solicitação
Cazaque
- Kaznerd: https://arxiv.org/pdf/2111.13419.pdf, https://github.com/is2ai/kaznerd
Uyghur
- Uyghur nomeado entre entidade Relacionamento corpus: https://github.com/kaharjan/uynerel (Abiderexiti et al., Esquemas de anotação para a construção de uyghur denominada entre entidade Relacionamento Corpus. Ialp 2016)
Armênio
- pioneiro (conjuntos de dados padrão e padrão de prata): https://github.com/ispras-texterra/pioner (Ghukasyan et al., Pioneiro: conjuntos de dados e linhas de base para o Armênio nomeado Reconhecimento de Entidade, 2018)
- Armtdp-ner: https://github.com/myavrum/armtdp-ner
cóptico
- A dependência universal copta Treebank: https://github.com/UniversaldEpendências/ud_coptic-scriptorium/tree/dev (consulte também https://copticscriptorium.org/treebank.html). Isso contém 46.000 tokens de entidades aninhadas (não) nomeadas e wikificadas de textos coptas sahídicos.
Amárico
- Diga Corpus (consulte "Reconhecimento de entidade nomeado para amárico usando o Deep Learning"): https://github.com/geezorg/data/tree/master/amharic/tagged/nmsu-say; http://data.geez.org/
árabe
- AQMAR Wikipedia árabe denominada entidade Corpus: http://www.cs.cmu.edu/~ark/arabicner/
- NE3L nomeou entidades árabes corpus (árabe, chinês, russo): http://catalog.elra.info/en-us/repository/browse/elra-w0078/
- Reflexa de tradução da entidade (Corpus paralelo: inglês, árabe, chinês): https://catalog.ldc.upenn.edu/ldc2009t11
- ANERCORP: http://users.dsic.upv.es/~ybenajiba/downloads.html (consulte também: http://alias-i.com/lingpipe/demos/tutorial/ne/read-me.html)
- ACE 2003 (inglês, chinês, árabe): https://catalog.ldc.upenn.edu/ldc2004t09
- ACE 2004 (inglês, chinês, árabe): https://catalog.ldc.upenn.edu/ldc2005t09
- ACE 2005 (inglês, chinês, árabe): https://catalog.ldc.upenn.edu/ldc2006t06
- ACE 2007 (espanhol e árabe): https://catalog.ldc.upenn.edu/ldc2014t18
- Ontontotes 5 (inglês, árabe, chinês): https://catalog.ldc.upenn.edu/ldc2013t19
- DataSet Dawt - Textos densamente anotados na Wikipedia em vários idiomas (inglês, espanhol, francês, italiano, alemão, árabe): https://github.com/klout/pendata/tree/master/wiki_annotation
- WoJood - 2022 Árabe aninhado nomeado entidade Corpus. https://dlnlp.ai/st/wojood/ https://aclanthology.org/2022.lrec-1.387.pdf https://codalab.lisn.upsaclay.fr/competition/11740
persa
- ArmanPersonercorpus: http://islrn.org/resources/399-379-640-828-6/; https://github.com/haniehp/persianner
Sindhi
- Siner: https://aclanthology.org/2020.lrec-1.361/, https://github.com/aliwazir/siner-dataset
urdu
- IJCNLP 2008 SSEAL: http://ltrc.iiit.ac.in/ner-ssea-08/index.cgi?topic=5
- DataSet UNER (Khan et al., Nomeado DataSet Entity DataSet para Urdu Nomeado Tarefa de Reconhecimento de Entidade, 2016). Disponível em http://www.iiu.edu.pk/?page_id=5181
- Mk-pucit: https://www.dropbox.com/sh/1ivw7ykm2tugg94/aab9t5wnn7fysopo7tjjw8la; Veja: Kanwal et al., Urdu Nomeado reconhecimento de entidades: geração corpus e aplicativos de aprendizado profundo, 2019
Indic
- Naamapadam: DataSet de reconhecimento de entidade (NER) nomeado para 11 grandes idiomas indianos de duas famílias de idiomas. https://research.ibm.com/publications/naamapadam-a-large-scale-named-entity-antotated-data-for-indic-languages https://ai4bharat.iitm.ac.in/naamapadam
hindi
- Hiner: https://github.com/cfiltnlp/hiner
- DataSet de saúde hindi: https://www.kaggle.com/aijain/hindi-health-dataset/home
- FIRE 2015, ESM-IL (Inglês, Hindi, Tamil, Malayalam): http://au-kbc.org/nlp/esm-fire2015/#trainCorpus
- Fire Ner 2013 (inglês, hindi, tamil, malaiala, bengali): http://au-kbc.org/nlp/ner-fire2013/
- IJCNLP 2008 SSEAL: http://ltrc.iiit.ac.in/ner-ssea-08/index.cgi?topic=5
bengali
- Fire Ner 2013 (inglês, hindi, tamil, malaiala, bengali): http://au-kbc.org/nlp/ner-fire2013/
- IJCNLP 2008 SSEAL: http://ltrc.iiit.ac.in/ner-ssea-08/index.cgi?topic=5
- Bengali-ner: https://github.com/rifat1493/bengali-ner, https://ieeexplore.ieee.org/document/8944804
- Ner-bangla: https://github.com/misabic/ner-bangla-dataset, https://content.iospress.com/articles/journal-of-intelligent-and-fuzzy-systems/ifs179349
Telugu
- NER_TELUGU: https://github.com/anikethjr/ner_telugu
- IJCNLP 2008 SSEAL: http://ltrc.iiit.ac.in/ner-ssea-08/index.cgi?topic=5
- Entidade nomeada ANOTATATED CORPORA PARA TELUGU: http://www.tdil-dc.in/index.php?option=com_download&task=showResourcedetails&toolid=982&lang=en
Maithili
- O primeiro reconhecedor de entidade nomeado em Maithili: Criação de Recursos e Desenvolvimento do Sistema: https://content.iospress.com/articles/journal-of-intelligent-and-fuzzy-systems/ifs210051
Nepalês
- Everestner: https://journals.flvc.org/flairs/article/view/130725, https://github.com/nowalab/everest-ner
Marathi
- Nomeada Entidade Anotada Corpora para Marathi: http://www.tdil-dc.in/index.php?option=com_download&task=showResourcedetails&toolid=979&lang=en
- L3CUBE Mahaner: https://arxiv.org/abs/2204.06029 https://github.com/l3cube-pune/marathinlp
Punjabi
- Entidade nomeada ANOTATADO COPORA PARA PUNJABI: http://www.tdil-dc.in/index.php?option=com_download&task=showResourcedetails&toolid=980&lang=en
tâmil
- FIRE 2015, ESM-IL (Inglês, Hindi, Tamil, Malayalam): http://au-kbc.org/nlp/esm-fire2015/#trainCorpus
- Fire Ner 2013 (inglês, hindi, tamil, malaiala, bengali): http://au-kbc.org/nlp/ner-fire2013/
Malaiala
- FIRE 2015, ESM-IL (Inglês, Hindi, Tamil, Malayalam): http://au-kbc.org/nlp/esm-fire2015/#trainCorpus
- Fire Ner 2013 (inglês, hindi, tamil, malaiala, bengali): http://au-kbc.org/nlp/ner-fire2013/
Oriya/Odia
- IJCNLP 2008 SSEAL: http://ltrc.iiit.ac.in/ner-ssea-08/index.cgi?topic=5
Cingalês/cingaleses
Tailandês
- Tailame-named-entity-reconhecimento-data: https://github.com/pythainlp/thai-named-entity-recognition-data
- Tailandês Nomeado entidade corporal: http://pioneer.chula.ac.th/~awirote/resources/corpora--data.html; http://pioneer.chula.ac.th/~awirote/data-nutcha.zip; http://pioneer.chula.ac.th/~awirote/data-sasiwimon.zip; http://pioneer.chula.ac.th/~awirote/data-nattaporn.zip
- LST20: https://huggingface.co/datasets/lst20; https://arxiv.org/abs/2008.05055
- Thai-nner: https://github.com/vistec-ai/thai-nner, https://aclantology.org/2022.findings-acl.116
indonésio
- IDED: http://metashare.elda.org/repository/browse/identic/FED3FADA7EF111E5AA3B001DD8B71C66C98888888DA95DA9104CC/
- https://github.com/yohanesgultom/nlp-experiments/tree/master/data/ner
- Indonésia -ner: Syaifudin & Nurwidyantoro https://ieeexplore.ieee.org/document/7828656 https://github.com/yusufsyaifudin/indonesia-ner
- Idner-News-2K: Um conjunto de dados de notícias indonésias para tarefa de reconhecimento de entidade nomeada. REANNOTAÇÃO DE SYAFUDIN & NURWIDYANTORO https://dl.acm.org/doi/10.1145/3592854#fn8 https://github.com/khairunnisaor/idner-news-2k/
- NERP e NER-GRIT: Dois conjuntos de dados indonésios de Indonlp/Indonlu https://github.com/indonlp/indonlu/tree/master/dataset https://aclantology.org/2020.aacl-main.85/
vietnamita
- VLSP 2016: http://vlsp.org.vn/resources-vlsp2016; https://github.com/undertheseanlp/ner
- VLSP 2018: http://vlsp.org.vn/resources-vlsp2018; https://github.com/undertheseanlp/ner
- Phoner_covid19: https://github.com/vinairesearch/phoner_covid19
japonês
- IREX: https://nlp.cs.nyu.edu/irex/package/
- Met-2 (japonês, chinês): https://www-nlpir.nist.gov/related_projects/muc/
- BCCWJ NE BASIC NE Corpus: https://sites.google.com/site/projectnextnlpne/en (Iwakura et al., Construindo um Basic Named Entity Corpus de vários gêneros, News 2016)
- DBpedia Abstract Corpus (inglês, alemão, holandês, francês, italiano, japonês): http://downloads.dbpedia.org/2015-04/ext/nlp/abstracts/
- Dados de: Mai et al., Um estudo empírico sobre reconhecimento de entidade nomeado fino, Coling 2018 (inglês, japonês): https://fgner.alt.ai/duc/ene/testsets/comp/
- Wikipedia Ner Corpus: https://github.com/stockmarkteam/ner-wikipedia-dataset
- Wikiann: https://elisa-ie.github.io/wikiann/
- GSD: Conversão do conjunto de dados UD GSD em entidades nomeadas por megagon labs https://github.com/megagonlabs/ud_japanese-gsd
- KWDLC: Kyoto University Web Document Leads Corpus https://nlp.ist.i.kyoto-u.ac.jp/EN/index.php?KWDLC https://github.com/ku-nlp/KWDLC https://nagisa.readthedocs.io/en/latest/tutorial_ner.html
coreano
- Instituto Nacional de Língua Coreana (ROK) - NER Corpus: https://github.com/digitalprk/koreaner; https://ithub.korean.go.kr/user/total/referenceview.do?boardseq=5&articleseq=118&boardgb=t&isinsupd&boardtype=corpus
- KMOU NER - https://github.com/kmounlp/ner
- Avaliação de entendimento da língua coreana - klue ner - https://klue-benchmark.com/tasks/69/overview/description
- https://github.com/songys/entity
- HLCT 2016 Corpus, com atualizações - https://github.com/machinereading/koreannercorpus
chinês
- ACE 2003 (inglês, chinês, árabe): https://catalog.ldc.upenn.edu/ldc2004t09
- ACE 2004 (inglês, chinês, árabe): https://catalog.ldc.upenn.edu/ldc2005t09
- ACE 2005 (inglês, chinês, árabe): https://catalog.ldc.upenn.edu/ldc2006t06
- Ontontotes 5 (inglês, árabe, chinês): https://catalog.ldc.upenn.edu/ldc2013t19
- Met-2 (japonês, chinês): https://www-nlpir.nist.gov/related_projects/muc/
- Reflexa de tradução da entidade (Corpus paralelo: inglês, árabe, chinês): https://catalog.ldc.upenn.edu/ldc2009t11
- NE3L Nomeado entidades corpus chinês (árabe, chinês, russo): http://catalogue.elra.info/en-us/repository/browse/elra-w0079/
- Connação de dados de message curta original I em chinês (entidades nomeadas): http://catalog.elra.info/en-us/repository/browse/elra-w0045_04/
- Atuação original de dados de mensagens curtas II em chinês (entidades nomeadas): http://catalog.elra.info/en-us/repository/browse/elra-w0045_08/
- Ere Corpora hábil (Corpus paralelo: inglês, chinês): Mott et al., Entidades, relações e eventos chineses-inglês paralelos, corpora, 2016 (LDC2015E78, LDC2014E114)
- Weibo chinês: Anotações de estilo hábil para menções nomeadas e nominais nas mídias sociais chinesas (Weibo): https://github.com/hltcoe/golden-horse
- EDUNER chinês: 2023 conjunto de dados no domínio da educação: https://link.springer.com/article/10.1007/s00521-023-08635-5 https://github.com/anonymous-xl/eduner
- Ner aeroespacial chinês: https://www.nature.com/articles/s41598-023-50705-0 https://github.com/coder-xiaokai/aerospace_nerdatasets
- SciCN: A Chinese Dataset and Benchmark for Scientific Information Extraction https://file.techscience.com/files/cmc/2024/TSP_CMC-78-3/TSP_CMC_35594/TSP_CMC_35594.pdf https://github.com/yangjingla/SciCN
- EMP NER: Historical Chinese https://aclanthology.org/2024.lrec-main.35.pdf https://gitlab.com/enpchina/ENP-NER
Tagalog
- TLUnifed: https://arxiv.org/abs/2311.07161 https://huggingface.co/datasets/ljvmiranda921/tlunified-ner
russo
- BSNLP 2017 (Croatian, Czech, Polish, Russian, Slovak, Slovene, Ukrainian): http://bsnlp-2017.cs.helsinki.fi/shared_task_results.html
- NE3L named entities Russian corpus (Arabic, Chinese, Russian): https://catalog.elra.info/en-us/repository/browse/ELRA-W0080/
- WikiNER: https://figshare.com/articles/Learning_multilingual_named_entity_recognition_from_Wikipedia/5462500
- WikiNEuRal: https://github.com/Babelscape/wikineural
- MultiNERD: https://github.com/Babelscape/multinerd
- factRuEval-2016: https://github.com/dialogue-evaluation/factRuEval-2016
- RuREBus 2020 (Russian Relation Extraction for Business) corpus https://github.com/dialogue-evaluation/RuREBus
Ioruba
- GV-Yorùbá-NER. Data: https://github.com/ajesujoba/YorubaTwi-Embedding/tree/master/Yoruba/Yor%C3%B9b%C3%A1-NER ; Data statement: https://drive.google.com/file/d/177xu-O2FTJ7VJQ-0ohCWjVd1qu61Tvml/view Paper: Jesujoba O Alabi, Kwabena Amponsah-Kaakyire, David I Adelani, and Cristina Espãna-Bonet. Massive vs. curated word embeddings for low-resourced languages. the case of Yorùbá and Twi. In LREC, 2020 (https://arxiv.org/abs/1912.02481)
Suaíli
- Helsinki Corpus of Swahili 2.0 (HCS 2.0) Annotated Version: http://metashare.csc.fi/repository/browse/helsinki-corpus-of-swahili-20-hcs-20-annotated-version/232c1910b9eb11e5915e005056be118e59fb2e920f1f4c0cafc94915fc6f5cac/ See: Shah et al., 2010. SYNERGY: A Named Entity Recognition System for Resource-scarce Languages such as Swahili using Online Machine Translation
Igbo
- IgboNER: https://aclanthology.org/2022.lrec-1.547/ https://github.com/Chiamakac/IgboNER-Models later updated in https://openreview.net/pdf?id=tHUS9-vmUfC from https://sites.google.com/view/africanlp2023/home
isiNdebele
- NCHLT isiNdebele Named Entity Annotated Corpus: https://repo.sadilar.org/handle/20.500.12185/306
Xhosa
- NCHLT isiXhosa Named Entity Annotated Corpus: https://repo.sadilar.org/handle/20.500.12185/312
zulu
- NCHLT isiZulu Named Entity Annotated Corpus: https://repo.sadilar.org/handle/20.500.12185/319
Sepedi
- NCHLT Sepedi Named Entity Annotated Corpus: https://repo.sadilar.org/handle/20.500.12185/328
Sesotho
- NCHLT Sesotho Named Entity Annotated Corpus: https://repo.sadilar.org/handle/20.500.12185/334
Setswana
- NCHLT Setswana Named Entity Annotated Corpus: https://repo.sadilar.org/handle/20.500.12185/341
Siswati
- NCHLT Siswati Named Entity Annotated Corpus: https://repo.sadilar.org/handle/20.500.12185/346
Venda
- NCHLT Tshivenda Named Entity Annotated Corpus: https://repo.sadilar.org/handle/20.500.12185/355
- MPHAYANER: Named Entity Recognition for Tshivenḓa: https://openreview.net/pdf?id=0nneuL3bSLt https://github.com/rendanim/MphayaNER from https://sites.google.com/view/africanlp2023/home
Xitsonga
- NCHLT Xitsonga Named Entity Annotated Corpus: https://repo.sadilar.org/handle/20.500.12185/362
Latin
- Herodotos Project: https://github.com/alexerdmann/Herodotos_Project_Annotation
A long list can be found here: http://damien.nouvels.net/resourcesen/corpora.html
Referências
[Alvarado et al., 2015] Alvarado, Julio Cesar Salinas, Karin Verspoor, and Timothy Baldwin. Domain adaption of named entity recognition to support credit risk assessment. In Proceedings of the Australasian Language Technology Association Workshop 2015, pp. 84-90. 2015. Accessed: August 2018.
[Balasuriya et al., 2009] Balasuriya, Dominic, Nicky Ringland, Joel Nothman, Tara Murphy, and James R. Curran. Named entity recognition in wikipedia. In Proceedings of the 2009 Workshop on The People's Web Meets NLP: Collaboratively Constructed Semantic Resources, pp. 10-18. Association for Computational Linguistics, 2009
[Bos et al., 2017] Bos, Johan, Valerio Basile, Kilian Evang, Noortje J. Venhuizen, and Johannes Bjerva. The Groningen meaning bank. In Handbook of linguistic annotation, pp. 463-496. Springer, Dordrecht, 2017.
[Derczynski et al., 2016] Derczynski, Leon, Kalina Bontcheva, and Ian Roberts. Broad twitter corpus: A diverse named entity recognition resource. In Proceedings of COLING 2016, the 26th International Conference on Computational Linguistics: Technical Papers, pp. 1169-1179. 2016. Available at: https://github.com/GateNLP/broad_twitter_corpus Accessed: August 2018.
[Derczynski et al., 2017] Leon Derczynski, Eric Nichols, Marieke van Erp, Nut Limsopatham (2017) Results of the WNUT2017 Shared Task on Novel and Emerging Entity Recognition, in Proceedings of the 3rd Workshop on Noisy, User-generated Text. Available at: https://noisy-text.github.io/2017/emerging-rare-entities.html
[DSTL, 2017] Defence Science and Technology Laboratory. 2017. Relationship and Entity Extraction Evaluation Dataset. https://github.com/dstl/re3d. Accessed: January 2018.
[Grishman and Sundheim, 1996] Ralph Grishman and Beth Sundheim. 1996. Message understanding conference- 6: A brief history. In COLING 1996 Volume 1: The 16th International Conference on Computational Linguistics.
[Karimi et al., 2015] Sarvnaz Karimi, Alejandro Metke-Jimenez, Madonna Kemp, and Chen Wang. 2015. Cadec: A corpus of adverse drug event annotations. Journal of biomedical informatics, 55:73-81. Available at https://data.csiro.au Accessed: November 2017.
[Lim et al., 2017] Lim, Swee Kiat, Aldrian Obaja Muis, Wei Lu, and Chen Hui Ong. MalwareTextDB: A database for annotated malware articles. In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), vol. 1, pp. 1557-1567. 2017.
[Liu et al., 2013a] Jingjing Liu, Panupong Pasupat, Scott Cyphers, and Jim Glass. 2013. Asgard: A portable architecture for multilingual dialogue systems. In Acoustics, Speech and Signal Processing (ICASSP), 2013 IEEE International Conference on, pages 8386-8390. IEEE. Available at https://groups.csail.mit.edu/sls/downloads/restaurant/ Accessed: January 2018
[Liu et al., 2013b] Jingjing Liu, Panupong Pasupat, Yining Wang, Scott Cyphers, and Jim Glass. 2013. Query understanding enhanced by hierarchical parsing structures. In Automatic Speech Recognition and Understanding (ASRU), 2013 IEEE Workshop on, pages 72-77. IEEE. Available at https://groups.csail.mit.edu/sls/downloads/movie/ We used the trivia10k13 portion. Accessed: January 2018
[NIST, 1999 IE-ER] NIST. 1999. Information Extraction - Entity Recognition Evaluation. http://www.nist.gov/speech/tests/ieer/er_99/er_99.htm. The newswire development test data only (included in the NLTK package).
[Ohta et al., 2012] Tomoko Ohta, Sampo Pyysalo, Jun'ichi Tsujii and Sophia Ananiadou. 2012. Open-domain Anatomical Entity Mention Detection. In Proceedings of ACL 2012 Workshop on Detecting Structure in Scholarly Discourse (DSSD), pp. 27-36. Available at: http://www.nactem.ac.uk/anatomy/ and https://github.com/openbiocorpora/anem Accessed: November 2017.
[Ritter et al., 2011] Alan Ritter, Sam Clark, Mausam, and Oren Etzioni. 2011. Named entity recognition in tweets: An experimental study. In Proceedings of the 2011 Conference on Empirical Methods in Natural Language Processing, pages 1524-1534, Edinburgh, Scotland, UK., July. Association for Computational Linguistics. Accessed January 2018.
[Sang and Meulder, 2003] Erik F. Tjong Kim Sang and Fien De Meulder. 2003. Introduction to the CoNLL-2003 shared task: Languageindependent named entity recognition. In Proceedings of the Seventh Conference on Natural Language Learning at HLT-NAACL 2003.
[Stubbs et al., 2015] Amber Stubbs and Ozlem Uzuner. 2015. Annotating longitudinal clinical narratives for de-identification: The 2014 i2b2/UTHealth corpus. Journal of biomedical informatics, 58:S20-S29. Available at https://www.i2b2.org/NLP/DataSets/ Accessed: February 2018.
[Uzuner et al., 2007] Ozlem Uzuner, Yuan Luo, and Peter Szolovits. 2007. Evaluating the state-of-the-art in automatic de-identification. Journal of the American Medical Informatics Association, 14(5):550-563. Available at https://www.i2b2.org/NLP/DataSets/ Accessed: February 2018.
[Weischedel and Brunstein, 2005] Ralph Weischedel and Ada Brunstein. 2005. BBN pronoun coreference and entity type corpus. Linguistic Data Consortium, Philadelphia.
[Weischedel et al., 2013] Weischedel, Ralph, Martha Palmer, Mitchell Marcus, Eduard Hovy, Sameer Pradhan, Lance Ramshaw, Nianwen Xue et al. Ontonotes release 5.0 ldc2013t19. Linguistic Data Consortium, Philadelphia, PA (2013).
[Zeldes, 2017] Amir Zeldes. 2017. The GUM corpus: creating multilayer resources in the classroom. Language Resources and Evaluation, 51(3):581-612. Available at https://github.com/amir-zeldes/gum/tree/master/coref/tsv/ Accessed: November 2017.