엔티티 인식을위한 데이터 세트
이 리포지토리에는 다양한 엔티티 유형으로 주석이 달린 여러 도메인의 데이터 세트가 포함되어 있으며 엔티티 인식에 유용하고 NER (Entity Recognition) 작업에 유용합니다.
참고 : 더 이상이 목록에 데이터 세트를 적극적으로 추가하지 않습니다. 2020 년 이후에 나타난 데이터 세트가 더 많을 것입니다. 그러나 문제를 통해 더 많은 데이터 세트를 추가하거나 요청을 가져 오는 것이 기쁩니다.
영어로 된 NER의 데이터 세트
다음 표는 영어 엔티티 인식을위한 데이터 세트 목록을 보여줍니다 (다른 언어로 된 NER 데이터 세트 목록은 아래 참조). 데이터 디렉토리에는 라이센스 제한으로 인해 공유 할 수없는 데이터 세트를 얻을 수있는 위치에 대한 정보와 Conll 2003 형식으로 (필요한 경우) 코드를 코드로 포함합니다. 다른 언어로 NER Corpora에 대한 링크도 아래에 나열되어 있습니다.
| 데이터 세트 | 도메인 | 특허 | 참조 | 가용성 |
|---|
| Conll 2003 | 소식 | DUA | Sang and Meulder, 2003 | 찾기 쉽습니다 |
| NIST-EIER | 소식 | 없음 | NIST 1999 IE-ER | NLTK 데이터 |
| MUC-6 | 소식 | LDC | Grishman and Sundheim, 1996 | LDC 2003T13 |
| Ontonotes 5 | 다양한 | LDC | Weischedel et al., 2013 | LDC 2013T19 |
| BBN | 다양한 | LDC | Weischedel and Brunstein, 2005 | LDC 2005T33 |
| GMB-1.0.0 | 다양한 | 없음 | Bos et al., 2017 | http://gmb.let.rug.nl/data.php |
| 껌 -3.1.0 | 위키 | 여러 ( * 2) | Zeldes, 2016 | ✔ 여기에 포함되어 있습니다 |
| Wikigold | 위키 백과 | CC-BY 4.0 | Balasuriya et al., 2009 | ✔ 여기에 포함되어 있습니다 |
| 리터 | 지저귀다 | 없음 | Ritter et al., 2011 | 분할, 기차/테스트/데브 스플릿이 없습니다 |
| BTC | 지저귀다 | CC-BY 4.0 | Derczynski et al., 2016 | ✔ 여기에 포함되어 있습니다 |
| WNUT17 | 소셜 미디어 | CC-BY 4.0 | Derczynski et al., 2017 | ✔ 여기에 포함되어 있습니다 |
| I2B2-2006 | 의료 | DUA | Uzuner et al., 2007 | http://www.i2b2.org |
| I2B2-2014 | 의료 | DUA | Stubbs et al., 2015 | http://www.i2b2.org |
| 캐드 | 의료 | CSIRO | Karimi et al., 2015 | http://data.csiro.au/ |
| 아템 | 해부학 적 | CC-By-SA 3.0 | Ohta et al., 2012 | ✔ 여기에 포함되어 있습니다 |
| 미트레 스토 란트 | 쿼리 | 없음 | Liu et al., 2013a | http://groups.csail.mit.edu/sls/ |
| 미트 모비 | 쿼리 | 없음 | Liu et al., 2013b | http://groups.csail.mit.edu/sls/ |
| malwaretextdb | 맬웨어 | 없음 | Lim et al., 2017 | http://www.statnlp.org/ |
| RE3D | 방어 | 여러 ( * 1) | DSTL, 2017 | ✔ 여기에 포함되어 있습니다 |
| SEC-Filings | 재원 | CC-BY 3.0 | Alvarado et al., 2015 | ✔ 여기에 포함되어 있습니다 |
| 집회 | 로봇 공학 | 엑스 | Costa et al., 2017 | 엑스 |
| 위키니어 | 위키 백과 | CC BY-SA-NC 4.0 | Tedeschi et al., 2021 | https://github.com/babelscape/wikineural |
| multinerd | 위키 백과 | CC BY-SA-NC 4.0 | Tedeschi et al., 2022 | https://github.com/babelscape/multinerd |
| HIPE-2022 | 역사적인 | CC BY-SA-NC 4.0 | Ehrmann et al., 2022 | https://github.com/hipe-eval/hipe-2022-adata |
| 음악가 | 음악 | MIT | Epure and Hennequin, 2023 | https://github.com/deezer/music-ner-neccl2023 |
| WIESP2022-NER | 천체 물리학 | CC BY-SA-NC 4.0 | Grezes et al., 2022 | https://huggingface.co/datasets/adsabs/wiesp2022-ner |
| nne | 소식 | CC 4.0 / LDC | Ringland et al., 2019 | https://github.com/nickyringland/nested_named_entities |
| 세계적인 | 소식 | CC BY-SA-NC 4.0 | Shan et al., 2023 | https://github.com/stanfordnlp/en-worldwide-newswire https://arxiv.org/abs/2404.13465 |
라이센스
라이센스에 대한 메모 :
(1) RE3D ( "관계 및 엔티티 추출 평가 데이터 세트")에는 라이센스가 다른 여러 데이터 세트가 포함되어 있습니다. 이들은 다음과 같습니다.
- CC-By-SA 3.0 (Wikipedia DataSet)
- CC By-NC 3.0 (BBC_ONLINE DATASET)
- CC By 3.0 AU (Australian_Department_of_foreign_affairs 데이터 세트)
- 공개 도메인 (US_STATE_DEPARTMENT DATASET, CENTCOM DATASET)
- 영국 오픈 정부 라이센스 v3.0 (UK_Government DataSet)
- delegation_of_the_european_union_to_syria : https://eeas.europa.eu/delegations/syria/8157/legal-notice_en을 참조하십시오
- Gum 3.1.0은 라이센스 CC-By 3.0, CC-By-SA 3.0 및 CC-By-NC-SA 3.0을 갖춘 3 개의 데이터 세트로 구성됩니다. 주석은 CC-By 4.0에 따라 라이센스가 부여됩니다.
각 데이터 세트에 대한보다 자세한 라이센스 정보는 해당 하위 디렉토리에서 찾을 수 있습니다.
나중에 ... - Tabassum et al., Code and Code 및 Stackoverflow에서 지명 된 엔티티 인식 https://cocoxu.github.io/publications/acl2020_stackoverflow_ner.pdf- litbank : https://github.com/dbamman/litbank (Bamman, Popat 및 Shen) -NNE : 영어 뉴스 와이어에서 중첩 명명 된 엔티티 인식을위한 데이터 세트, 2019 https://github.com/nickyringland/nested_named_entities -mars target vistricclopedia -lpsc Abstracts 라벨링 된 데이터 세트 : https://zenodo.org/record/1048419# https://www.kaggle.com/dataturks/best-buy-ecommerce-ner-dataset/home-ner에 대한 엔티티 이력서 엔티티 : https://www.kaggle.com/dataturks/resume-entities-for-ner/home-led-rnerd : Enter Enterity 데이터 세트로 지명되었습니다. https://aclanthology.org/2021.acl-long.248/
다른 언어로 된 NER에 대한 데이터 세트
어휘 명명 된 엔티티 리소스
- Heiner : http://heiner.cl.uni-heidelberg.de/index.shtml
- Neckar : https://event.ifi.uni-heidelberg.de/?page_id=532#wikidata_ne_dataset
코드 전환
- English-Spanish Tweets (Calcs 2018) : https://code-switching.github.io/2018/; https://code-switching.github.io/2018/files/spa-eng/release.zip; http://www.aclweb.org/anthology/w18-3219
- 아랍어-egyptian 트윗 (Calcs 2018) : https://code-switching.github.io/2018/; https://code-switching.github.io/2018/files/msa-egy/arabictweetstokenassigner.zip; http://www.aclweb.org/anthology/w18-3219
- Hindi-English 소셜 미디어 텍스트 : https://github.com/silentflame/named-entity-recognition; http://aclweb.org/anthology/w18-2405
- EMNLP 2014 공유 작업-코드 스위치 트윗 (네팔어 영어, 스페인어-영어, 만다린-영어, 아랍어-아라비아 방언) : http://emnlp2014.org/workshops/codeswitch/call.html
독일 사람
- Conll 2003 (영어, 독일어) : https://www.clips.uantwerpen.be/conll2003/ner/
- Germeval 2014 : https://sites.google.com/site/germeval2014ner/data
- 독일어 (Tüba-D/Z)의 Tübingen TreeBank : http://www.sfs.uni-tuebingen.de/en/ascl/resources/corpora/tueba-dz.html
- 유럽 신문 (네덜란드, 프랑스어, 독일) : https://github.com/europeananewspapers/ner-corpora; http://lab.kb.nl/dataset/europeana-newspapers-ner#access
- 독일 유로 펀 스크립트 (서브 세트) : https://nlpado.de/~sebastian/software/ner_german.shtml
- 독일어, 정치 (NEMGP)의 명명 된 엔티티 모델 : https://www.thomas-zastrow.de/nlp/
- Wikiner : https://figshare.com/articles/learning_multingual_named_entity_recognition_from_wikipedia/5462500
- Wikineural : https://github.com/babelscape/wikineural
- multinerd : https://github.com/babelscape/multinerd
- DFKI SmartData Corpus (Geo-Entities) : https://dfki-lt-reproup.bitbucket.io/smartdata-corpus/ (트래픽 및 산업 이벤트의 세분화 된 엔티티 인식 및 관계 추출을위한 독일 코퍼스. LREC의 LEONHARD HENNIG, 2018)
- DBPEDIA Abstract Corpus (영어, 독일어, 네덜란드, 프랑스어, 이탈리아어, 일본어) : http://downloads.dbpedia.org/2015-04/ext/nlp/abstracts/
- DAWT DATASET- 여러 언어 (영어, 스페인어, 프랑스어, 이탈리아, 독일어, 아랍어)에 걸친 밀도가 높아진 위키 백과 텍스트 : https://github.com/klout/opendata/tree/master/wiki_annotation
- Elena Leitner, Georg Rehm, Juli ́ an Moreno-Schneider, LREC 2020 : http://georg-re.hm/pdf/lrec-2020-leitner-et-al-preprint.pdf; 데이터 : https://github.com/elenanereiss/legal-entity-recognition
- Hipe-2022, 다국어 역사 문서에서 엔티티 인식 및 엔티티 링크로 지명 : https://hipe-eval.github.io/hipe-2022/ https://github.com/hipe-eval/hipe-2022-Data
네덜란드 사람
- Conll 2002 (스페인어, 네덜란드어) : https://www.clips.uantwerpen.be/conll2002/ner/
- 유럽 신문 (네덜란드, 프랑스어, 독일) : https://github.com/europeananewspapers/ner-corpora; http://lab.kb.nl/dataset/europeana-newspapers-ner#access
- 한편 코퍼스 (평행 코퍼스 : 영어, 스페인어, 이탈리아어, 네덜란드어) : http://www.newsreader-project.eu/results/data/wikinews/
- Wikiner : https://figshare.com/articles/learning_multingual_named_entity_recognition_from_wikipedia/5462500
- Wikineural : https://github.com/babelscape/wikineural
- multinerd : https://github.com/babelscape/multinerd
- DBPEDIA Abstract Corpus (영어, 독일어, 네덜란드, 프랑스어, 이탈리아어, 일본어) : http://downloads.dbpedia.org/2015-04/ext/nlp/abstracts/
- 네덜란드 의회 문서 2015-2016, 1848.NL (Jonkers, 2016 년 암스테르담 대학교 개구리, 논문을 사용하여 네덜란드 의회 문서에 대한 법인 인정) : https://github.com/poezedoez/ner/blob/master/code/data/golbby/golden_standard
- SONAR 1- Desmet and Hoste, 세분화 된 네덜란드어 명명 된 Entity Recognition, 2014 (계층 구조)
- Corpus-Sonar Books와 Corpus Gutenberg Dutch : http://blog.namescape.nl/?page_id=85; http://portal.clarin.nl/node/1940
아프리카 어
- NCHLT Afrikaans는 Entity Annotated Corpus : https://repo.sadilar.org/handle/20.500.12185/299로 지명되었습니다
스페인 사람
- Conll 2002 (스페인어, 네덜란드어) : https://www.clips.uantwerpen.be/conll2002/ner/
- Ancora (스페인어, 카탈로니아어) : http://clic.ub.edu/corpus/en
- Deft Spanish TreeBank (LDC2018T01) : https://catalog.ldc.upenn.edu/ldc2018t01
- Panacea (Lab) : http://panacea-lr.eu/en/info-for-researchers/data-esets/dependency-parsed-corpora/dependency-lab-es
- Panacea (ENV) : http://panacea-lr.eu/en/info-for-researchers/data-esets/dependency-parsed-corpora/dependency-env-es
- 한편 코퍼스 (평행 코퍼스 : 영어, 스페인어, 이탈리아어, 네덜란드어) : http://www.newsreader-project.eu/results/data/wikinews/
- Ace 2007 (스페인어 및 아랍어) : https://catalog.ldc.upenn.edu/ldc2014t18
- Wikiner : https://figshare.com/articles/learning_multingual_named_entity_recognition_from_wikipedia/5462500
- Wikineural : https://github.com/babelscape/wikineural
- multinerd : https://github.com/babelscape/multinerd
- http://www.grupolys.org/~marcos/pub/lrec16.tar.bz2 ( "문서 수준에서 명명 된 엔티티 인식을위한"Loxico-semantic 휴리스틱을 코어 컨퍼런스 해상도에 통합 "에 사용됨)
- 개인 단체의 핵심 주석이있는 다국어 코퍼레이
- Drugsemantics Gold Standard (Moreno et al., Drugsemantics : 제품 특성의 스페인어 요약에서 명명 된 엔티티 인식을위한 코퍼스) : https://data.mendeley.com/datasets/fwc7jrc5jr/1
- DBPEDIA Abstract Corpus (영어, 독일어, 네덜란드, 프랑스어, 이탈리아어, 일본어) : http://downloads.dbpedia.org/2015-04/ext/nlp/abstracts/
- DAWT DATASET- 여러 언어 (영어, 스페인어, 프랑스어, 이탈리아, 독일어, 아랍어)에 걸친 밀도가 높아진 위키 백과 텍스트 : https://github.com/klout/opendata/tree/master/wiki_annotation
- Cantemist (Cancer Text Mining 공유 작업 - 종양이라는 종양이라는 종양) - 암과 관련된 중요한 개념의 개념, 즉 스페인 의료 텍스트에서 종양 형태의 명명 : https://temu.bsc.es/cantemist/
카탈로니아 사람
- Ancora (스페인어, 카탈로니아어) : http://clic.ub.edu/corpus/en
갈리시아어
- 갈리시아어 코퍼스 : https://gramatica.usc.es/~marcos/resources/corpus_gal_nec.txt.gz
- 개인 단체의 핵심 주석이있는 다국어 코퍼레이
바스크 사람
- Basque 이름은 EIC (Entities Corpus) : http://ixa.eus/node/4486?language=en
- Basque Disambiguated 지명 된 엔티티 코퍼스 (ediec) : http://ixa.si.ehu.es/node/4485?language=en
- http://qtleap.eu/wp-content/uploads/2014/04/qtleap-2013-d5.1.pdf에 언급 된 Egunkaria 2000 Corpus (383 Newswire Texts)
포르투갈 인
- 하렘 : https://www.linguateca.pt/aval_conjunta/harem/harem_ing.html
- Cintil Corpus : http://cintil.ul.pt/cintilfeatures.html#corpus
- Wikiner : https://figshare.com/articles/learning_multingual_named_entity_recognition_from_wikipedia/5462500
- Wikineural : https://github.com/babelscape/wikineural
- multinerd : https://github.com/babelscape/multinerd
- 개인 단체의 핵심 주석이있는 다국어 코퍼레이
- Bosque 8.0 Eagles 형식 : https://gramatica.usc.es/~marcos/resources/corpora_flpt.tgz
- Lener-Br (브라질 법률 문서) : https://cic.unb.br/~teodecampos/lener-br/
- Paramopama : 지명 된 엔티티 인정을위한 브라질-포르투갈 코퍼스
프랑스 국민
- 에스테르 : http://catalogue.elra.info/en-us/repository/browse/elra-s0241/
- 에스테르 2 : http://catalogue.elra.info/en-us/repository/browse/elra-s0338/
- Etape : http://catalogue.elra.info/en-us/repository/browse/elra-e0046/
- 유럽 신문 (네덜란드, 프랑스어, 독일) : https://github.com/europeananewspapers/ner-corpora; http://lab.kb.nl/dataset/europeana-newspapers-ner#access
- Quaero French Medical Corpus : https://quaerofrenchmed.limsi.fr/
- Quaero Broadcast News 확장 된 Entity Corpus : http://catalog.elra.info/en-us/repository/browse/elra-s0349/
- Quaero Old Press Extended Entity Corpus : http://catalog.elra.info/en-us/repository/browse/elra-w0073/
- Wikiner : https://figshare.com/articles/learning_multingual_named_entity_recognition_from_wikipedia/5462500
- wikiner-fr-gold https://arxiv.org/abs/2411.00030 https://huggingface.co/datasets/danrun/wikiner-fr-gold
- Wikineural : https://github.com/babelscape/wikineural
- multinerd : https://github.com/babelscape/multinerd
- DBPEDIA Abstract Corpus (영어, 독일어, 네덜란드, 프랑스어, 이탈리아어, 일본어) : http://downloads.dbpedia.org/2015-04/ext/nlp/abstracts/
- DAWT DATASET- 여러 언어 (영어, 스페인어, 프랑스어, 이탈리아, 독일어, 아랍어)에 걸친 밀도가 높아진 위키 백과 텍스트 : https://github.com/klout/opendata/tree/master/wiki_annotation
- Cap 2017- (Twitter Data), Lopez et al., Cap 2017 Challenge : Twitter 명명 Entity Recognition, 2017 : http://cap2017.imag.fr/competition.html
- Hipe-2022, 다국어 역사 문서에서 엔티티 인식 및 엔티티 링크로 지명 : https://hipe-eval.github.io/hipe-2022/ https://github.com/hipe-eval/hipe-2022-Data
이탈리아 사람
- 종류 : https://github.com/dhfbk/kind
- 평가 : http://www.evalita.it/2009/tasks/entity
- 한편 코퍼스 (평행 코퍼스 : 영어, 스페인어, 이탈리아어, 네덜란드어) : http://www.newsreader-project.eu/results/data/wikinews/
- Panacea (ENV) : http://panacea-lr.eu/en/info-for-researchers/data-esets/dependency-parsed-corpora/dependency-env-it
- Panacea (Lab) : http://panacea-lr.eu/en/info-for-researchers/data-esets/dependency-parsed-corpora/dependency-lab-it
- Wikiner : https://figshare.com/articles/learning_multingual_named_entity_recognition_from_wikipedia/5462500
- Wikineural : https://github.com/babelscape/wikineural
- multinerd : https://github.com/babelscape/multinerd
- DBPEDIA Abstract Corpus (영어, 독일어, 네덜란드, 프랑스어, 이탈리아어, 일본어) : http://downloads.dbpedia.org/2015-04/ext/nlp/abstracts/
- DAWT DATASET- 여러 언어 (영어, 스페인어, 프랑스어, 이탈리아, 독일어, 아랍어)에 걸친 밀도가 높아진 위키 백과 텍스트 : https://github.com/klout/opendata/tree/master/wiki_annotation
루마니아 사람
- RONEC (Dumitrescu와 Avram, Ronec -Romanian이 Entity Corpus. LREC 2020 소개). 종이 : https://arxiv.org/pdf/1909.01247.pdf 데이터 : https://github.com/dumitrescustefan/ronec
- 루마니아 저널리즘 코퍼스 (ROCO) : http://metashare.elda.org/repository/browse/romanian-journalistic-corpus--roco/038ba80dc7311e5a0b00237df3e3583781d7c0f2084057aa018a2d633d9999.
- 루마니아 균형 코퍼스 (Rombac) : http://metashare.elda.org/repository/browse/romanian-balanced-balanced-balanced-ballanced-corpus-rombac/0a7dddc7311e5a0b00237df3e35873a0d662435dddddddddd94fba48c29dc0065/
그리스 사람
- Panacea (ENV) : http://panacea-lr.eu/en/info-for-researchers/data-esets/dependency-parsed-corpora/dependency-env-el
- Panacea (Lab) : http://panacea-lr.eu/en/info-for-researchers/data-esets/dependency-parsed-corpora/dependency-lab-el
헝가리 인
- 헝가리 인 Entity Corpora : http://rgai.inf.u-szeged.hu/index.php?lang=en&page=corpus_ne
- Hunnerwiki : http://hlt.sztaki.hu/resources/hunnerwiki.html
- nytk : https://github.com/nytud/nytk-nerkor
체코 사람
- 체코의 이름은 Entity Corpus : http://ufal.mff.cuni.cz/cnec
- BSNLP 2017 (크로아티아, 체코, 폴란드어, 러시아어, 슬로바키아, 슬로베니아, 우크라이나) : http://bsnlp-2017.cs.helsinki.fi/shared_task_results.html
- CZENG 1.0 (병렬 코퍼스 : 체코-영어) : http://ufal.mff.cuni.cz/czeng/czeng10
- Pero OCR NER (체코 역사 OCR 연대기) : https://github.com/roman-janik/poner https://dspace.vut.cz/items/6092e1b0-3d75-4451-852-28573AC30404
광택
- 폴란드 SEJM 코퍼스 : http://clip.ipipan.waw.pl/psc
- BSNLP 2017 (크로아티아, 체코, 폴란드어, 러시아어, 슬로바키아, 슬로베니아, 우크라이나) : http://bsnlp-2017.cs.helsinki.fi/shared_task_results.html
- 폴란드어 코퍼스 : http://zil.ipipan.waw.pl/polishcoreferencecorpus
- Wikiner : https://figshare.com/articles/learning_multingual_named_entity_recognition_from_wikipedia/5462500
- Wikineural : https://github.com/babelscape/wikineural
- multinerd : https://github.com/babelscape/multinerd
- 경제 뉴스 코퍼스 (Cen Corpus) : http://www.nlp.pwr.wroc.pl/narzedzia--zasoby/zasoby/cen
- KPWR (Korpus języka polskiego politechniki Wrocławskiej/Wrocław University of Technology의 폴란드 코퍼스) : http://plwordnet.pwr.wroc.pl/index.php?option=com_content&view=article&id=35&lang=plp; http://plwordnet.pwr.wroc.pl/attachments/article/35/kpwr-1.1.7z (Broda et al., Kpwr : 폴란드어의 무료 코퍼스, 2012)
- nkjp : http://clip.ipipan.waw.pl/nationalcorpusofpolish?action=attachfile&daview&target=nkjp-podkorpusmilionowy-1.tar.gz
크로아티아
- HR500K 1.0 : http://hdl.handle.net/11356/1183
- BSNLP 2017 (크로아티아, 체코, 폴란드어, 러시아어, 슬로바키아, 슬로베니아, 우크라이나) : http://bsnlp-2017.cs.helsinki.fi/shared_task_results.html
- Reldi-normtagner-hr (크로아티아 트윗) : http://hdl.handle.net/11356/1170
슬로바키아 사람
- BSNLP 2017 (크로아티아, 체코, 폴란드어, 러시아어, 슬로바키아, 슬로베니아, 우크라이나) : http://bsnlp-2017.cs.helsinki.fi/shared_task_results.html
- 슬로바키아는 뉴스 코퍼스를 분류합니다. https://nlp.web.tuke.sk/pages/categorizednews
슬로베니아
- BSNLP 2017 (크로아티아, 체코, 폴란드어, 러시아어, 슬로바키아, 슬로베니아, 우크라이나) : http://bsnlp-2017.cs.helsinki.fi/shared_task_results.html
- SSJ500K : http://www.slovenscina.eu/tehnologije/ucni-korpus; http://eng.slovenscina.eu/tehnologije/ucni-korpus; https://www.clarin.si/repository/xmlui/handle/11356/1029; 참고 : v 2.2의 경우 http://hdl.handle.net/11356/1210을 참조하십시오
- 슬로베니아 뉴스 : http://zitnik.si/mediawiki/index.php?title=datasets#slovene_news; http://zitnik.si/mediawiki/images/7/7d/rtvslo_dec2011.tsv; http://zitnik.si/mediawiki/images/5/5e/rtvslo_dec2011_v2.tsv
- Janes-Tag 2.0 (소셜 미디어 텍스트) https://www.clarin.si/repository/xmlui/handle/11356/1123; 참조 : Fišer et al., The Janes Project : Slovene 사용자 생성 컨텐츠를위한 언어 리소스 및 도구, 2018.
우크라이나 말
- BSNLP 2017 (크로아티아, 체코, 폴란드어, 러시아어, 슬로바키아, 슬로베니아, 우크라이나) : http://bsnlp-2017.cs.helsinki.fi/shared_task_results.html
- 우크라이나 브라운 네르 코퍼스 : https://github.com/lang-uk/ner-uk; http://lang.org.ua/en/corpora/
세르비아 사람
- setimes.sr -http://hdl.handle.net/11356/1200
- 세르비아어에 대한 엔티티 평가 코퍼스 : http://www.korpus.matf.bg.ac.rs/srpneval/
- Reldi-normtagner-Sr (세르비아 트윗) : http://hdl.handle.net/11356/1171
불가리아 사람
아이슬란드
- Mim-Gold-Ner (Ingólfsdóttir, Svanhvít Lilja, Sigurjón Þorsteinsson 및 Hrafn Loftsson. http://www.malfong.is/index.php?pg=mim_gold_ner
덴마크 말
- Dane : Hvingelby et al., [Dane : 덴마크어의 명명 된 엔티티 리소스.]
- Danish Propbank (DPB) : http://catalog.elra.info/en-us/repository/browse/elra-w0117/
- 수목원 나무 뱅크 : http://catalog.elra.info/en-us/repository/browse/elra-w0084/
노르웨이 인
- Bjarte Johansen, 노르웨이 인을위한 엔티티 인정, 22 번째 북유럽 회의에서 계산 언어학에 관한 절차. 2019 (https://www.aclweb.org/anthology/w19-6123.pdf) 데이터 : https://github.com/ljos/navnkjenner
- Fredrik Jørgensen et al., Norne : Norwegian의 이름이 지정된 엔티티, 2019 (https://arxiv.org/pdf/1911.12146.pdf). 데이터 : https://github.com/ltgoslo/norne/; https://www.nb.no/sprakbanken/show?serial=oai%3anb.no%3asbr-49
스웨덴어
- 스톡홀름 인터넷 코퍼스 : https://www.ling.su.se/english/nlp/corpora-and-resources/sic
- Suc 3.0 : https://spraakbanken.gu.se/eng/resource/suc3
- 스웨덴어 수동으로 주석이 달린 ner : https://github.com/klintan/swedish-ner-corpus/
- Medical Wikipedia Data (Almgren et al., 캐릭터 기반 심도 양방향 LSTMS를 가진 스웨덴 건강 기록에서 Entity Recordition, 2016) : https://github.com/olofmogren/biomedical-ner-data-swedish
- Hipe-2022, 다국어 역사 문서에서 엔티티 인식 및 엔티티 링크로 지명 : https://hipe-eval.github.io/hipe-2022/ https://github.com/hipe-eval/hipe-2022-Data
핀란드
- Finnish의 데이터 세트는 Entity Recoginition : https://github.com/mpsilfve/finer-data
- Turku Ner Corpus : https://github.com/turkunlp/turku-ner-corpus
- Hipe-2022, 다국어 역사 문서에서 엔티티 인식 및 엔티티 링크로 지명 : https://hipe-eval.github.io/hipe-2022/ https://github.com/hipe-eval/hipe-2022-Data
에스토니아 사람
- 에스토니아어 코퍼스 : https://metashare.ut.ee/repository/browse/estonian-ner-corpus/88d030c0acde11e2a6e40056b40024f1def472ed254e77a8952e1003d9f81e/
라트비아와 리투아니아 인
- https://github.com/accurat-toolkit/tildener/tree/mas
- LV Tagger의 교육 데이터 : https://github.com/peterisp/lvtagger/tree/master/nertrainingdata
터키
- K̈Ucuk and Can, 이름이 지정된 엔티티 인식 및 자세 감지에 주석이 달린 트윗 데이터 세트 : https://github.com/dkucuk/tweet-dataset-ner-sd
- Turkish Tweets에서 Entity Recognition의 명명 : http://optima.jrc.it/resources/2014_jrc_twitter_tr_ner-dataset.zip
- 영어/터키 Wikipedia 명명 된-엔티티 인식 및 텍스트 분류 데이터 세트 (http://arxiv.org/abs/1702.02363) : https://data.mendeley.com/datasets/cdcztymf4k/1
- Çoban et al, fbner에 대한 엔티티 인식 : 터키의 새로운 Facebook 데이터 세트 : https://ieeexplore.ieee.org/9598971 요청시 연구 목적으로 사용할 수있는 데이터
카자흐
- Kaznerd : https://arxiv.org/pdf/2111.13419.pdf, https://github.com/is2ai/kaznerd
uyghur
- Uyghur라는 이름의 Entity Relation Corpus : https://github.com/kaharjan/uynerel (Abiderexiti et al., Entity Relation Corpus라는 Uyghur를 구성하기위한 주석 체계).
아르메니아 사람
- 개척자 (Gold-Standard 및 Silver-Standard 데이터 세트) : https://github.com/ispras-texterra/pioner (Ghukasyan et al., Pioner : Armenian의 데이터 세트 및 기준 인 Entity Recognition, 2018)
- armtdp-ner : https://github.com/myavrum/armtdp-ner
콥트 말
- Coptic Universal Dependency TreeBank : https://github.com/universaldependencies/ud_coptic-scriptorium/tree/dev (https://copticscriptorium.org/treebank.html 참조). 여기에는 Sahidic Coptic Texts의 46,000 개의 중첩 (비) 지명 및 와이키 화 된 엔티티가 포함되어 있습니다.
암하라
- 코퍼스 (코퍼스) ( "딥 러닝을 사용한 Amharic에 대한 이름 지정된 엔티티 인식"참조) : https://github.com/geezorg/data/tree/master/amharic/tagged/nmsu-say; http://data.geez.org/
아라비아 말
- Aqmar Arabic Wikipedia는 Entity Corpus : http://www.cs.cmu.edu/~ark/arabicner/
- NE3L은 Entities Arabic Corpus (아랍어, 중국어, 러시아어) : http://catalog.elra.info/en-us/repository/browse/elra-w0078/
- 반사체 번역 (병렬 코퍼스 : 영어, 아랍어, 중국어) : https://catalog.ldc.upenn.edu/ldc2009t11
- Anercorp : http://users.dsic.upv.es/~ybenajiba/downloads.html (http://alias-i.com/lingpipe/demos/tutorial/ne/read-me.html 참조)
- ACE 2003 (영어, 중국어, 아랍어) : https://catalog.ldc.upenn.edu/ldc2004t09
- Ace 2004 (영어, 중국어, 아랍어) : https://catalog.ldc.upenn.edu/ldc2005t09
- Ace 2005 (영어, 중국어, 아랍어) : https://catalog.ldc.upenn.edu/ldc2006t06
- Ace 2007 (스페인어 및 아랍어) : https://catalog.ldc.upenn.edu/ldc2014t18
- Ontonotes 5 (영어, 아랍어, 중국어) : https://catalog.ldc.upenn.edu/ldc2013t19
- DAWT DATASET- 여러 언어 (영어, 스페인어, 프랑스어, 이탈리아, 독일어, 아랍어)에 걸친 밀도가 높아진 위키 백과 텍스트 : https://github.com/klout/opendata/tree/master/wiki_annotation
- Wojood -2022 중첩 아랍어라는 이름의 Entity Corpus. https://dlnlp.ai/st/wojood/ https://aclanthology.org/2022.lrec-1.387.pdf https://codalab.lisn.upsaclay.fr/competitions/11740
페르시아 인
- ArmanpersonerCorpus : http://islrn.org/resources/399-379-640-828-6/; https://github.com/haniehp/persianner
신디
- Siner : https://aclanthology.org/2020.lrec-1.361/, https://github.com/aliwazir/siner-dataset
우르두어
- ijcnlp 2008 sseal : http://ltrc.iiit.ac.in/ner-ssea-08/index.cgi?topic=5
- UNER DATASET (Khan et al., Urdu의 Entity DataSet이라는 이름의 Entity Recognition Task, 2016). http://www.iiu.edu.pk/?page_id=5181에서 제공됩니다
- mk-pucit : https://www.dropbox.com/sh/1ivw7ykm2tugg94/aab9t5wnn7fynespo7tjjw8la; 참조 : Kanwal et al., Urdu는 Entity Recognition : Corpus Generation and Deep Learning Applications, 2019
indic
- NAAMAPADAM : 두 언어 패밀리의 11 개의 주요 인도 언어에 대한 명명 된 Entity Recognition (NER) 데이터 세트. https://research.ibm.com/publications/naamapadam-a-large-named-annotated-data-for-indic-languages https://ai4bharat.iitm.ac.in/naamapadam
힌디 어
- Hiner : https://github.com/cfiltnlp/hiner
- 힌디어 건강 데이터 세트 : https://www.kaggle.com/aijain/hindi-health-dataset/home
- Fire 2015, ESM-IL (English, Hindi, Tamil, Malayalam) : http://au-kbc.org/nlp/esm-fire2015/#traincorpus
- Fire Ner 2013 (영어, 힌디어, 타밀어, 말라 얄 람어, 벵골어) : http://au-kbc.org/nlp/nlp/ner-fire2013/
- ijcnlp 2008 sseal : http://ltrc.iiit.ac.in/ner-ssea-08/index.cgi?topic=5
벵골 사람
- Fire Ner 2013 (영어, 힌디어, 타밀어, 말라 얄 람어, 벵골어) : http://au-kbc.org/nlp/nlp/ner-fire2013/
- ijcnlp 2008 sseal : http://ltrc.iiit.ac.in/ner-ssea-08/index.cgi?topic=5
- 벵골어 : https://github.com/rifat1493/bengali-ner, https://ieeexplore.ieee.org/document/8944804
- ner-bangla : https://github.com/misabic/ner-bangla-dataset, https://content.iospress.com/articles/journal-of-intelligent-and-puzzy-systems/ifs179349
텔루구 어
- ner_telugu : https://github.com/anikethjr/ner_telugu
- ijcnlp 2008 sseal : http://ltrc.iiit.ac.in/ner-ssea-08/index.cgi?topic=5
- 텔루구 어의 Entity Annotated Corpora : http://www.tdil-dc.in/index.php?option=com_download&task=showresourcedetails&toolid=982&lang=en
Maithili
- Maithili에서 첫 번째 명명 된 엔티티 인식기 : 자원 생성 및 시스템 개발 : https://content.iospress.com/articles/journal-of-intelligent-and-fuzzy-systems/ifs210051
네팔
- Everestner : https://journals.flvc.org/flairs/article/view/130725, https://github.com/nowalab/everest-ner
마라 티
- 마라 타어에 대한 엔티티 주석이 달린 Corpora : http://www.tdil-dc.in/index.php?option=com_download&task=showresourcedetails&toolid=979&lang=en
- l3cube mahaner : https://arxiv.org/abs/2204.06029 https://github.com/l3cube-pune/marathinlp
펀 자브
- 펀 자브의 Entity Annotated Corpora : http://www.tdil-dc.in/index.php?option=com_download&task=showresourcedetails&toolid=980&lang=en
타밀 사람
- Fire 2015, ESM-IL (English, Hindi, Tamil, Malayalam) : http://au-kbc.org/nlp/esm-fire2015/#traincorpus
- Fire Ner 2013 (영어, 힌디어, 타밀어, 말라 얄 람어, 벵골어) : http://au-kbc.org/nlp/nlp/ner-fire2013/
말라 얄 람어
- Fire 2015, ESM-IL (English, Hindi, Tamil, Malayalam) : http://au-kbc.org/nlp/esm-fire2015/#traincorpus
- Fire Ner 2013 (영어, 힌디어, 타밀어, 말라 얄 람어, 벵골어) : http://au-kbc.org/nlp/nlp/ner-fire2013/
오리 야/오디 아
- ijcnlp 2008 sseal : http://ltrc.iiit.ac.in/ner-ssea-08/index.cgi?topic=5
신 할라/신 할라 어
태국
- Thai-named-entity-recenition-data : https://github.com/pythainlp/thai-named-entity-recognition-data
- 태국어 이름은 Entity Corpora : http://pioneer.chula.ac.th/~awirote/resources/corpora--data.html; http://pioneer.chula.ac.th/~awirote/data-nutcha.zip; http://pioneer.chula.ac.th/~awirote/data-sasiwimon.zip; http://pioneer.chula.ac.th/~awirote/data-nattadaporn.zip
- lst20 : https://huggingface.co/datasets/lst20; https://arxiv.org/abs/2008.05055
- Thai-nner : https://github.com/vistec-ai/thai-nner, https://aclanthology.org/2022.findings-acl.116
인도네시아 인
- 동일성 : http://metashare.elda.org/repository/browse/identic/fed3fada7ef111e5aa3b001dd8b71c6c98eeeeeee36eabd42f18ffd9a95da9104cc/
- https://github.com/yohanesgultom/nlp-experiments/tree/master/data/ner
- 인도네시아 : Syaifudin & Nurwidyantoro https://ieeexplore.ieee.org/document/7828656 https://github.com/yusufsyaifudin/indonesia-ner
- Idner-News-2K : 명명 된 엔티티 인식 작업을위한 인도네시아 뉴스의 데이터 세트. syaifudin & nurwidyantoro의 재확인 https://dl.acm.org/doi/10.1145/3592854#fn8 https://github.com/khairunnisaor/idner-news-2k/
- Nerp and Ner-Grit : Indonlp/Indonlp/Indonlu https://github.com/indonlp/indonlu/tree/master/dataset https://aclanthology.org/2020.aacl-main.85/
베트남 사람
- VLSP 2016 : http://vlsp.org.vn/resources-vlsp2016; https://github.com/undertheseanlp/ner
- VLSP 2018 : http://vlsp.org.vn/resources-vlsp2018; https://github.com/undertheseanlp/ner
- phoner_covid19 : https://github.com/vinairesearch/phoner_covid19
일본어
- IREX : https://nlp.cs.nyu.edu/irex/package/
- Met-2 (일본어, 중국어) : https://www-nlpir.nist.gov/related_projects/muc/
- BCCWJ BASIC NE CORPUS : https://sites.google.com/site/projectnextnlpne/en (Iwakura et al.
- DBPEDIA Abstract Corpus (영어, 독일어, 네덜란드, 프랑스어, 이탈리아어, 일본어) : http://downloads.dbpedia.org/2015-04/ext/nlp/abstracts/
- 데이터 : Mai et al., 세밀한 이름 지명 된 Entity Recognition, Coling 2018 (영어, 일본어)에 대한 경험적 연구 : https://fgner.alt.ai/duc/ene/testsets/comp/
- Wikipedia ner corpus : https://github.com/stockmarkteam/ner-wikipedia-dataset
- Wikiann : https://elisa-ie.github.io/wikiann/
- GSD : UD GSD 데이터 세트를 Megagon Labs의 명명 된 엔티티로 변환 https://github.com/megagonlabs/ud_japanese-gsd
- KWDLC : KYOTO University 웹 문서 리드 코퍼스 https://nlp.ist.i.kyoto-u.ac.jp/in/index.php?kwdlc https://github.com/ku-nlp/kwdlc https://nagisa.readthedocs.on/lateRountest.hte.
한국인
- 국립 한국어 연구소 (ROK) -Ner Corpus : https://github.com/digitalprk/koreaner; https://ithub.korean.go.kr/user/total/referenceview.do?boardseq=5&articleseq=118&boardgb=t&isinsupd&boardtype=corpus
- kmou ner -https://github.com/kmounlp/ner
- 한국어 이해 평가 -Klue Ner -https://klue-benchmark.com/tasks/69/overview/description
- https://github.com/songys/entity
- HLCT 2016 코퍼스, 업데이트가 포함 된 -https://github.com/machinereading/koreannercorpus
중국인
- ACE 2003 (영어, 중국어, 아랍어) : https://catalog.ldc.upenn.edu/ldc2004t09
- Ace 2004 (영어, 중국어, 아랍어) : https://catalog.ldc.upenn.edu/ldc2005t09
- Ace 2005 (영어, 중국어, 아랍어) : https://catalog.ldc.upenn.edu/ldc2006t06
- Ontonotes 5 (영어, 아랍어, 중국어) : https://catalog.ldc.upenn.edu/ldc2013t19
- Met-2 (일본어, 중국어) : https://www-nlpir.nist.gov/related_projects/muc/
- 반사체 번역 (병렬 코퍼스 : 영어, 아랍어, 중국어) : https://catalog.ldc.upenn.edu/ldc2009t11
- NE3L은 Entities Chinese Corpus (아랍어, 중국어, 러시아어) : http://catalogue.elra.info/en-us/repository/browse/elra-w0079/
- 원래의 단락 데이터 콜라이트 I 중국어 (Entities) : http://catalog.elra.info/en-us/repository/browse/elra-w0045_04/
- 중국어의 원래 단편 메이지 데이터 Collation II (Entities) : http://catalog.elra.info/en-us/repository/browse/elra-w0045_08/
- ERE DEFT CORPORA (평행 코퍼스 : 영어, 중국어) : Mott et al., 병렬 중국어-영어 단체, 관계 및 이벤트 Corpora, 2016 (LDC2015E78, LDC2014E114)
- 중국 Weibo : 중국 소셜 미디어 (Weibo)에 대한 명명 및 명목상 언급에 대한 스타일의 주석 : https://github.com/hltcoe/golden-horse
- 중국 EDUNER : 교육 영역의 2023 데이터 세트 : https://link.springer.com/article/10.1007/s00521-023-08635-5 https://github.com/anonymous-xl/eduner
- 중국 항공 우주 NER : https://www.nature.com/articles/s41598-023-50705-0 https://github.com/coder-xiaokai/aerospace_nerdatasets
- SciCN: A Chinese Dataset and Benchmark for Scientific Information Extraction https://file.techscience.com/files/cmc/2024/TSP_CMC-78-3/TSP_CMC_35594/TSP_CMC_35594.pdf https://github.com/yangjingla/SciCN
- EMP NER: Historical Chinese https://aclanthology.org/2024.lrec-main.35.pdf https://gitlab.com/enpchina/ENP-NER
Tagalog
- TLUnifed: https://arxiv.org/abs/2311.07161 https://huggingface.co/datasets/ljvmiranda921/tlunified-ner
러시아인
- BSNLP 2017 (Croatian, Czech, Polish, Russian, Slovak, Slovene, Ukrainian): http://bsnlp-2017.cs.helsinki.fi/shared_task_results.html
- NE3L named entities Russian corpus (Arabic, Chinese, Russian): https://catalog.elra.info/en-us/repository/browse/ELRA-W0080/
- WikiNER: https://figshare.com/articles/Learning_multilingual_named_entity_recognition_from_Wikipedia/5462500
- WikiNEuRal: https://github.com/Babelscape/wikineural
- MultiNERD: https://github.com/Babelscape/multinerd
- factRuEval-2016: https://github.com/dialogue-evaluation/factRuEval-2016
- RuREBus 2020 (Russian Relation Extraction for Business) corpus https://github.com/dialogue-evaluation/RuREBus
Yoruba
- GV-Yorùbá-NER. Data: https://github.com/ajesujoba/YorubaTwi-Embedding/tree/master/Yoruba/Yor%C3%B9b%C3%A1-NER ; Data statement: https://drive.google.com/file/d/177xu-O2FTJ7VJQ-0ohCWjVd1qu61Tvml/view Paper: Jesujoba O Alabi, Kwabena Amponsah-Kaakyire, David I Adelani, and Cristina Espãna-Bonet. Massive vs. curated word embeddings for low-resourced languages. the case of Yorùbá and Twi. In LREC, 2020 (https://arxiv.org/abs/1912.02481)
Swahili
- Helsinki Corpus of Swahili 2.0 (HCS 2.0) Annotated Version: http://metashare.csc.fi/repository/browse/helsinki-corpus-of-swahili-20-hcs-20-annotated-version/232c1910b9eb11e5915e005056be118e59fb2e920f1f4c0cafc94915fc6f5cac/ See: Shah et al., 2010. SYNERGY: A Named Entity Recognition System for Resource-scarce Languages such as Swahili using Online Machine Translation
Igbo
- IgboNER: https://aclanthology.org/2022.lrec-1.547/ https://github.com/Chiamakac/IgboNER-Models later updated in https://openreview.net/pdf?id=tHUS9-vmUfC from https://sites.google.com/view/africanlp2023/home
isiNdebele
- NCHLT isiNdebele Named Entity Annotated Corpus: https://repo.sadilar.org/handle/20.500.12185/306
Xhosa
- NCHLT isiXhosa Named Entity Annotated Corpus: https://repo.sadilar.org/handle/20.500.12185/312
줄루 족
- NCHLT isiZulu Named Entity Annotated Corpus: https://repo.sadilar.org/handle/20.500.12185/319
Sepedi
- NCHLT Sepedi Named Entity Annotated Corpus: https://repo.sadilar.org/handle/20.500.12185/328
Sesotho
- NCHLT Sesotho Named Entity Annotated Corpus: https://repo.sadilar.org/handle/20.500.12185/334
Setswana
- NCHLT Setswana Named Entity Annotated Corpus: https://repo.sadilar.org/handle/20.500.12185/341
Siswati
- NCHLT Siswati Named Entity Annotated Corpus: https://repo.sadilar.org/handle/20.500.12185/346
Venda
- NCHLT Tshivenda Named Entity Annotated Corpus: https://repo.sadilar.org/handle/20.500.12185/355
- MPHAYANER: Named Entity Recognition for Tshivenḓa: https://openreview.net/pdf?id=0nneuL3bSLt https://github.com/rendanim/MphayaNER from https://sites.google.com/view/africanlp2023/home
Xitsonga
- NCHLT Xitsonga Named Entity Annotated Corpus: https://repo.sadilar.org/handle/20.500.12185/362
라틴어
- Herodotos Project: https://github.com/alexerdmann/Herodotos_Project_Annotation
A long list can be found here: http://damien.nouvels.net/resourcesen/corpora.html
참조
[Alvarado et al., 2015] Alvarado, Julio Cesar Salinas, Karin Verspoor, and Timothy Baldwin. Domain adaption of named entity recognition to support credit risk assessment. In Proceedings of the Australasian Language Technology Association Workshop 2015, pp. 84-90. 2015. Accessed: August 2018.
[Balasuriya et al., 2009] Balasuriya, Dominic, Nicky Ringland, Joel Nothman, Tara Murphy, and James R. Curran. Named entity recognition in wikipedia. In Proceedings of the 2009 Workshop on The People's Web Meets NLP: Collaboratively Constructed Semantic Resources, pp. 10-18. Association for Computational Linguistics, 2009
[Bos et al., 2017] Bos, Johan, Valerio Basile, Kilian Evang, Noortje J. Venhuizen, and Johannes Bjerva. The Groningen meaning bank. In Handbook of linguistic annotation, pp. 463-496. Springer, Dordrecht, 2017.
[Derczynski et al., 2016] Derczynski, Leon, Kalina Bontcheva, and Ian Roberts. Broad twitter corpus: A diverse named entity recognition resource. In Proceedings of COLING 2016, the 26th International Conference on Computational Linguistics: Technical Papers, pp. 1169-1179. 2016. Available at: https://github.com/GateNLP/broad_twitter_corpus Accessed: August 2018.
[Derczynski et al., 2017] Leon Derczynski, Eric Nichols, Marieke van Erp, Nut Limsopatham (2017) Results of the WNUT2017 Shared Task on Novel and Emerging Entity Recognition, in Proceedings of the 3rd Workshop on Noisy, User-generated Text. Available at: https://noisy-text.github.io/2017/emerging-rare-entities.html
[DSTL, 2017] Defence Science and Technology Laboratory. 2017. Relationship and Entity Extraction Evaluation Dataset. https://github.com/dstl/re3d. Accessed: January 2018.
[Grishman and Sundheim, 1996] Ralph Grishman and Beth Sundheim. 1996. Message understanding conference- 6: A brief history. In COLING 1996 Volume 1: The 16th International Conference on Computational Linguistics.
[Karimi et al., 2015] Sarvnaz Karimi, Alejandro Metke-Jimenez, Madonna Kemp, and Chen Wang. 2015. Cadec: A corpus of adverse drug event annotations. Journal of biomedical informatics, 55:73-81. Available at https://data.csiro.au Accessed: November 2017.
[Lim et al., 2017] Lim, Swee Kiat, Aldrian Obaja Muis, Wei Lu, and Chen Hui Ong. MalwareTextDB: A database for annotated malware articles. In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), vol. 1, pp. 1557-1567. 2017.
[Liu et al., 2013a] Jingjing Liu, Panupong Pasupat, Scott Cyphers, and Jim Glass. 2013. Asgard: A portable architecture for multilingual dialogue systems. In Acoustics, Speech and Signal Processing (ICASSP), 2013 IEEE International Conference on, pages 8386-8390. IEEE. Available at https://groups.csail.mit.edu/sls/downloads/restaurant/ Accessed: January 2018
[Liu et al., 2013b] Jingjing Liu, Panupong Pasupat, Yining Wang, Scott Cyphers, and Jim Glass. 2013. Query understanding enhanced by hierarchical parsing structures. In Automatic Speech Recognition and Understanding (ASRU), 2013 IEEE Workshop on, pages 72-77. IEEE. Available at https://groups.csail.mit.edu/sls/downloads/movie/ We used the trivia10k13 portion. Accessed: January 2018
[NIST, 1999 IE-ER] NIST. 1999. Information Extraction - Entity Recognition Evaluation. http://www.nist.gov/speech/tests/ieer/er_99/er_99.htm. The newswire development test data only (included in the NLTK package).
[Ohta et al., 2012] Tomoko Ohta, Sampo Pyysalo, Jun'ichi Tsujii and Sophia Ananiadou. 2012. Open-domain Anatomical Entity Mention Detection. In Proceedings of ACL 2012 Workshop on Detecting Structure in Scholarly Discourse (DSSD), pp. 27-36. Available at: http://www.nactem.ac.uk/anatomy/ and https://github.com/openbiocorpora/anem Accessed: November 2017.
[Ritter et al., 2011] Alan Ritter, Sam Clark, Mausam, and Oren Etzioni. 2011. Named entity recognition in tweets: An experimental study. In Proceedings of the 2011 Conference on Empirical Methods in Natural Language Processing, pages 1524-1534, Edinburgh, Scotland, UK., July. Association for Computational Linguistics. Accessed January 2018.
[Sang and Meulder, 2003] Erik F. Tjong Kim Sang and Fien De Meulder. 2003. Introduction to the CoNLL-2003 shared task: Languageindependent named entity recognition. In Proceedings of the Seventh Conference on Natural Language Learning at HLT-NAACL 2003.
[Stubbs et al., 2015] Amber Stubbs and Ozlem Uzuner. 2015. Annotating longitudinal clinical narratives for de-identification: The 2014 i2b2/UTHealth corpus. Journal of biomedical informatics, 58:S20-S29. Available at https://www.i2b2.org/NLP/DataSets/ Accessed: February 2018.
[Uzuner et al., 2007] Ozlem Uzuner, Yuan Luo, and Peter Szolovits. 2007. Evaluating the state-of-the-art in automatic de-identification. Journal of the American Medical Informatics Association, 14(5):550-563. Available at https://www.i2b2.org/NLP/DataSets/ Accessed: February 2018.
[Weischedel and Brunstein, 2005] Ralph Weischedel and Ada Brunstein. 2005. BBN pronoun coreference and entity type corpus. Linguistic Data Consortium, Philadelphia.
[Weischedel et al., 2013] Weischedel, Ralph, Martha Palmer, Mitchell Marcus, Eduard Hovy, Sameer Pradhan, Lance Ramshaw, Nianwen Xue et al. Ontonotes release 5.0 ldc2013t19. Linguistic Data Consortium, Philadelphia, PA (2013).
[Zeldes, 2017] Amir Zeldes. 2017. The GUM corpus: creating multilayer resources in the classroom. Language Resources and Evaluation, 51(3):581-612. Available at https://github.com/amir-zeldes/gum/tree/master/coref/tsv/ Accessed: November 2017.