Наборы данных для распознавания объектов
Этот репозиторий содержит наборы данных из нескольких доменов, аннотированных с различными типами объектов, полезными для задач распознавания объектов и названного распознавания сущности (NER).
Примечание: я больше не активно добавляю наборы данных в этот список - вероятно, есть больше наборов данных NER, которые появились с 2020 года. Однако я рад добавить больше наборов данных с помощью проблем или запросов на привлечение.
Наборы данных для NER на английском языке
В следующей таблице показан список наборов данных для распознавания сущностей на английском языке (список наборов данных NER на других языках, см. Ниже). Справочник данных содержит информацию о том, где для получения тех наборов данных, которые не могут быть переданы из -за ограничений лицензирования, а также кода для преобразования их (при необходимости) в формат Conll 2003. Ссылки на NER Corpora на других языках также перечислены ниже.
| Набор данных | Домен | Лицензия | Ссылка | Доступность |
|---|
| Conll 2003 | Новости | Дуа | Sang and Meulder, 2003 | Легко найти |
| NIST-IEER | Новости | Никто | NIST 1999 IE-ER | NLTK Данные |
| MUC-6 | Новости | LDC | Grishman and Sundheim, 1996 | LDC 2003T13 |
| Ontonotes 5 | Различный | LDC | Weischedel et al., 2013 | LDC 2013T19 |
| BBN | Различный | LDC | Weischedel и Brunstein, 2005 | LDC 2005T33 |
| Gmb-1.0.0 | Различный | Никто | Bos et al., 2017 | http://gmb.let.rug.nl/data.php |
| Gum-3.1.0 | Вики | Несколько ( * 2) | Зельдес, 2016 | ✔ Включено здесь |
| Викиголд | Википедия | CC-BY 4.0 | Balasuriya et al., 2009 | ✔ Включено здесь |
| Прозрачный | Twitter | Никто | Ritter et al., 2011 | Нет разделения, поезда/тест/dev |
| BTC | Twitter | CC-BY 4.0 | Derczynski et al., 2016 | ✔ Включено здесь |
| Wnut17 | Социальные сети | CC-BY 4.0 | Derczynski et al., 2017 | ✔ Включено здесь |
| I2B2-2006 | Медицинский | Дуа | Uzuner et al., 2007 | http://www.i2b2.org |
| I2B2-2014 | Медицинский | Дуа | Stubbs et al., 2015 | http://www.i2b2.org |
| Кадек | Медицинский | CSIRO | Karimi et al., 2015 | http://data.csiro.au/ |
| Анема | Анатомический | CC-BY-SA 3.0 | Ohta et al., 2012 | ✔ Включено здесь |
| Митрестарант | Запросы | Никто | Liu et al., 2013a | http://groups.csail.mit.edu/sls/ |
| Митовий | Запросы | Никто | Liu et al., 2013b | http://groups.csail.mit.edu/sls/ |
| MalwareTextDB | Вредоносное ПО | Никто | Lim et al., 2017 | http://www.statnlp.org/ |
| Re3d | Защита | Несколько ( * 1) | DSTL, 2017 | ✔ Включено здесь |
| Sec-Filings | Финансы | CC-BY 3.0 | Alvarado et al., 2015 | ✔ Включено здесь |
| Сборка | Робототехника | Х | Costa et al., 2017 | Х |
| Викинреральный | Википедия | Cc by-sa-nc 4.0 | Tedeschi et al., 2021 | https://github.com/babelscape/wikineural |
| Multinerd | Википедия | Cc by-sa-nc 4.0 | Tedeschi et al., 2022 | https://github.com/babelscape/multinerd |
| Hipe-2012 | Исторический | Cc by-sa-nc 4.0 | Ehrmann et al., 2022 | https://github.com/hipe-eval/hipe-2022-data |
| Музыка | Музыка | Грань | Epure and Hennequin, 2023 | https://github.com/deezer/music-ner-eal2023 |
| Wiesp2022-ner | Астрофизика | Cc by-sa-nc 4.0 | Grezes et al., 2022 | https://huggingface.co/datasets/adsabs/wiesp2022-ner |
| Нне | Новости | CC 4.0 / LDC | Ringland et al., 2019 | https://github.com/nickyringland/nestest_named_entities |
| Во всем мире | Новости | Cc by-sa-nc 4.0 | Shan et al., 2023 | https://github.com/stanfordnlp/en-worldwide-newswire https://arxiv.org/abs/2404.13465 |
Лицензии
Примечания по лицензиям:
(1) RE3D («Набор данных по оценке отношений и извлечения объектов») содержит несколько наборов данных с различными лицензиями. Это:
- CC-By-SA 3.0 (набор данных Wikipedia)
- CC BY-NC 3.0 (набор данных BBC_ONLINE)
- CC по 3.0 AU (набор данных Australian_Department_of_foreign_affairs)
- Общедоступный набор данных US_STATE_DEPARTMENT, набор данных CENTCOM)
- Великобритания Открытая государственная лицензия v3.0 (набор данных UK_Government)
- Delegation_of_the_eurotean_union_to_syria: см
- Gum 3.1.0 содержит три набора данных, с лицензиями CC-BY 3.0, CC-BY-SA 3.0 и CC-BY-NC-SA 3.0. Аннотации лицензированы в соответствии с CC-BY 4.0.
Более подробную информацию о лицензии для каждого набора данных можно найти в соответствующей подкаталоге.
Позже ... - Tabassum et al., Код и названное распознавание объектов в Stackoverflow https://cocoxu.github.io/publications/acl2020_stackoverflow_ner.pdf - litbank: https://github.com/dbamman/litbank (Bamman, Popat и Shen, Ancrates Dataset, neacet of neacet of antacet of datastet of antotratestet of neacet of datastet of antoset at of neacet of dataset of dataset of dataset of antoset of dataset of antoset. NNE: набор данных для вложенного признания под названием Entity на английском языке Newswire, 2019 https://github.com/nickyringland/nestest_named_entities - MARS Target Encyclopedia - LPSC Abstracts Marked Data: https://zenodo.org/record/1048419#.w5a2cbwnzehe- BuyheHeHeHeHeHeHeHeHeHeHeHeHeHeHeHeHeHe.ReCord/1048419#.wnzehe. https://www.kaggle.com/dataturks/best-buy-ecommerce-ner-dataset/home-resume entities for ner: https://www.kaggle.com/dataturks/resume-entities-for-ner/home-Mater-nerd: несколько названных Date DataSet сознания https://aclanthology.org/2021.acl-long.248/
Наборы данных для NER на других языках
Лексические названные ресурсы сущности
- Heiner: http://heiner.cl.uni-heidelberg.de/index.shtml
- Neckar: https://event.ifi.uni-heidelberg.de/?page_id=532#wikidata_ne_dataset
Переключение кода
- Английские твиты (Calcs 2018): https://code-switching.github.io/2018/; https://code-switching.github.io/2018/files/spa-eng/release.zip; http://www.aclweb.org/anthology/w18-3219
- Арабские твиты (Calcs 2018): https://code-switching.github.io/2018/; https://code-switching.github.io/2018/files/msa-egy/arabictweetstokenassigner.zip; http://www.aclweb.org/anthology/w18-3219
- Хинди-английские социальные сети Текст: https://github.com/silentflame/named-entity-recognition; http://aclweb.org/anthology/w18-2405
- EMNLP 2014 Общая задача-твиты, переключенные в коде (Непали-Англиш, Испанский Англиш, Мандарин-Англиш, Арабские Арабические Диалекты): http://emnlp2014.org/workshops/codeswitch/call.html
немецкий
- Conll 2003 (английский, немецкий): https://www.clips.uantwerpen.be/conll2003/ner/
- Germeval 2014: https://sites.google.com/site/germeval2014ner/data
- Tübingen Treebank из письменного немецкого (Tüba-d/z): http://www.sfs.uni-tuebingen.de/en/ascl/resources/corpora/tueba-dz.html
- Европейские газеты (голландцы, французский, немецкий): https://github.com/eureanananewspapers/ner-corpora; http://lab.kb.nl/dataset/europeana-newspapers-ner#access
- Германские транскрипты Европарла (подмножество): https://nlpado.de/~sebastian/software/ner_german.shtml
- Названная модель сущности для немецкого языка, политика (NEMGP): https://www.thomas-zastrow.de/nlp/
- Wikiner: https://figshare.com/articles/learning_multilingual_named_entity_recognition_from_wikipedia/5462500
- Wikineural: https://github.com/babelscape/wikineural
- Multinerd: https://github.com/babelscape/multinerd
- DFKI SmartData Corpus (Geo-Enterities): https://dfki-lt-re-group.bitbucket.io/smartdata-corpus/ (немецкий корпус для мелкозернистого названного признания сущности и извлечения отношений и отраслевых событий. Мартин Ширш, Веселина Мирона, Максимилиан Шмайт, Филипп-и-Габейнд, Алеса, Алеса, Алеса, Алеса, Алеса, Алейс-и-Хаб, Филипес и Алейс-Хаб. Леонхард Хенниг.
- Dbpedia Abstract Corpus (английский, немецкий, голландский, французский, итальянский, японский): http://downloads.dbpedia.org/2015-04/ext/nlp/abstracts/
- Набор данных DAWT - плотно аннотированные тексты Википедии на нескольких языках (английский, испанский, французский, итальянский, немецкий, арабский): https://github.com/klout/opendata/tree/master/wiki_annotation
- Елена Лейтнер, Георг Рем, Джули ́an Moreno-Schneider, набор данных немецких юридических документов для распознавания именованной организации, LREC 2020: http://georg-re.hm/pdf/lrec-2020-leitner-et-al-preprint.pdf; Данные: https://github.com/elenanereiss/legal-entity-recognition
- Hipe-2022, названное признание и сущность, связывающая в многоязычных исторических документах: https://hipe-eval.github.io/hipe-2022/ https://github.com/hipe-eval/hipe-2022-data
Голландский
- Conll 2002 (испанский, голландский): https://www.clips.uantwerpen.be/conll2002/ner/
- Европейские газеты (голландцы, французский, немецкий): https://github.com/eureanananewspapers/ner-corpora; http://lab.kb.nl/dataset/europeana-newspapers-ner#access
- Тем временем корпус (Параллельный корпус: английский, испанский, итальянский, голландский): http://www.newsreader-project.eu/results/data/wikinews/
- Wikiner: https://figshare.com/articles/learning_multilingual_named_entity_recognition_from_wikipedia/5462500
- Wikineural: https://github.com/babelscape/wikineural
- Multinerd: https://github.com/babelscape/multinerd
- Dbpedia Abstract Corpus (английский, немецкий, голландский, французский, итальянский, японский): http://downloads.dbpedia.org/2015-04/ext/nlp/abstracts/
- Голландские парламентские документы 2015-2016, с 1848.nl (Jonkers, названный признание организации в голландских парламентских документах с использованием лягушки, тезис, Амстердамский университет, 2016): https://github.com/poezedoez/ner/blob/master/code/data/lobby/golden_standarde
- Sonar 1 - Desmet and Hoste, мелкозернистого голландца по названию организации, 2014 (иерархия классов)
- Корпус-Сонар Книги и Корпус Гутенберг Голландский: http://blog.namescape.nl/?page_id=85; http://portal.clarin.nl/node/1940
африкаанс
- NCHLT Afrikaans назвал организацию Annotated Corpus: https://repo.sadilar.org/handle/20.500.12185/299
испанский
- Conll 2002 (испанский, голландский): https://www.clips.uantwerpen.be/conll2002/ner/
- Ancora (испанский, каталонский): http://clic.ub.edu/corpus/en
- Ловкий испанский деревоизг (LDC2018T01): https://catalog.ldc.upenn.edu/ldc2018t01
- Panacea (Lab): http://panacea-lr.eu/en/info-for-researchers/data-sets/dependency-parsed-corpora/dependency-lab-es
- Panacea (env): http://panacea-lr.eu/en/info-for-researchers/data-sets/dependency-parsed-corpora/dependency-env-es
- Тем временем корпус (Параллельный корпус: английский, испанский, итальянский, голландский): http://www.newsreader-project.eu/results/data/wikinews/
- ACE 2007 (испанский и арабский): https://catalog.ldc.upenn.edu/ldc2014t18
- Wikiner: https://figshare.com/articles/learning_multilingual_named_entity_recognition_from_wikipedia/5462500
- Wikineural: https://github.com/babelscape/wikineural
- Multinerd: https://github.com/babelscape/multinerd
- http://www.grupolys.org/~marcos/pub/lrec16.tar.bz2 (используется в «включении лексико-эмантической эвристики в скидные съемки Coreference для распознавания объектов на уровне документа»)
- Многоязычная корпорация с кореференциальной аннотацией личностных организаций (испанский, галиц, португальский): http://gramatica.usc.es/~marcos/lrec.tar.bz2
- Золотой стандарт Drugsemantics (Moreno et al., Drugsemantics: корпус для названного признания организации в испанском резюме характеристик продукта, 2017): https://data.mendeley.com/datasets/fwc7jrc5jr/1
- Dbpedia Abstract Corpus (английский, немецкий, голландский, французский, итальянский, японский): http://downloads.dbpedia.org/2015-04/ext/nlp/abstracts/
- Набор данных DAWT - плотно аннотированные тексты Википедии на нескольких языках (английский, испанский, французский, итальянский, немецкий, арабский): https://github.com/klout/opendata/tree/master/wiki_annotation
- Кантрист (общая задача добыча текста рака - опухоль, названная распознаванием сущности) - названное распознавание сущности критического типа концепции, связанного с раком, а именно морфология опухоли в испанских медицинских текстах: https://temu.bsc.es/cantemist/
Каталонский
- Ancora (испанский, каталонский): http://clic.ub.edu/corpus/en
Галиц
- Galiacion Ner Corpus: https://gramatica.usc.es/~marcos/resources/corpus_gal_nec.txt.gz
- Многоязычная корпорация с кореференциальной аннотацией личностных организаций (испанский, галиц, португальский): http://gramatica.usc.es/~marcos/lrec.tar.bz2
Баск
- Basque названная организация Corpus (EIEC): http://ixa.eus/node/4486?language=en
- Баскский дистенсифицированный названный организации Corpus (ediec): http://ixa.si.ehu.es/node/4485?language=en
- Egunkaria 2000 Corpus (383 Newswire Texts), упомянутый в http://qtleap.eu/wp-content/uploads/2014/04/qtleap-2013-d5.1.pdf
португальский
- Гарем: https://www.linguateca.pt/aval_conjunta/harem/harem_ing.html
- Cintil Corpus: http://cintil.ul.pt/cintilfeatures.html#corpus
- Wikiner: https://figshare.com/articles/learning_multilingual_named_entity_recognition_from_wikipedia/5462500
- Wikineural: https://github.com/babelscape/wikineural
- Multinerd: https://github.com/babelscape/multinerd
- Многоязычная корпорация с кореференциальной аннотацией личностных организаций (испанский, галиц, португальский): http://gramatica.usc.es/~marcos/lrec.tar.bz2
- Bosque 8.0 Eagles Format: https://gramatica.usc.es/~marcos/resources/corpora_flpt.tgz
- Lener-Br (бразильские юридические документы): https://cic.unb.br/~teodecampos/lener-br/
- Paramopama: бразильский корпус портажа для признания организации
Французский
- Эстер: http://catalogue.elra.info/en-us/repository/browse/elra-s0241/
- Эстер 2: http://catalogue.elra.info/en-us/repository/browse/elra-s0338/
- Etape: http://catalogue.elra.info/en-us/repository/browse/elra-e0046/
- Европейские газеты (голландцы, французский, немецкий): https://github.com/eureanananewspapers/ner-corpora; http://lab.kb.nl/dataset/europeana-newspapers-ner#access
- Французский медицинский корпус Quaero: https://quaerofrenchmed.limsi.fr/
- Quaero Froadcast News Extended Came Entity Corpus: http://catalog.elra.info/en-us/repository/browse/elra-s0349/
- Quaero Old Press Extended Comenity Corpus: http://catalog.elra.info/en-us/repository/browse/elra-w0073/
- Wikiner: https://figshare.com/articles/learning_multilingual_named_entity_recognition_from_wikipedia/5462500
- Wikiner-fr-gold https://arxiv.org/abs/2411.00030 https://huggingface.co/datasets/danrun/wikiner-fr-gold
- Wikineural: https://github.com/babelscape/wikineural
- Multinerd: https://github.com/babelscape/multinerd
- Dbpedia Abstract Corpus (английский, немецкий, голландский, французский, итальянский, японский): http://downloads.dbpedia.org/2015-04/ext/nlp/abstracts/
- Набор данных DAWT - плотно аннотированные тексты Википедии на нескольких языках (английский, испанский, французский, итальянский, немецкий, арабский): https://github.com/klout/opendata/tree/master/wiki_annotation
- CAP 2017 - (Данные Twitter), Lopez et al., Cap 2017 Challenge: Twitter назвал признание объекта, 2017: http://cap2017.imag.fr/competition.html
- Hipe-2022, названное признание и сущность, связывающая в многоязычных исторических документах: https://hipe-eval.github.io/hipe-2022/ https://github.com/hipe-eval/hipe-2022-data
Итальянский
- КОНД: https://github.com/dhfbk/kind
- Evalita: http://www.evalita.it/2009/tasks/entity
- Тем временем корпус (Параллельный корпус: английский, испанский, итальянский, голландский): http://www.newsreader-project.eu/results/data/wikinews/
- Panacea (env): http://panacea-lr.eu/en/info-for-researchers/data-sets/dependency-parsed-corpora/dependency-env-it
- Panacea (Lab): http://panacea-lr.eu/en/info-for-researchers/data-sets/dependency-parsed-corpora/dependency-lab-it
- Wikiner: https://figshare.com/articles/learning_multilingual_named_entity_recognition_from_wikipedia/5462500
- Wikineural: https://github.com/babelscape/wikineural
- Multinerd: https://github.com/babelscape/multinerd
- Dbpedia Abstract Corpus (английский, немецкий, голландский, французский, итальянский, японский): http://downloads.dbpedia.org/2015-04/ext/nlp/abstracts/
- Набор данных DAWT - плотно аннотированные тексты Википедии на нескольких языках (английский, испанский, французский, итальянский, немецкий, арабский): https://github.com/klout/opendata/tree/master/wiki_annotation
румынский
- RONEC (Dumitrescu и Avram, представляя RONEC - румынский названный Entity Corpus. Lrec 2020). Документ: https://arxiv.org/pdf/1909.01247.pdf Данные: https://github.com/dumitrescustefan/ronec
- Румынский журналистский корпус (Roco): http://metashare.elda.org/repository/browse/romanian-journalistic-corpus-roco/038baa80dc7311e5aa0b00237df3e3583781d7c0f2084057A018A2D637781D7C0F2084057A018A2D63378181D7C0F2084057A018A2D63778181D7C0F2084057A018A2D6378781D7C0F2084057A018A2D63778181D7C0F2084057A018A2D63783781D7C0F2084057A0187.
- Romanian Balanced Corpus (ROMBAC): http://metashare.elda.org/repository/browse/romanian-balanced-corpus-rombac/0a7dd85edc7311e5aa0b00237df3e35873a0d662435d42dd94fba48c29dc0065/
Греческий
- Panacea (env): http://panacea-lr.eu/en/info-for-researchers/data-sets/dependency-parsed-corpora/dependency-env-el
- Panacea (Lab): http://panacea-lr.eu/en/info-for-researchers/data-sets/dependency-parsed-corpora/dependency-lab-el
венгерский
- Венгерский назван Entity Corpora: http://rgai.inf.u-szeged.hu/index.php?lang=en&page=corpus_ne
- Hunnerwiki: http://hlt.sztaki.hu/resources/hunnerwiki.html
- NYTK: https://github.com/nytud/nytk-nerkor
чешский
- Czech Nating Entity Corpus: http://ufal.mff.cuni.cz/cnec
- BSNLP 2017 (хорватский, чешский, польский, русский, славацкий, словенский, украинский): http://bsnlp-2017.cs.helsinki.fi/shared_task_results.html
- Czeng 1.0 (Parallel Corpus: Czech-Anglish): http://ufal.mff.cuni.cz/czeng/czeng10
- Pero ocr ner (Чешские исторические хроники OCR): https://github.com/roman-janik/poner https://dspace.vut.cz/items/6092e1b0-3d75-4451-8582-28573ac30404
Лак
- Польский SEJM Corpus: http://clip.ipipan.waw.pl/psc
- BSNLP 2017 (хорватский, чешский, польский, русский, славацкий, словенский, украинский): http://bsnlp-2017.cs.helsinki.fi/shared_task_results.html
- Польский корпус Coreference: http://zil.ipipan.waw.pl/polishcoreferencecorpus
- Wikiner: https://figshare.com/articles/learning_multilingual_named_entity_recognition_from_wikipedia/5462500
- Wikineural: https://github.com/babelscape/wikineural
- Multinerd: https://github.com/babelscape/multinerd
- Корпус экономических новостей (cen corpus): http://www.nlp.pwr.wroc.pl/narzedzia-i-zasoby/zasoby/cen
- KPWR (Korpus Języka Polskiego Politechniki Wrocławskiej/Польский корпус технологического университета Вроцлав): http://plorwordnet.pwr.wroc.pl/index.php?option=com_content&view=article&id=35&itemid=181&lang=pl; http://plordnet.pwr.wroc.pl/attachments/article/35/kpwr-1.1.7z (Broda et al., KPWR: к бесплатному корпусу польского, 2012)
- Nkjp: http://clip.ipipan.waw.pl/nationalcorpusofpolish?action=attachfile&do=view&target=nkjp-podkorpusmilionowy-1.2.tar.gz
хорватский
- HR500K 1.0: http://hdl.handle.net/11356/1183
- BSNLP 2017 (хорватский, чешский, польский, русский, славацкий, словенский, украинский): http://bsnlp-2017.cs.helsinki.fi/shared_task_results.html
- Reldi-normtagner-hr (хорватские твиты): http://hdl.handle.net/11356/1170
словацкий
- BSNLP 2017 (хорватский, чешский, польский, русский, славацкий, словенский, украинский): http://bsnlp-2017.cs.helsinki.fi/shared_task_results.html
- Словак классифицировал новостную корпус: https://nlp.web.tuke.sk/pages/categorizednews
Словен
- BSNLP 2017 (хорватский, чешский, польский, русский, славацкий, словенский, украинский): http://bsnlp-2017.cs.helsinki.fi/shared_task_results.html
- SSJ500K: http://www.slovenscina.eu/tehnologije/ucni-korpus; http://eng.slovenscina.eu/tehnologije/ucni-korpus; https://www.clarin.si/repository/xmlui/handle/11356/1029; Примечание. Для V 2.2 см.: Http://hdl.handle.net/11356/1210
- Slovene News: http://zitnik.si/mediawiki/index.php?title=datasets#slovene_news; http://zitnik.si/mediawiki/images/7/7d/rtvslo_dec2011.tsv; http://zitnik.si/mediawiki/images/5/5e/rtvslo_dec2011_v2.tsv
- Janes-tag 2.0 (текст социальных сетей) https://www.clarin.si/repository/xmlui/handle/11356/1123; См. Также: Fiчер и др.
Украинский
- BSNLP 2017 (хорватский, чешский, польский, русский, славацкий, словенский, украинский): http://bsnlp-2017.cs.helsinki.fi/shared_task_results.html
- Украинский коричневый корпус: https://github.com/lang-uk/ner-uk; http://lang.org.ua/en/corpora/
сербский
- Setimes.sr - http://hdl.handle.net/11356/1200
- Названные организации Оценка корпуса для сербского языка: http://www.korpus.matf.bg.ac.rs/srpneval/
- Reldi-normtagner-Sr (Сербские твиты): http://hdl.handle.net/11356/1171
болгарский
исландский
- Mim-Gold-ner (Ingólfsdóttir, Svanhvít Lilja, Sigurjón þorsteinsson и Hrafn Loftsson. http://www.malfong.is/index.php?pg=mim_gold_ner
Датский
- Dane: Hvingelby et al., [Dane: A именованный ресурс Entity для датского.] (Http://www.lrec-conf.org/proceedings/lrec2020/pdf/2020.lrec-1.565.pdf), lrec2020: https://github.com/alexandrainst), lrec 2020: https://github.com/alexandrainst/danrainst/Dan
- Датский Propbank (DPB): http://catalog.elra.info/en-us/repository/browse/elra-w0117/
- Дерево Дереарной Банк: http://catalog.elra.info/en-us/repository/browse/elra-w0084/
норвежский
- Бьярте Йохансен, признание названного предприятия для норвежской, труды 22-й Северной конференции по вычислительной лингвистике. 2019 (https://www.aclweb.org/anthology/w19-6123.pdf) Данные: https://github.com/ljos/navnkjenner
- Fredrik Jørgensen et al., Norne: аннотирование названных организаций для Norwegian, 2019 (https://arxiv.org/pdf/1911.12146.pdf). Данные: https://github.com/ltgoslo/norne/; https://www.nb.no/sprakbanken/show?serial=oai%3Anb.no%3ASBR-49
Шведский
- Стокгольм Интернет-корпус: https://www.ling.su.se/english/nlp/corpora-and-resources/sic
- SUC 3.0: https://spraakbanken.gu.se/eng/resource/suc3
- Шведский вручную аннотирован NER: https://github.com/klintan/swedish-ner-corpus/
- Медицинские данные Википедии (Almgren et al., Названное распознавание сущности в шведских медицинских картах с глубокими символами Beebirectional LSTMS, 2016): https://github.com/olofmogren/biomedical-ner-data-swedish
- Hipe-2022, названное признание и сущность, связывающая в многоязычных исторических документах: https://hipe-eval.github.io/hipe-2022/ https://github.com/hipe-eval/hipe-2022-data
Финский
- Наборы данных для финского именованного лица Recoginition: https://github.com/mpsilfve/finer-data
- Turku Ner Corpus: https://github.com/turkunlp/turku-ner-corpus
- Hipe-2022, названное признание и сущность, связывающая в многоязычных исторических документах: https://hipe-eval.github.io/hipe-2022/ https://github.com/hipe-eval/hipe-2022-data
эстонский
- Эстонский NER CORPUS: https://metashare.ut.ee/repository/browse/estonian-ner-corpus/88d030c0acde11e2a6e4005056b40024f1def472ed254e77a8952e1003d9f81e/
Латвийский и литовский
- https://github.com/accurat-toolkit/tildener/tree/master/test (Pinnis, Lattian и Lithuanian назван признание организации с Tildener, Lrec 2012)
- Данные обучения для LV Tagger: https://github.com/peterisp/lvtagger/tree/master/nertrainingdata
турецкий
- K̈ucuk and Can, набор данных твитов, аннотированный для определения признания и позиции, 2019 год: https://github.com/dkucuk/tweet-dataset-ner-sd
- K̈ucuk et al., Названное признание объектов на турецких твитах: http://optima.jrc.it/resources/2014_jrc_twitter_tr_ner-dataset.zip
- Английский/турецкий набор данных по признанию и категоризации текста (http://arxiv.org/abs/1702.02363): https://data.mendeley.com/datasets/cdcztymf4k/1
- Çoban et al., Названные признание объектов по FBNER: новый набор данных Facebook на Турции: https://ieeexplore.ieee.org/document/9598971 Доступны для исследовательских целей по запросу
Казах
- Казнерд: https://arxiv.org/pdf/2111.13419.pdf, https://github.com/is2ai/kaznerd
Уйгур
- Uyghur назвал Ontity Community Corpus: https://github.com/kaharjan/uynerel (Abiderexiti et al., Схемы аннотации для построения Uyghur, названного Entity Commortion Corpus. IALP 2016)
Армянский
- Пионер (наборы данных о золотом и стандартном и серебрах): https://github.com/ispras-texterra/pioner (Ghukasyan et al., Pioner: наборы данных и базовые значения для армянского названного распознавания сущности, 2018)
- ARMTDP -NER: https://github.com/myavrum/armtdp-ner
Коптс
- Коптское универсальное дерево зависимостей: https://github.com/universaldependencies/ud_coptic-criptorium/tree/dev (см. Также https://copticscriptorium.org/treebank.html). Это содержит 46 000 жетонов вложенных (не) названных и викированных сущностей из сахидских коптских текстов.
Амхарский
- Скажите корпус (см. «Признание объекта для Amharic с использованием глубокого обучения»): https://github.com/geezorg/data/tree/master/amharic/tagged/nmsu-say; http://data.geez.org/
арабский
- Арабская Википедия AQMAR CORPUS: http://www.cs.cmu.edu/~ark/arabicner/
- NE3L назвал организации по арабскому корпусу (арабский, китайский, русский): http://catalog.elra.info/en-us/repository/browse/elra-w0078/
- Рефлекторный перевод сущности (параллельный корпус: английский, арабский, китайский): https://catalog.ldc.upenn.edu/ldc2009t11
- Anercorp: http://users.dsic.upv.es/~ybenajiba/downloads.html (см. Также: http://alias-i.com/lingpipe/demos/tutorial/ne/read-me.html)
- ACE 2003 (английский, китайский, арабский): https://catalog.ldc.upenn.edu/ldc2004t09
- ACE 2004 (английский, китайский, арабский): https://catalog.ldc.upenn.edu/ldc2005t09
- ACE 2005 (английский, китайский, арабский): https://catalog.ldc.upenn.edu/ldc2006t06
- ACE 2007 (испанский и арабский): https://catalog.ldc.upenn.edu/ldc2014t18
- Ontonotes 5 (английский, арабский, китайский): https://catalog.ldc.upenn.edu/ldc2013t19
- Набор данных DAWT - плотно аннотированные тексты Википедии на нескольких языках (английский, испанский, французский, итальянский, немецкий, арабский): https://github.com/klout/opendata/tree/master/wiki_annotation
- Wojood - 2022 Вложенный арабский язык по имени организация Corpus. https://dlnlp.ai/st/wojood/ https://aclanthology.org/2022.lrec-1.387.pdf https://codalab.lisn.upsaclay.fr/competitions/11740
Персидский
- Armanpersonercorpus: http://islrn.org/resources/399-379-640-828-6/; https://github.com/haniehp/persianner
Синди
- Siner: https://aclanthology.org/2020.lrec-1.361/, https://github.com/aliwazir/siner-dataset
Урду
- Ijcnlp 2008 Sseal: http://ltrc.iiit.ac.in/ner-ssea-08/index.cgi?topic=5
- Набор данных UNER (Khan et al., Названный набор данных объекта для урду по имени объект задания распознавания, 2016). Доступно по адресу http://www.iiu.edu.pk/?page_id=5181
- MK-PUCIT: https://www.dropbox.com/sh/1ivw7ykm2tugg94/aab9t5wnn7fynespo7tjjw8la; См.: Kanwal et al., Урду по имени
Индикатор
- Наамападам: Названный набор данных по признанию сущности (NER) для 11 основных индийских языков из двух языковых семей. https://research.ibm.com/publications/naamapadam-a-large-cale-named-entity-annotated-data-for-indic-languages https://ai4bharat.iitm.ac.in/naamapadam
хинди
- HINER: https://github.com/cfiltnlp/hiner
- Набор данных Hindi Health: https://www.kaggle.com/aijain/hindi-health-dataset/home
- Fire 2015, ESM-IL (английский, хинди, тамил, малаялам): http://au-kbc.org/nlp/esm-fire2015/#traincorpus
- Fire NER 2013 (английский, хинди, тамильский, малаялам, бенгальский): http://au-kbc.org/nlp/ner-fire2013/
- Ijcnlp 2008 Sseal: http://ltrc.iiit.ac.in/ner-ssea-08/index.cgi?topic=5
Бенгальский
- Fire NER 2013 (английский, хинди, тамильский, малаялам, бенгальский): http://au-kbc.org/nlp/ner-fire2013/
- Ijcnlp 2008 Sseal: http://ltrc.iiit.ac.in/ner-ssea-08/index.cgi?topic=5
- Bengali-Sner: https://github.com/rifat1493/bengali-ner, https://ieeexplore.ieee.org/document/8944804
- Ner-bangla: https://github.com/misabic/ner-bangla-dataset, https://content.iospress.com/articles/journal-of-intelligent-and-fuzzy-systems/ifs179349
телугу
- Ner_telugu: https://github.com/anikethjr/ner_telugu
- Ijcnlp 2008 Sseal: http://ltrc.iiit.ac.in/ner-ssea-08/index.cgi?topic=5
- Названная организация аннотированная корпуса для телугу: http://www.tdil-dc.in/index.php?option=com_download&task=showresourcedetails&toolid=982&lang=en
Maithili
- Первый названный распознаватель сущности в Maithili: создание ресурсов и разработка системы: https://content.iospress.com/articles/journal-of-intelligent-and-fuzzy-systems/ifs210051
Непальский
- Everestner: https://journals.flvc.org/flairs/article/view/130725, https://github.com/nowalab/everest-ner
Маратхи
- Названная организация аннотированная корпорация для маратхи: http://www.tdil-dc.in/index.php?option=com_download&task=showresourcedetails&toolid=979&lang=en
- L3Cube Mahaner: https://arxiv.org/abs/2204.06029 https://github.com/l3cube-pune/marathinlp
Пенджаби
- Названная организация аннотированная корпорация для Пенджаби: http://www.tdil-dc.in/index.php?option=com_download&task=showresourcedetails&toolid=980&lang=en
Тамильский
- Fire 2015, ESM-IL (английский, хинди, тамил, малаялам): http://au-kbc.org/nlp/esm-fire2015/#traincorpus
- Fire NER 2013 (английский, хинди, тамильский, малаялам, бенгальский): http://au-kbc.org/nlp/ner-fire2013/
Малаялам
- Fire 2015, ESM-IL (английский, хинди, тамил, малаялам): http://au-kbc.org/nlp/esm-fire2015/#traincorpus
- Fire NER 2013 (английский, хинди, тамильский, малаялам, бенгальский): http://au-kbc.org/nlp/ner-fire2013/
Oriya/Odia
- Ijcnlp 2008 Sseal: http://ltrc.iiit.ac.in/ner-ssea-08/index.cgi?topic=5
Сингальский/сингальский
Тайский
- Thai-Neding-Entity-recognition-data: https://github.com/pythainlp/thai-named-entity-recognition-data
- Тайский назван Entity Corpora: http://pioneer.chula.ac.th/~awirote/resources/corpora-data.html; http://pioneer.chula.ac.th/~awirote/data-nutcha.zip; http://pioneer.chula.ac.th/~awirote/data-sasiwimon.zip; http://pioneer.chula.ac.th/~awirote/data-nattadaporn.zip
- LST20: https://huggingface.co/datasets/lst20; https://arxiv.org/abs/2008.05055
- Thai-nner: https://github.com/vistec-ai/thai-nner, https://aclanthology.org/2022.findings-acl.116
индонезийский
- Идентичный: http://metashare.elda.org/repository/browse/identic/fed3fada7ef111e5aa3b001dd8b71c66c98eee36eabd42f18ffd9a95da9104cc/
- https://github.com/yohanesgultom/nlp-experiments/tree/master/data/ner
- Indonesia -ner: Syaifudin & Nurwidyantoro https://ieeexplore.ieee.org/document/7828656 https://github.com/yusufsyaifudin/indonesia-ner
- Idner-News-2K: набор данных индонезийских новостей для задачи распознавания названных факторов. Повторное значение Syaifudin & Nurwidyantoro https://dl.acm.org/doi/10.1145/3592854#fn8 https://github.com/khairunnisaor/idner-news-2k/
- NERP и NER-GRIT: два индонезийских набора данных от Indonlp/indonlu https://github.com/indonlp/indonlu/tree/master/dataset https://aclanthology.org/2020.aacl.85/
вьетнамский
- VLSP 2016: http://vlsp.org.vn/resources-vlsp2016; https://github.com/undertheseanlp/ner
- VLSP 2018: http://vlsp.org.vn/resources-vlsp2018; https://github.com/undertheseanlp/ner
- Phoner_covid19: https://github.com/vinairesearch/phoner_covid19
Японский
- IREX: https://nlp.cs.nyu.edu/irex/package/
- Met-2 (японский, китайский): https://www-nlpir.nist.gov/related_projects/muc/
- BCCWJ Basic NE CORPUS: https://sites.google.com/site/projectnextnlpne/en (Iwakura et al., Построение японского базового названного корпуса Entity Corpus различных жанров, News 2016)
- Dbpedia Abstract Corpus (английский, немецкий, голландский, французский, итальянский, японский): http://downloads.dbpedia.org/2015-04/ext/nlp/abstracts/
- Данные: Mai et al., Эмпирическое исследование мелкозернистого признания сущности, Coling 2018 (английский, японский): https://fgner.alt.ai/duc/ene/testsets/comp/
- Wikipedia ner corpus: https://github.com/stockmarkteam/ner-wikipedia-dataset
- Wikiann: https://elisa-ie.github.io/wikiann/
- GSD: преобразование набора данных UD GSD в Megagon Labs https://github.com/megagonlabs/ud_japanese-gsd
- KWDLC: Веб-документ Киотского университета возглавляет корпус https://nlp.ist.i.kyoto-u.ac.jp/en/index.php?kwdlc https://github.com/ku-nlp/kwdlc https://nagisa.readthedocs.io/en/latest_nerorior.htmlory.htmlory.htmlorior.ht
корейский
- Национальный институт корейского языка (ROK) - NER CORPUS: https://github.com/digitalprk/koreaner; https://ithub.korean.go.kr/user/total/referenceview.do?bortseq=5&articleseq=118&boardgb=t&isinsupd&boardtype=corpus
- Kmou ner - https://github.com/kmounlp/ner
- Корейский язык понимание оценки - Klue ner - https://klue-benchmark.com/tasks/69/overview/description
- https://github.com/songys/entity
- HLCT 2016 Corpus, с обновлениями - https://github.com/machinereading/koreannercorpus
китайский
- ACE 2003 (английский, китайский, арабский): https://catalog.ldc.upenn.edu/ldc2004t09
- ACE 2004 (английский, китайский, арабский): https://catalog.ldc.upenn.edu/ldc2005t09
- ACE 2005 (английский, китайский, арабский): https://catalog.ldc.upenn.edu/ldc2006t06
- Ontonotes 5 (английский, арабский, китайский): https://catalog.ldc.upenn.edu/ldc2013t19
- Met-2 (японский, китайский): https://www-nlpir.nist.gov/related_projects/muc/
- Рефлекторный перевод сущности (параллельный корпус: английский, арабский, китайский): https://catalog.ldc.upenn.edu/ldc2009t11
- NE3L назвал организации Китайский корпус (арабский, китайский, русский): http://catalogue.elra.info/en-us/repository/browse/elra-w0079/
- Оригинальный сопоставление данных с коротким сообщением I в китайском языке (названные объекты): http://catalog.elra.info/en-us/repository/browse/elra-w0045_04/
- Первоначальный сопоставление данных с коротким Message II в китайском языке (названные объекты): http://catalog.elra.info/en-us/repository/browse/elra-w0045_08/
- ERE DEAR CORPORA (Параллельное корпус: английский, китайский): Mott et al., Параллельные китайско-английские организации, отношения и мероприятия Corpora, 2016 (LDC2015E78, LDC2014E114)
- Китайский Weibo: ловкие аннотации стиля для названных и номинальных упоминаний о китайских социальных сетях (Weibo): https://github.com/hltcoe/golden-horse
- Китайский Eduner: 2023 Набор данных в домене образования: https://link.springer.com/article/10.1007/s00521-023-08635-5 https://github.com/anonymous-xl/eduner
- Китайская аэрокосмическая сеть: https://www.nature.com/articles/s41598-023-50705-0 https://github.com/coder-xiaokai/aerospace_nerdatasetsets.
- SciCN: A Chinese Dataset and Benchmark for Scientific Information Extraction https://file.techscience.com/files/cmc/2024/TSP_CMC-78-3/TSP_CMC_35594/TSP_CMC_35594.pdf https://github.com/yangjingla/SciCN
- EMP NER: Historical Chinese https://aclanthology.org/2024.lrec-main.35.pdf https://gitlab.com/enpchina/ENP-NER
Тагаль
- TLUnifed: https://arxiv.org/abs/2311.07161 https://huggingface.co/datasets/ljvmiranda921/tlunified-ner
Русский
- BSNLP 2017 (Croatian, Czech, Polish, Russian, Slovak, Slovene, Ukrainian): http://bsnlp-2017.cs.helsinki.fi/shared_task_results.html
- NE3L named entities Russian corpus (Arabic, Chinese, Russian): https://catalog.elra.info/en-us/repository/browse/ELRA-W0080/
- WikiNER: https://figshare.com/articles/Learning_multilingual_named_entity_recognition_from_Wikipedia/5462500
- WikiNEuRal: https://github.com/Babelscape/wikineural
- MultiNERD: https://github.com/Babelscape/multinerd
- factRuEval-2016: https://github.com/dialogue-evaluation/factRuEval-2016
- RuREBus 2020 (Russian Relation Extraction for Business) corpus https://github.com/dialogue-evaluation/RuREBus
Йоруба
- GV-Yorùbá-NER. Data: https://github.com/ajesujoba/YorubaTwi-Embedding/tree/master/Yoruba/Yor%C3%B9b%C3%A1-NER ; Data statement: https://drive.google.com/file/d/177xu-O2FTJ7VJQ-0ohCWjVd1qu61Tvml/view Paper: Jesujoba O Alabi, Kwabena Amponsah-Kaakyire, David I Adelani, and Cristina Espãna-Bonet. Massive vs. curated word embeddings for low-resourced languages. the case of Yorùbá and Twi. In LREC, 2020 (https://arxiv.org/abs/1912.02481)
суахили
- Helsinki Corpus of Swahili 2.0 (HCS 2.0) Annotated Version: http://metashare.csc.fi/repository/browse/helsinki-corpus-of-swahili-20-hcs-20-annotated-version/232c1910b9eb11e5915e005056be118e59fb2e920f1f4c0cafc94915fc6f5cac/ See: Shah et al., 2010. SYNERGY: A Named Entity Recognition System for Resource-scarce Languages such as Swahili using Online Machine Translation
Игбо
- IgboNER: https://aclanthology.org/2022.lrec-1.547/ https://github.com/Chiamakac/IgboNER-Models later updated in https://openreview.net/pdf?id=tHUS9-vmUfC from https://sites.google.com/view/africanlp2023/home
isiNdebele
- NCHLT isiNdebele Named Entity Annotated Corpus: https://repo.sadilar.org/handle/20.500.12185/306
Xhosa
- NCHLT isiXhosa Named Entity Annotated Corpus: https://repo.sadilar.org/handle/20.500.12185/312
Зулу
- NCHLT isiZulu Named Entity Annotated Corpus: https://repo.sadilar.org/handle/20.500.12185/319
Sepedi
- NCHLT Sepedi Named Entity Annotated Corpus: https://repo.sadilar.org/handle/20.500.12185/328
Сезото
- NCHLT Sesotho Named Entity Annotated Corpus: https://repo.sadilar.org/handle/20.500.12185/334
Setswana
- NCHLT Setswana Named Entity Annotated Corpus: https://repo.sadilar.org/handle/20.500.12185/341
Siswati
- NCHLT Siswati Named Entity Annotated Corpus: https://repo.sadilar.org/handle/20.500.12185/346
Venda
- NCHLT Tshivenda Named Entity Annotated Corpus: https://repo.sadilar.org/handle/20.500.12185/355
- MPHAYANER: Named Entity Recognition for Tshivenḓa: https://openreview.net/pdf?id=0nneuL3bSLt https://github.com/rendanim/MphayaNER from https://sites.google.com/view/africanlp2023/home
Xitsonga
- NCHLT Xitsonga Named Entity Annotated Corpus: https://repo.sadilar.org/handle/20.500.12185/362
латинский
- Herodotos Project: https://github.com/alexerdmann/Herodotos_Project_Annotation
A long list can be found here: http://damien.nouvels.net/resourcesen/corpora.html
Ссылки
[Alvarado et al., 2015] Alvarado, Julio Cesar Salinas, Karin Verspoor, and Timothy Baldwin. Domain adaption of named entity recognition to support credit risk assessment. In Proceedings of the Australasian Language Technology Association Workshop 2015, pp. 84-90. 2015. Accessed: August 2018.
[Balasuriya et al., 2009] Balasuriya, Dominic, Nicky Ringland, Joel Nothman, Tara Murphy, and James R. Curran. Named entity recognition in wikipedia. In Proceedings of the 2009 Workshop on The People's Web Meets NLP: Collaboratively Constructed Semantic Resources, pp. 10-18. Association for Computational Linguistics, 2009
[Bos et al., 2017] Bos, Johan, Valerio Basile, Kilian Evang, Noortje J. Venhuizen, and Johannes Bjerva. The Groningen meaning bank. In Handbook of linguistic annotation, pp. 463-496. Springer, Dordrecht, 2017.
[Derczynski et al., 2016] Derczynski, Leon, Kalina Bontcheva, and Ian Roberts. Broad twitter corpus: A diverse named entity recognition resource. In Proceedings of COLING 2016, the 26th International Conference on Computational Linguistics: Technical Papers, pp. 1169-1179. 2016. Available at: https://github.com/GateNLP/broad_twitter_corpus Accessed: August 2018.
[Derczynski et al., 2017] Leon Derczynski, Eric Nichols, Marieke van Erp, Nut Limsopatham (2017) Results of the WNUT2017 Shared Task on Novel and Emerging Entity Recognition, in Proceedings of the 3rd Workshop on Noisy, User-generated Text. Available at: https://noisy-text.github.io/2017/emerging-rare-entities.html
[DSTL, 2017] Defence Science and Technology Laboratory. 2017. Relationship and Entity Extraction Evaluation Dataset. https://github.com/dstl/re3d. Accessed: January 2018.
[Grishman and Sundheim, 1996] Ralph Grishman and Beth Sundheim. 1996. Message understanding conference- 6: A brief history. In COLING 1996 Volume 1: The 16th International Conference on Computational Linguistics.
[Karimi et al., 2015] Sarvnaz Karimi, Alejandro Metke-Jimenez, Madonna Kemp, and Chen Wang. 2015. Cadec: A corpus of adverse drug event annotations. Journal of biomedical informatics, 55:73-81. Available at https://data.csiro.au Accessed: November 2017.
[Lim et al., 2017] Lim, Swee Kiat, Aldrian Obaja Muis, Wei Lu, and Chen Hui Ong. MalwareTextDB: A database for annotated malware articles. In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), vol. 1, pp. 1557-1567. 2017.
[Liu et al., 2013a] Jingjing Liu, Panupong Pasupat, Scott Cyphers, and Jim Glass. 2013. Asgard: A portable architecture for multilingual dialogue systems. In Acoustics, Speech and Signal Processing (ICASSP), 2013 IEEE International Conference on, pages 8386-8390. IEEE. Available at https://groups.csail.mit.edu/sls/downloads/restaurant/ Accessed: January 2018
[Liu et al., 2013b] Jingjing Liu, Panupong Pasupat, Yining Wang, Scott Cyphers, and Jim Glass. 2013. Query understanding enhanced by hierarchical parsing structures. In Automatic Speech Recognition and Understanding (ASRU), 2013 IEEE Workshop on, pages 72-77. IEEE. Available at https://groups.csail.mit.edu/sls/downloads/movie/ We used the trivia10k13 portion. Accessed: January 2018
[NIST, 1999 IE-ER] NIST. 1999. Information Extraction - Entity Recognition Evaluation. http://www.nist.gov/speech/tests/ieer/er_99/er_99.htm. The newswire development test data only (included in the NLTK package).
[Ohta et al., 2012] Tomoko Ohta, Sampo Pyysalo, Jun'ichi Tsujii and Sophia Ananiadou. 2012. Open-domain Anatomical Entity Mention Detection. In Proceedings of ACL 2012 Workshop on Detecting Structure in Scholarly Discourse (DSSD), pp. 27-36. Available at: http://www.nactem.ac.uk/anatomy/ and https://github.com/openbiocorpora/anem Accessed: November 2017.
[Ritter et al., 2011] Alan Ritter, Sam Clark, Mausam, and Oren Etzioni. 2011. Named entity recognition in tweets: An experimental study. In Proceedings of the 2011 Conference on Empirical Methods in Natural Language Processing, pages 1524-1534, Edinburgh, Scotland, UK., July. Association for Computational Linguistics. Accessed January 2018.
[Sang and Meulder, 2003] Erik F. Tjong Kim Sang and Fien De Meulder. 2003. Introduction to the CoNLL-2003 shared task: Languageindependent named entity recognition. In Proceedings of the Seventh Conference on Natural Language Learning at HLT-NAACL 2003.
[Stubbs et al., 2015] Amber Stubbs and Ozlem Uzuner. 2015. Annotating longitudinal clinical narratives for de-identification: The 2014 i2b2/UTHealth corpus. Journal of biomedical informatics, 58:S20-S29. Available at https://www.i2b2.org/NLP/DataSets/ Accessed: February 2018.
[Uzuner et al., 2007] Ozlem Uzuner, Yuan Luo, and Peter Szolovits. 2007. Evaluating the state-of-the-art in automatic de-identification. Journal of the American Medical Informatics Association, 14(5):550-563. Available at https://www.i2b2.org/NLP/DataSets/ Accessed: February 2018.
[Weischedel and Brunstein, 2005] Ralph Weischedel and Ada Brunstein. 2005. BBN pronoun coreference and entity type corpus. Linguistic Data Consortium, Philadelphia.
[Weischedel et al., 2013] Weischedel, Ralph, Martha Palmer, Mitchell Marcus, Eduard Hovy, Sameer Pradhan, Lance Ramshaw, Nianwen Xue et al. Ontonotes release 5.0 ldc2013t19. Linguistic Data Consortium, Philadelphia, PA (2013).
[Zeldes, 2017] Amir Zeldes. 2017. The GUM corpus: creating multilayer resources in the classroom. Language Resources and Evaluation, 51(3):581-612. Available at https://github.com/amir-zeldes/gum/tree/master/coref/tsv/ Accessed: November 2017.