مجموعات البيانات للتعرف على الكيان
يحتوي هذا المستودع على مجموعات بيانات من العديد من المجالات المشروحة مع مجموعة متنوعة من أنواع الكيانات ، مفيدة للتعرف على الكيانات ومهام التعرف على الكيانات المسماة (NER).
ملاحظة: لم أعد أضف بنشاط مجموعات البيانات إلى هذه القائمة - من المحتمل أن يكون هناك المزيد من مجموعات بيانات NER التي ظهرت منذ عام 2020. ومع ذلك ، يسعدني إضافة المزيد من مجموعات البيانات عبر المشكلات أو طلب السحب.
مجموعات البيانات لـ NER باللغة الإنجليزية
يعرض الجدول التالي قائمة مجموعات البيانات للتعرف على الكيانات باللغة الإنجليزية (للحصول على قائمة مجموعات بيانات NER بلغات أخرى ، انظر أدناه). يحتوي دليل البيانات على معلومات حول مكان الحصول على مجموعات البيانات التي لا يمكن مشاركتها بسبب قيود الترخيص ، وكذلك رمز لتحويلها (إذا لزم الأمر) إلى تنسيق Conll 2003. كما تم سرد الروابط إلى NER Corpora بلغات أخرى أدناه.
| مجموعة البيانات | اِختِصاص | رخصة | مرجع | التوفر |
|---|
| كونل 2003 | أخبار | دو | Sang and Meulder ، 2003 | من السهل العثور عليه |
| Nist-ieer | أخبار | لا أحد | NIST 1999 IE-ER | بيانات NLTK |
| MUC-6 | أخبار | LDC | غريشمان وسوندهايم ، 1996 | LDC 2003T13 |
| Ontonotes 5 | متنوع | LDC | Weischedel et al. ، 2013 | LDC 2013T19 |
| BBN | متنوع | LDC | Weischedel و Brunstein ، 2005 | LDC 2005T33 |
| GMB-1.0.0 | متنوع | لا أحد | بوس وآخرون ، 2017 | http://gmb.let.rug.nl/data.php |
| Gum-3.1.0 | ويكي | عدة ( * 2) | Zeldes ، 2016 | ✔ مدرجة هنا |
| ويكولد | ويكيبيديا | CC-BY 4.0 | بالاسوريا وآخرون ، 2009 | ✔ مدرجة هنا |
| ريتر | تغريد | لا أحد | ريتر وآخرون ، 2011 | لا تقسيم ، قطار/اختبار/ديف انقسام |
| BTC | تغريد | CC-BY 4.0 | Derczynski et al. ، 2016 | ✔ مدرجة هنا |
| wnut17 | وسائل التواصل الاجتماعي | CC-BY 4.0 | Derczynski et al. ، 2017 | ✔ مدرجة هنا |
| I2B2-2006 | طبي | دو | Uzuner et al. ، 2007 | http://www.i2b2.org |
| I2B2-2014 | طبي | دو | Stubbs et al. ، 2015 | http://www.i2b2.org |
| كاديك | طبي | CSIRO | Karimi et al. ، 2015 | http://data.csiro.au/ |
| فقر | تشريحي | CC-BY-SA 3.0 | Ohta et al. ، 2012 | ✔ مدرجة هنا |
| mitrestaurant | استفسارات | لا أحد | Liu et al. ، 2013a | http://groups.csail.mit.edu/sls/ |
| ميتموفي | استفسارات | لا أحد | Liu et al. ، 2013b | http://groups.csail.mit.edu/sls/ |
| malweretextDB | البرامج الضارة | لا أحد | ليم وآخرون ، 2017 | http://www.statnlp.org/ |
| re3d | الدفاع | عدة ( * 1) | DSTL ، 2017 | ✔ مدرجة هنا |
| ثلث | تمويل | CC-BY 3.0 | ألفارادو وآخرون ، 2015 | ✔ مدرجة هنا |
| حَشد | الروبوتات | x | كوستا وآخرون ، 2017 | x |
| الويكنيمية | ويكيبيديا | CC BY-SA-NC 4.0 | Tedeschi et al. ، 2021 | https://github.com/babelscape/wikineural |
| multinerd | ويكيبيديا | CC BY-SA-NC 4.0 | Tedeschi et al. ، 2022 | https://github.com/babelscape/multinerd |
| Hipe-2022 | تاريخية | CC BY-SA-NC 4.0 | ehrmann et al. ، 2022 | https://github.com/hipe-eval/hipe-2022-data |
| رني الموسيقى | موسيقى | معهد ماساتشوستس للتكنولوجيا | Epure و Hennequin ، 2023 | https://github.com/deezer/music-ner-eacl2023 |
| WIESP2022-NER | الفيزياء الفلكية | CC BY-SA-NC 4.0 | Grezes et al. ، 2022 | https://huggingface.co/Datasets/adsabs/wiesp2022-ner |
| NNE | أخبار | CC 4.0 / LDC | Ringland et al. ، 2019 | https://github.com/nickyringland/nted_named_entities |
| في جميع أنحاء العالم | أخبار | CC BY-SA-NC 4.0 | شان وآخرون ، 2023 | https://github.com/stanfordnlp/en-worldwide-newswire https://arxiv.org/abs/2404.13465 |
التراخيص
ملاحظات على التراخيص:
(1) يحتوي RE3D ("مجموعة بيانات تقييم العلاقة واستخراج الكيان") على عدة مجموعات بيانات ، مع تراخيص مختلفة. هذه هي:
- CC-BY-SA 3.0 (Wikipedia Dataset)
- CC BY-NC 3.0 (BBC_ONLINE SETAS)
- CC بواسطة 3.0 AU (Australian_Department_of_Foreign_affairs مجموعة بيانات)
- المجال العام (مجموعة بيانات US_STATE_DEPARTMENT ، مجموعة بيانات Centcom)
- UK Open Government License v3.0 (UK_GOORDERNMENTER)
- delegation_of_the_european_union_to_syria: انظر https://eeas.europa.eu/delegations/syria/8157/legal-notice_en
- يتكون العلكة 3.1.0 من ثلاث مجموعات بيانات ، مع تراخيص CC-BY 3.0 و CC-BY-SA 3.0 و CC-BY-NC-SA 3.0. التعليقات التوضيحية مرخصة بموجب CC-BY 4.0.
يمكن العثور على مزيد من معلومات الترخيص التفصيلية لكل مجموعة بيانات في الدليل الفرعي المقابل.
لاحقًا ... - Tabassum et al. ، الكود والتعرف على الكيان المسماة في stackoverflow https://cocoxu.github.io/publications/acl2020_stackoverflow_ner.pdf - litbank: https://github.com/dbamman/litbank (bamman ، popat and shen ، an innotated ، anatated of antanities ، antantated ، NNE: مجموعة بيانات للتداخل مع التعرف على الكيان المسمى باللغة الإنجليزية ، 2019 https://github.com/nickyringland/nted_named_entities - Mars Target Encyclopedia - LPSC Abstracts Set: https://www.kaggle.com/dataturks/best-buy-ecommerce-ner-dataSet/hom https://aclanthology.org/2021.acl-long.248/
مجموعات البيانات لـ NER بلغات أخرى
معجمية اسم الكيان المسمى
- Heiner: http://heiner.cl.uni-heidelberg.de/index.shtml
- Neckar: https://event.ifi.uni-heidelberg.de/؟page_id=532#wikidata_ne_dataset
تبديل الكود
- التغريدات الإنجليزية-الإسبانية (Calcs 2018): https://code-switching.github.io/2018/ ؛ https://code-switching.github.io/2018/files/spa-eng/release.zip ؛ http://www.aclweb.org/anthology/w18-3219
- التغريدات العربية المصرية (Calcs 2018): https://code-switching.github.io/2018/ ؛ https://code-switching.github.io/2018/files/msa-egy/arabictWeetStokenSigner.zip ؛ http://www.aclweb.org/anthology/w18-3219
- Hindi-English وسائل التواصل الاجتماعي النص: https://github.com/silentflame/named-entity-recognition ؛ http://aclweb.org/anthology/w18-2405
- EMNLP 2014 المهمة المشتركة-تويت تم تبديل الكود (Nepali-English ، الإسبانية-الإنجليزية ، الماندرين-English ، العربية-الأرفرية لهجات): http://emnlp2014.org/workshops/codeswitch/call.html
الألمانية
- Conll 2003 (الإنجليزية ، الألمانية): https://www.clips.uantwerpen.be/conll2003/ner/
- Germeval 2014: https://sites.google.com/site/germeval2014ner/data
- Tübingen Treebank من German المكتوبة (Tüba-d/z): http://www.sfs.uni-tuebingen.de/en/ascl/resources/corpora/tueba-dz.html
- الصحف الأوروبية (الهولندية ، الفرنسية ، الألمانية): https://github.com/europeananewspapers/ner-corpora ؛ http://lab.kb.nl/dataset/europeana-newspapers-ner#access
- نصوص Europarl الألمانية (مجموعة فرعية): https://nlpado.de/~sebastian/software/ner_german.shtml
- نموذج كيان اسمه للألمانية ، السياسة (NEMGP): https://www.thomas-zastrow.de/nlp/
- wikiner: https://figshare.com/articles/learning_multilingual_named_entity_recognition_from_wikipedia/5462500
- wikineural: https://github.com/babelscape/wikineural
- multinerd: https://github.com/babelscape/multinerd
- Dfki SmartData Corpus (Geo-Enterities): https://dfki-lt-re-group.bitbucket.io/smartdata-corpus/ (مجموعة ألمانية من أجل الاعتراف بالكيان المسمى ، Maximil ، في Philippe ، في Philippe ، غابريساك ، ليونارد هينيج.
- DBPedia Abstract Corpus (الإنجليزية ، الألمانية ، الهولندية ، الفرنسية ، الإيطالية ، اليابانية): http://downloads.dbpedia.org/2015-04/ext/nlp/abstracts/
- Dawt DataSet - نصوص ويكيبيديا المعروفة الكثيفة عبر لغات متعددة (اللغة الإنجليزية ، الإسبانية ، الفرنسية ، الإيطالية ، الألمانية ، العربية): https://github.com/klout/opendata/tree/master/wiki_annotation
- Elena Leitner ، Georg Rehm ، Juli ́an Moreno-Schneider ، وهي مجموعة بيانات من الوثائق القانونية الألمانية للتعرف على الكيان المسماة ، LREC 2020: http://georg-re.hm/pdf/lrec-2020-leitner-et-al-preprint.pdf ؛ البيانات: https://github.com/elenanereiss/legal-entity-recognition
- Hipe-2012 ، المسمى التعرف على الكيان والكيان في الوثائق التاريخية متعددة اللغات: https://hipe-eval.github.io/hipe-2022/ https://github.com/hipe-eval/hipe-2022-data
هولندي
- Conll 2002 (الإسبانية ، الهولندية): https://www.clips.uantwerpen.be/conll2002/ner/
- الصحف الأوروبية (الهولندية ، الفرنسية ، الألمانية): https://github.com/europeananewspapers/ner-corpora ؛ http://lab.kb.nl/dataset/europeana-newspapers-ner#access
- في هذه الأثناء Corpus (مجموعة موازية: اللغة الإنجليزية ، الإسبانية ، الإيطالية ، الهولندية): http://www.newsreader-project.eu/results/data/wikinews/
- wikiner: https://figshare.com/articles/learning_multilingual_named_entity_recognition_from_wikipedia/5462500
- wikineural: https://github.com/babelscape/wikineural
- multinerd: https://github.com/babelscape/multinerd
- DBPedia Abstract Corpus (الإنجليزية ، الألمانية ، الهولندية ، الفرنسية ، الإيطالية ، اليابانية): http://downloads.dbpedia.org/2015-04/ext/nlp/abstracts/
- الوثائق البرلمانية الهولندية 2015-2016 ، من عام 1848.NL (جونكرز ، المسمى الكيان على الاعتراف بالوثائق البرلمانية الهولندية باستخدام الضفدع ، أطروحة ، جامعة أمستردام ، 2016):
- Sonar 1 - Desmet and Hoste ، Dutch Dutch الحبيبات المسمى Contity Contity ، 2014 (التسلسل الهرمي للصفوف)
- الكتب Corpus-Sonar و Corpus Gutenberg Dutch: http://blog.namescape.nl/؟page_id=85 ؛ http://portal.clarin.nl/node/1940
أفريكانيين
- nchlt afrikaans اسمه كيان مشروع corpus: https://repo.sadilar.org/handle/20.500.12185/299
الأسبانية
- Conll 2002 (الإسبانية ، الهولندية): https://www.clips.uantwerpen.be/conll2002/ner/
- Ancora (الإسبانية ، الكاتالانية): http://clic.ub.edu/corpus/en
- PEADT Spanish TreeBank (LDC2018T01): https://catalog.ldc.upenn.edu/LDC2018T01
- panacea (LAB): http://panacea-lr.eu/en/info-for-researchers/data-sets/dependency-parsed-corpora/dependency-lab-es
- panacea (env): http://panacea-lr.eu/en/info-for-researchers/data-sets/dependency-parsed-corpora/dependency-env-es
- في هذه الأثناء Corpus (مجموعة موازية: اللغة الإنجليزية ، الإسبانية ، الإيطالية ، الهولندية): http://www.newsreader-project.eu/results/data/wikinews/
- ACE 2007 (الإسبانية والعربية): https://catalog.ldc.upenn.edu/LDC2014T18
- wikiner: https://figshare.com/articles/learning_multilingual_named_entity_recognition_from_wikipedia/5462500
- wikineural: https://github.com/babelscape/wikineural
- multinerd: https://github.com/babelscape/multinerd
- http://www.grupolys.org/~marcos/pub/lrec16.tar.bz2 (المستخدمة في "دمج الاستدلال في المعاق السام إلى مناخس قرار الأساسي للتعرف على الكيان المسمى على مستوى المستند")
- مجموعة متعددة اللغات مع شرح أساسي للكيانات الشخصية (الإسبانية ، الجاليكي ، البرتغالي): http://gramatica.usc.es/~marcos/lrec.tar.bz2
- المعيار الذهبي للأدوية (Moreno et al.
- DBPedia Abstract Corpus (الإنجليزية ، الألمانية ، الهولندية ، الفرنسية ، الإيطالية ، اليابانية): http://downloads.dbpedia.org/2015-04/ext/nlp/abstracts/
- Dawt DataSet - نصوص ويكيبيديا المعروفة الكثيفة عبر لغات متعددة (اللغة الإنجليزية ، الإسبانية ، الفرنسية ، الإيطالية ، الألمانية ، العربية): https://github.com/klout/opendata/tree/master/wiki_annotation
- Cantemist (مهمة تعدين النص السرطان المشترك - التعرف على الورم المسماة) - التعرف على الكيان المسمى نوعًا مهمًا من المفاهيم المتعلقة بالسرطان ، وهو مورفولوجيا الورم في النصوص الطبية الإسبانية: https://temu.bsc.es/cantemist/
كاتالونية
- Ancora (الإسبانية ، الكاتالانية): http://clic.ub.edu/corpus/en
جاليكيان
- Galician ner corpus: https://gramatica.usc.es/~marcos/resources/corpus_gal_nec.txt.gz
- مجموعة متعددة اللغات مع شرح أساسي للكيانات الشخصية (الإسبانية ، الجاليكي ، البرتغالي): http://gramatica.usc.es/~marcos/lrec.tar.bz2
الباسك
- الباسك المسماة كوربوس (EIEC): http://ixa.eus/node/4486؟language=en
- pasque disambigated اسم كيانات كوربوس (ediec): http://ixa.si.ehu.es/node/4485؟language=en
- Egunkaria 2000 Corpus (383 Newswire النص) ، المذكورة في http://qtleap.eu/wp-content/uploads/2014/04/qtleap-2013-d5.1.pdf
البرتغالية
- حريم: https://www.linguateca.pt/aval_conjunta/harem/harem_ing.html
- Cintil Corpus: http://cintil.ul.pt/cintilfeatures.html#corpus
- wikiner: https://figshare.com/articles/learning_multilingual_named_entity_recognition_from_wikipedia/5462500
- wikineural: https://github.com/babelscape/wikineural
- multinerd: https://github.com/babelscape/multinerd
- مجموعة متعددة اللغات مع شرح أساسي للكيانات الشخصية (الإسبانية ، الجاليكي ، البرتغالي): http://gramatica.usc.es/~marcos/lrec.tar.bz2
- Bosque 8.0 Eagles Format: https://gramatica.usc.es/~marcos/resources/corpora_flpt.tgz
- Lener-BR (الوثائق القانونية البرازيلية): https://cic.unb.br/~teodecampos/lener-br/
- Paramopama: مجموعة برازيلية البرازيلية للاعتراف بالكيان المسماة
فرنسي
- إستر: http://catalogue.elra.info/en-us/repository/browse/elra-s0241/
- Ester 2: http://catalogue.elra.info/en-us/repository/browse/elra-s0338/
- etape: http://catalogue.elra.info/en-us/repository/browse/elra-e0046/
- الصحف الأوروبية (الهولندية ، الفرنسية ، الألمانية): https://github.com/europeananewspapers/ner-corpora ؛ http://lab.kb.nl/dataset/europeana-newspapers-ner#access
- Quaero French Medical Corpus: https://quaaerofrenchmed.limsi.fr/
- تم تمديد أخبار البث Quaero المسمى Entity Corpus: http://catalog.elra.info/en-us/repository/browse/elra-s0349/
- Quaero Old Press Extended Entity Corpus: http://catalog.elra.info/en-us/repository/browse/elra-w0073/
- wikiner: https://figshare.com/articles/learning_multilingual_named_entity_recognition_from_wikipedia/5462500
- wikiner-fr-gold https://arxiv.org/abs/2411.00030 https://huggingface.co/Datasets/Danrun/wikiner-fr-gold
- wikineural: https://github.com/babelscape/wikineural
- multinerd: https://github.com/babelscape/multinerd
- DBPedia Abstract Corpus (الإنجليزية ، الألمانية ، الهولندية ، الفرنسية ، الإيطالية ، اليابانية): http://downloads.dbpedia.org/2015-04/ext/nlp/abstracts/
- Dawt DataSet - نصوص ويكيبيديا المعروفة الكثيفة عبر لغات متعددة (اللغة الإنجليزية ، الإسبانية ، الفرنسية ، الإيطالية ، الألمانية ، العربية): https://github.com/klout/opendata/tree/master/wiki_annotation
- CAP 2017 - (Twitter Data) ، Lopez et al. ، Cap 2017 Challenge: Twitter Named Entity التعرف ، 2017: http://cap2017.imag.fr/competition.html
- Hipe-2012 ، المسمى التعرف على الكيان والكيان في الوثائق التاريخية متعددة اللغات: https://hipe-eval.github.io/hipe-2022/ https://github.com/hipe-eval/hipe-2022-data
إيطالي
- النوع: https://github.com/dhfbk/kind
- evalita: http://www.evalita.it/2009/tasks/entity
- في هذه الأثناء Corpus (مجموعة موازية: اللغة الإنجليزية ، الإسبانية ، الإيطالية ، الهولندية): http://www.newsreader-project.eu/results/data/wikinews/
- panacea (env): http://panacea-lr.eu/en/info-for-researchers/data-sets/dependency-parsed-corpora/dependency-env-it
- panacea (LAB): http://panacea-lr.eu/en/info-for-researchers/data-sets/dependency-parsed-corpora/dependency-lab-it
- wikiner: https://figshare.com/articles/learning_multilingual_named_entity_recognition_from_wikipedia/5462500
- wikineural: https://github.com/babelscape/wikineural
- multinerd: https://github.com/babelscape/multinerd
- DBPedia Abstract Corpus (الإنجليزية ، الألمانية ، الهولندية ، الفرنسية ، الإيطالية ، اليابانية): http://downloads.dbpedia.org/2015-04/ext/nlp/abstracts/
- Dawt DataSet - نصوص ويكيبيديا المعروفة الكثيفة عبر لغات متعددة (اللغة الإنجليزية ، الإسبانية ، الفرنسية ، الإيطالية ، الألمانية ، العربية): https://github.com/klout/opendata/tree/master/wiki_annotation
روماني
- Ronec (Dumitrescu و Avram ، تقديم Ronec - الرومانية المسماة Corpus. LREC 2020). ورقة: https://arxiv.org/pdf/1909.01247.pdf البيانات: https://github.com/dumitrescustefan/ronec
- كوربوس الصحفي الروماني (روكو):
- كوربوس روماني متوازن (رومباك):
اليونانية
- panacea (env): http://panacea-lr.eu/en/info-for-researchers/data-sets/dependency-parsed-corpora/dependency-env-el
- panacea (LAB): http://panacea-lr.eu/en/info-for-researchers/data-sets/dependency-parsed-corpora/dependency-lab-el
المجري
- مجري اسم Entity Corpora: http://rgai.inf.u-szeged.hu/index.php؟lang=en&page=corpus_ne
- Hunnerwiki: http://hlt.sztaki.hu/resources/hunnerwiki.html
- NYTK: https://github.com/nytud/nytk-nerkor
التشيكية
- تشيكي اسمه كيان كوربوس: http://ufal.mff.cuni.cz/cnec
- BSNLP 2017 (الكرواتية ، التشيكية ، البولندية ، الروسية ، سلوفاك ، سلوفيني ، أوكرانية): http://bsnlp-2017.cs.helsinki.fi/shared_task_results.html
- Czeng 1.0 (مجموعة موازية: Czech-English): http://ufal.mff.cuni.cz/czeng/czeng10
- Pero OCR ner (Chronicles التشيكية التاريخية): https://github.com/Roman-Janik/Poner
بولندي
- The Polish Sejm Corpus: http://clip.ipipan.waw.pl/psc
- BSNLP 2017 (الكرواتية ، التشيكية ، البولندية ، الروسية ، سلوفاك ، سلوفيني ، أوكرانية): http://bsnlp-2017.cs.helsinki.fi/shared_task_results.html
- Coreference Corpus: http://zil.ipipan.waw.pl/polishCoreferenceCorpus
- wikiner: https://figshare.com/articles/learning_multilingual_named_entity_recognition_from_wikipedia/5462500
- wikineural: https://github.com/babelscape/wikineural
- multinerd: https://github.com/babelscape/multinerd
- Corpus of Economic News (CEN Corpus): http://www.nlp.pwr.wroc.pl/narzedzia-i- zasoby/zasoby/cen
- KPWR (Korpus języka Polskiego Politechniki Wrocławskiej/Polish Corpus of Wrocław University): http://plwordnet.pwr.wroc.pl/index.php؟option=com_content&view=article&id=35&itemid=181&lang=pl=pl ؛ http://plwordnet.pwr.wroc.pl/attachments/article/35/kpwr-1.1.1.7z (Broda et al. ، KPWR: نحو مجموعة مجانية من البولندية ، 2012)
- NKJP: http://clip.ipipan.waw.pl/nationalcorpusofpolish؟action=attachfile&do=view&target=nkjp-podkorpusmilionowy-1.2.tar.gz
الكرواتية
- HR500K 1.0: http://hdl.handle.net/11356/1183
- BSNLP 2017 (الكرواتية ، التشيكية ، البولندية ، الروسية ، سلوفاك ، سلوفيني ، أوكرانية): http://bsnlp-2017.cs.helsinki.fi/shared_task_results.html
- Reldi-normtagner-HR (التغريدات الكرواتية): http://hdl.handle.net/11356/1170
سلوفاك
- BSNLP 2017 (الكرواتية ، التشيكية ، البولندية ، الروسية ، سلوفاك ، سلوفيني ، أوكرانية): http://bsnlp-2017.cs.helsinki.fi/shared_task_results.html
- سلوفاك مصنفة أخبار كوربوس: https://nlp.web.tuke.sk/pages/categorizednews
سلوفيني
- BSNLP 2017 (الكرواتية ، التشيكية ، البولندية ، الروسية ، سلوفاك ، سلوفيني ، أوكرانية): http://bsnlp-2017.cs.helsinki.fi/shared_task_results.html
- ssj500k: http://www.slovenscina.eu/tehnologije/ucni-korpus ؛ http://eng.slovenscina.eu/tehnologije/ucni- korpus ؛ https://www.clarin.si/repository/xmlui/handle/11356/1029 ؛ ملاحظة: لـ V 2.2 انظر: http://hdl.handle.net/11356/1210
- أخبار Slovene: http://zitnik.si/MediaWiki/Index.php؟title=datasets#slovene_news ؛ http://zitnik.si/mediawiki/images/7/7d/rtvslo_dec2011.tsv ؛ http://zitnik.si/mediawiki/images/5/5e/rtvslo_dec2011_v2.tsv
- Janes-Tag 2.0 (نص التواصل الاجتماعي) https://www.clarin.si/repository/xmlui/handle/11356/1123 ؛ انظر أيضًا: Fišer et al.
الأوكرانية
- BSNLP 2017 (الكرواتية ، التشيكية ، البولندية ، الروسية ، سلوفاك ، سلوفيني ، أوكرانية): http://bsnlp-2017.cs.helsinki.fi/shared_task_results.html
- أوكرانية براون نير كوربوس: https://github.com/lang-uk/ner-uk ؛ http://lang.org.ua/en/corpora/
الصربي
- setimes.sr - http://hdl.handle.net/11356/1200
- كوربوس تقييم الكيانات المسمى لـ Serbian: http://www.korpus.matf.bg.ac.rs/srpneval/
- Reldi-normtagner-SR (تويت الصربية): http://hdl.handle.net/11356/1171
البلغارية
الأيسلندية
- Mim-Gold-Ner (Ingólfsdóttir ، Svanhvít Lilja ، Sigurjón Þorsteinsson ، و Hrafn Loftsson. http://www.malfong.is/index.php؟pg=mim_gold_ner
دانماركي
- Dane: Hvingelby et al. ، [dane: A estity Resource for Danish.] (
- Propbank الدنماركية (DPB): http://catalog.elra.info/en-us/repository/browse/elra-w0117/
- Arboretum TreeBank: http://catalog.elra.info/en-us/repository/browse/elra-w0084/
النرويجية
- Bjarte Johansen ، المعروف باسم Entity لـ Norwegian ، وقائع المؤتمر الثاني والعشرين حول اللغويات الحاسوبية. 2019 (https://www.aclweb.org/anthology/w19-6123.pdf) البيانات: https://github.com/ljos/navnkjenner
- Fredrik Jørgensen et al. ، Norne: التعليقات المعروفة باسم الكيانات النرويجية ، 2019 (https://arxiv.org/pdf/1911.12146.pdf). البيانات: https://github.com/ltgoslo/norne/ ؛ https://www.nb.no/sprakbanken/show؟serial=oai٪3anb.no٪3ASBR-49
السويدية
- Stockholm Internet Corpus: https://www.ling.su.se/english/nlp/corpora-and-resources/sic
- SUC 3.0: https://spraakbanken.gu.se/eng/resource/SUC3
- NER السويدي المشروع يدويًا: https://github.com/klintan/swedish-ner-corpus/
- بيانات Wikipedia الطبية (Almgren et al. ، اسم التعرف على الكيان في السجلات الصحية السويدية مع LSTMS العميقة القائمة على الشخصية ، 2016):
- Hipe-2012 ، المسمى التعرف على الكيان والكيان في الوثائق التاريخية متعددة اللغات: https://hipe-eval.github.io/hipe-2022/ https://github.com/hipe-eval/hipe-2022-data
الفنلندية
- مجموعات البيانات للفنلندي المسماة Recoginition: https://github.com/mpsilfve/finer-data
- Turku ner Corpus: https://github.com/turkunlp/turku-ner-corpus
- Hipe-2012 ، المسمى التعرف على الكيان والكيان في الوثائق التاريخية متعددة اللغات: https://hipe-eval.github.io/hipe-2022/ https://github.com/hipe-eval/hipe-2022-data
الإستونية
- Estonian ner corpus: https://metashare.ut.ee/repository/browse/estonian-ner-corpus/88d030c0acde11e2a6e4005056b40024f1def472ed254e7a8952e1003d9f81e/
لاتفيا وليتواني
- https://github.com/accurat-toolkit/tildener/tree/master/test (Pinnis ، Latvian و Lithuanian Contity Contity with Tildener ، LREC 2012)
- بيانات التدريب لـ LV Tagger: https://github.com/peterisp/lvtagger/tree/master/nertrainingdata
التركية
- K̈ucuk و Can ، مجموعة بيانات تغريدة مشروحة للتعرف على الكيان المسماة والكشف عن الموقف ، 2019: https://github.com/dkucuk/tweet-dataset-ner-sd
- K̈ucuk et al. ، اسم التعرف على الكيان على التغريدات التركية: http://optima.jrc.it/resources/2014_jrc_twitter_tr_ner-dataset.zip
- اللغة الإنجليزية/التركية wikipedia اسم بيانات التصنيف النصية والتصنيف النصية (http://arxiv.org/abs/1702.02363): https://data.mendeley.com/datasets/cdcztymk/1
- çoban et al ، اسم التعرف على الكيان على fbner: مجموعة بيانات جديدة على Facebook باللغة التركية: https://ieeexplore.ieee.org/document/9598971 البيانات المتاحة لأغراض البحث عند الطلب
كازاخاخية
- Kaznerd: https://arxiv.org/pdf/2111.13419.pdf ، https://github.com/is2ai/kaznerd
أويغور
- Uyghur المسمى Contity Relation Corpus: https://github.com/Kaharjan/Uynerel (Abiderexiti et al.
أرمني
- PIONER (Gold-Standard and Silver-Standard Cets): https://github.com/ispras-texterra/pioner (Ghukasyan et al.
- ARMTDP-REN: https://github.com/myavrum/armtdp-ner
القبطية
- TreeBank التبعية العالمية القبطية: https://github.com/universaldependencies/ud_coptic-scriptorium/tree/dev (انظر أيضًا https://copticscriptorium.org/treebank.html). هذا يحتوي على 46000 رمز من الكيانات المتداخلة (غير) المسمى و wikified من النصوص القبطية السحدية.
أمهرية
- Say Corpus (انظر "التعرف على الكيان المسماة لـ Amharic باستخدام التعلم العميق"): https://github.com/gezorg/data/tree/master/amharic/tagged/nmsu-say ؛ http://data.geez.org/
عربي
- AQMAR ARABIC WIKIPEDIA اسمه ENTITY CORPUS: http://www.cs.cmu.edu/~ark/arabicner/
- NE3L المسمى الكيانات العربية (العربية ، الصينية ، الروسية): http://catalog.elra.info/en-us/repository/browse/elra-w0078/
- ترجمة الكيان المنعكس (مجموعة موازية: اللغة الإنجليزية ، العربية ، الصينية): https://catalog.ldc.upenn.edu/ldc2009t11
- Anercorp: http://users.dsic.upv.es/~ybenajiba/downloads.html (انظر أيضًا: http://alias-i.com/lingpipe/demos/tutorial/ne/read-me.html)
- ACE 2003 (الإنجليزية ، الصينية ، العربية): https://catalog.ldc.upenn.edu/LDC2004T09
- ACE 2004 (الإنجليزية ، الصينية ، العربية): https://catalog.ldc.upenn.edu/LDC2005T09
- ACE 2005 (الإنجليزية ، الصينية ، العربية): https://catalog.ldc.upenn.edu/LDC2006T06
- ACE 2007 (الإسبانية والعربية): https://catalog.ldc.upenn.edu/LDC2014T18
- ontonotes 5 (الإنجليزية ، العربية ، الصينية): https://catalog.ldc.upenn.edu/ldc2013t19
- Dawt DataSet - نصوص ويكيبيديا المعروفة الكثيفة عبر لغات متعددة (اللغة الإنجليزية ، الإسبانية ، الفرنسية ، الإيطالية ، الألمانية ، العربية): https://github.com/klout/opendata/tree/master/wiki_annotation
- Wojood - 2022 ARANTER ARANTER CORPUS CORPUS. https://dlnlp.ai/st/wojood/ https://aclanthology.org/2022.lrec-1.387.pdf https://codalab.lisn.upsaclay.fr/competitions/11740
فارسي
- ArmanpersonerCorpus: http://islrn.org/resources/399-379-640-828-6/ ؛ https://github.com/haniehp/persianner
السندي
- Siner: https://aclanthology.org/2020.lrec-1.361/ ، https://github.com/aliwazir/siner-dataset
الأردية
- ijcnlp 2008 sseal: http://ltrc.iiit.ac.in/ner-ssea-08/index.cgi؟topic=5
- مجموعة بيانات UNER (Khan et al. ، اسم مجموعة بيانات الكيانات لمهمة التعرف على الكيان المسماة للأوردو ، 2016). متاح على http://www.iiu.edu.pk/؟page_id=5181
- mk-pucit: https://www.dropbox.com/sh/1ivw7ykm2tugg94/aab9t5wnn7fynespo7tjjw8la ؛ انظر: Kanwal et al.
مؤتمر
- Naamapadam: مجموعة بيانات التعرف على الكيان (NER) لـ 11 لغة هندية رئيسية من عائلتين لغة. https://research.ibm.com/publications/naamapadam-a-large-scale-named-antity-antated-data-for-indic-languages https://ai4bharat.iitm.ac.in/naamapadam
الهندية
- Hiner: https://github.com/cfiltnlp/hiner
- مجموعة بيانات الصحة الهندية: https://www.kaggle.com/aijain/hindi-health-dataset/home
- Fire 2015 ، ESM-IL (English ، Hindi ، Tamil ، Malayalam): http://au-kbc.org/nlp/esm-fire2015/#traincorpus
- Fire ner 2013 (English ، Hindi ، Tamil ، Malayalam ، Bengali): http://au-kbc.org/nlp/ner-fire2013/
- ijcnlp 2008 sseal: http://ltrc.iiit.ac.in/ner-ssea-08/index.cgi؟topic=5
البنغالية
- Fire ner 2013 (English ، Hindi ، Tamil ، Malayalam ، Bengali): http://au-kbc.org/nlp/ner-fire2013/
- ijcnlp 2008 sseal: http://ltrc.iiit.ac.in/ner-ssea-08/index.cgi؟topic=5
- Bengali-ner: https://github.com/rifat1493/bengali-ner ، https://ieeexplore.ieee.org/document/8944804
- ner-bangla: https://github.com/misabic/ner-bangla-dataset ، https://content.iospress.com/articles/journal-of-intelligent-and-fuzzy-systems/ifs179349
التيلجو
- ner_telugu: https://github.com/anikethjr/ner_telugu
- ijcnlp 2008 sseal: http://ltrc.iiit.ac.in/ner-ssea-08/index.cgi؟topic=5
- CORPORA ENTITY ENTITY المسمى لـ Telugu: http://www.tdil-dc.in/index.php؟option=com_download&task=showresourcedetails&toolid=982&lang=en
Maithili
- أول معرف على الكيان المسمى في Maithili: إنشاء الموارد وتطوير النظام: https://content.iospress.com/articles/journal-of-intelligent-and-fuzzy-systems/ifs210051
النيبالي
- Everestner: https://journals.flvc.org/flairs/article/view/130725 ، https://github.com/nowalab/everest-ner
المهاراتية
- CORPORA المسمى ENTITY ENTITY TELED FOR MARATHI:
- l3cube mahaner: https://arxiv.org/abs/2204.06029 https://github.com/l3cube-pune/marathinlp
البنجابية
- CORPORA المسمى ENTITY ENTITY TENTITED CORPORA لـ PUNJABI:
التاميل
- Fire 2015 ، ESM-IL (English ، Hindi ، Tamil ، Malayalam): http://au-kbc.org/nlp/esm-fire2015/#traincorpus
- Fire ner 2013 (English ، Hindi ، Tamil ، Malayalam ، Bengali): http://au-kbc.org/nlp/ner-fire2013/
الملايالام
- Fire 2015 ، ESM-IL (English ، Hindi ، Tamil ، Malayalam): http://au-kbc.org/nlp/esm-fire2015/#traincorpus
- Fire ner 2013 (English ، Hindi ، Tamil ، Malayalam ، Bengali): http://au-kbc.org/nlp/ner-fire2013/
Oriya/Odia
- ijcnlp 2008 sseal: http://ltrc.iiit.ac.in/ner-ssea-08/index.cgi؟topic=5
السنهالية/السنهالية
التايلاندية
- التايلاندية-entity-recognition-data: https://github.com/pythainlp/thai-named-entity-recognition-data
- Thai المسمى Entity Corpora: http://pioneer.chula.ac.th/~awirote/resources/corpora-data.html ؛ http://pioneer.chula.ac.th/~awirote/data-nutcha.zip ؛ http://pioneer.chula.ac.th/~awirote/data-sasiwimon.zip ؛ http://pioneer.chula.ac.th/~awirote/data-nattadaporn.zip
- LST20: https://huggingface.co/Datasets/LST20 ؛ https://arxiv.org/abs/2008.05055
- Thai-nner: https://github.com/vistec-ai/thai-nner ، https://aclanthology.org/2022.findings-acl.116
إندونيسي
- متطابق: http://metashare.elda.org/repository/browse/identic/fed3fada7ef111e5aa3b001ddd8b71c6c98eee36eabd42f18fd9a95da9104cc/
- https://github.com/yohanesgultom/nlp-experiments/tree/master/data/ner
- Indonesia-Nn
- Idner-News-2K: مجموعة بيانات من الأخبار الإندونيسية لمهمة التعرف على التراجع المسماة. إعادة تصنيع syaifudin & nurwidyantoro https://dl.acm.org/doi/10.1145/3592854#fn8 https://github.com/khairunnisaor/idner-news-2k/
- NERP و NER-GRIT: مجموعتان من البيانات الإندونيسية من IndonLP/Indonlu https://github.com/indonlp/indonlu/tree/master/dataset https://aclanthology.org/2020.aacl-main.85/
الفيتنامي
- VLSP 2016: http://vlsp.org.vn/resources-vlsp2016 ؛ https://github.com/undertheseanlp/ner
- VLSP 2018: http://vlsp.org.vn/resources-vlsp2018 ؛ https://github.com/undertheseanlp/ner
- phoner_covid19: https://github.com/vinairesearch/phoner_covid19
اليابانية
- IREX: https://nlp.cs.nyu.edu/irex/package/
- Met-2 (اليابانية ، الصينية): https://www-nlpir.nist.gov/releated_projects/muc/
- BCCWJ BASIC NE Corpus: https://sites.google.com/site/projectnextnlpne/en (Iwakura et al. ، بناء مجموعة أساسية يابانية مسماة من الأنواع المختلفة ، الأخبار 2016)
- DBPedia Abstract Corpus (الإنجليزية ، الألمانية ، الهولندية ، الفرنسية ، الإيطالية ، اليابانية): http://downloads.dbpedia.org/2015-04/ext/nlp/abstracts/
- بيانات من: Mai et al. ، دراسة تجريبية حول التعرف على الكيان المسمى الحبيبات ، Coling 2018 (الإنجليزية ، اليابانية): https://fgner.alt.ai/duc/ene/testsets/comp/
- Wikipedia ner corpus: https://github.com/stockmarkteam/ner-wikipedia-dataset
- ويكيان: https://elisa-ie.github.io/wikiann/
- GSD: تحويل مجموعة بيانات UD GSD إلى الكيانات المسمى من قبل Megagon Labs https://github.com/megagonlabs/ud_japanese-gsd
- KWDLC: وثيقة الويب بجامعة Kyoto تقود Corpus https://nlp.ist.i.kyoto-u.ac.jp/en/index.php؟kwdlc https://github.com/ku-nlp/kwdlc
كوري
- المعهد الوطني للغة الكورية (ROK) - NER Corpus: https://github.com/digitalprk/koreaner ؛ https://ithub.korean.go.kr/user/total/referenceview.do؟boardseq=5&articleseq=118&boardgb=t&isinsupd&boboardtype=corpus
- Kmou ner - https://github.com/kmounlp/ner
- تقييم فهم اللغة الكورية - Klue ner - https://klue-benchmark.com/tasks/69/overview/description
- https://github.com/songys/entity
- HLCT 2016 Corpus ، مع التحديثات - https://github.com/machinereading/koreannercorpus
الصينية
- ACE 2003 (الإنجليزية ، الصينية ، العربية): https://catalog.ldc.upenn.edu/LDC2004T09
- ACE 2004 (الإنجليزية ، الصينية ، العربية): https://catalog.ldc.upenn.edu/LDC2005T09
- ACE 2005 (الإنجليزية ، الصينية ، العربية): https://catalog.ldc.upenn.edu/LDC2006T06
- ontonotes 5 (الإنجليزية ، العربية ، الصينية): https://catalog.ldc.upenn.edu/ldc2013t19
- Met-2 (اليابانية ، الصينية): https://www-nlpir.nist.gov/releated_projects/muc/
- ترجمة الكيان المنعكس (مجموعة موازية: اللغة الإنجليزية ، العربية ، الصينية): https://catalog.ldc.upenn.edu/ldc2009t11
- NE3L المسمى الكيانات الصينية (العربية ، الصينية ، الروسية): http://catalogue.elra.info/en-us/repository/browse/elra-w0079/
- تصنيف بيانات القصيرة الأصلية I باللغة الصينية (الكيانات المسمى): http://catalog.elra.info/en-us/repository/browse/elra-w0045_04/
- بيانات البيانات القصيرة الأصلية II باللغة الصينية (الكيانات المسمى): http://catalog.elra.info/en-us/repository/browse/elra-w0045_08/
- ERE PEADT CORPORA (مجموعة موازية: اللغة الإنجليزية ، الصينية): Mott et al.
- Weibo الصينية: مربعات أنيقة للملاحظة المسماة والاسمية على وسائل التواصل الاجتماعي الصينية (Weibo): https://github.com/hltcoe/golden-horse
- Eduner الصينية: 2023 مجموعة بيانات في مجال التعليم: https://link.springer.com/article/10.1007/s00521-023-08635-5 https://github.com/anonymous-xl/eduner
- Chinese Aerospace NER: https://www.nature.com/articles/s41598-023-50705-0 https://github.com/Coder-XIAOKAI/Aerospace_NERdatasets
- SciCN: A Chinese Dataset and Benchmark for Scientific Information Extraction https://file.techscience.com/files/cmc/2024/TSP_CMC-78-3/TSP_CMC_35594/TSP_CMC_35594.pdf https://github.com/yangjingla/SciCN
- EMP NER: Historical Chinese https://aclanthology.org/2024.lrec-main.35.pdf https://gitlab.com/enpchina/ENP-NER
التاغالوغ
- TLUnifed: https://arxiv.org/abs/2311.07161 https://huggingface.co/datasets/ljvmiranda921/tlunified-ner
الروسية
- BSNLP 2017 (Croatian, Czech, Polish, Russian, Slovak, Slovene, Ukrainian): http://bsnlp-2017.cs.helsinki.fi/shared_task_results.html
- NE3L named entities Russian corpus (Arabic, Chinese, Russian): https://catalog.elra.info/en-us/repository/browse/ELRA-W0080/
- WikiNER: https://figshare.com/articles/Learning_multilingual_named_entity_recognition_from_Wikipedia/5462500
- WikiNEuRal: https://github.com/Babelscape/wikineural
- MultiNERD: https://github.com/Babelscape/multinerd
- factRuEval-2016: https://github.com/dialogue-evaluation/factRuEval-2016
- RuREBus 2020 (Russian Relation Extraction for Business) corpus https://github.com/dialogue-evaluation/RuREBus
يوروبا
- GV-Yorùbá-NER. Data: https://github.com/ajesujoba/YorubaTwi-Embedding/tree/master/Yoruba/Yor%C3%B9b%C3%A1-NER ; Data statement: https://drive.google.com/file/d/177xu-O2FTJ7VJQ-0ohCWjVd1qu61Tvml/view Paper: Jesujoba O Alabi, Kwabena Amponsah-Kaakyire, David I Adelani, and Cristina Espãna-Bonet. Massive vs. curated word embeddings for low-resourced languages. the case of Yorùbá and Twi. In LREC, 2020 (https://arxiv.org/abs/1912.02481)
السواحيلية
- Helsinki Corpus of Swahili 2.0 (HCS 2.0) Annotated Version: http://metashare.csc.fi/repository/browse/helsinki-corpus-of-swahili-20-hcs-20-annotated-version/232c1910b9eb11e5915e005056be118e59fb2e920f1f4c0cafc94915fc6f5cac/ See: Shah et al., 2010. SYNERGY: A Named Entity Recognition System for Resource-scarce Languages such as Swahili using Online Machine Translation
Igbo
- IgboNER: https://aclanthology.org/2022.lrec-1.547/ https://github.com/Chiamakac/IgboNER-Models later updated in https://openreview.net/pdf?id=tHUS9-vmUfC from https://sites.google.com/view/africanlp2023/home
isiNdebele
- NCHLT isiNdebele Named Entity Annotated Corpus: https://repo.sadilar.org/handle/20.500.12185/306
Xhosa
- NCHLT isiXhosa Named Entity Annotated Corpus: https://repo.sadilar.org/handle/20.500.12185/312
زولو
- NCHLT isiZulu Named Entity Annotated Corpus: https://repo.sadilar.org/handle/20.500.12185/319
Sepedi
- NCHLT Sepedi Named Entity Annotated Corpus: https://repo.sadilar.org/handle/20.500.12185/328
Sesotho
- NCHLT Sesotho Named Entity Annotated Corpus: https://repo.sadilar.org/handle/20.500.12185/334
Setswana
- NCHLT Setswana Named Entity Annotated Corpus: https://repo.sadilar.org/handle/20.500.12185/341
Siswati
- NCHLT Siswati Named Entity Annotated Corpus: https://repo.sadilar.org/handle/20.500.12185/346
Venda
- NCHLT Tshivenda Named Entity Annotated Corpus: https://repo.sadilar.org/handle/20.500.12185/355
- MPHAYANER: Named Entity Recognition for Tshivenḓa: https://openreview.net/pdf?id=0nneuL3bSLt https://github.com/rendanim/MphayaNER from https://sites.google.com/view/africanlp2023/home
Xitsonga
- NCHLT Xitsonga Named Entity Annotated Corpus: https://repo.sadilar.org/handle/20.500.12185/362
اللاتينية
- Herodotos Project: https://github.com/alexerdmann/Herodotos_Project_Annotation
A long list can be found here: http://damien.nouvels.net/resourcesen/corpora.html
مراجع
[Alvarado et al., 2015] Alvarado, Julio Cesar Salinas, Karin Verspoor, and Timothy Baldwin. Domain adaption of named entity recognition to support credit risk assessment. In Proceedings of the Australasian Language Technology Association Workshop 2015, pp. 84-90. 2015. Accessed: August 2018.
[Balasuriya et al., 2009] Balasuriya, Dominic, Nicky Ringland, Joel Nothman, Tara Murphy, and James R. Curran. Named entity recognition in wikipedia. In Proceedings of the 2009 Workshop on The People's Web Meets NLP: Collaboratively Constructed Semantic Resources, pp. 10-18. Association for Computational Linguistics, 2009
[Bos et al., 2017] Bos, Johan, Valerio Basile, Kilian Evang, Noortje J. Venhuizen, and Johannes Bjerva. The Groningen meaning bank. In Handbook of linguistic annotation, pp. 463-496. Springer, Dordrecht, 2017.
[Derczynski et al., 2016] Derczynski, Leon, Kalina Bontcheva, and Ian Roberts. Broad twitter corpus: A diverse named entity recognition resource. In Proceedings of COLING 2016, the 26th International Conference on Computational Linguistics: Technical Papers, pp. 1169-1179. 2016. Available at: https://github.com/GateNLP/broad_twitter_corpus Accessed: August 2018.
[Derczynski et al., 2017] Leon Derczynski, Eric Nichols, Marieke van Erp, Nut Limsopatham (2017) Results of the WNUT2017 Shared Task on Novel and Emerging Entity Recognition, in Proceedings of the 3rd Workshop on Noisy, User-generated Text. Available at: https://noisy-text.github.io/2017/emerging-rare-entities.html
[DSTL, 2017] Defence Science and Technology Laboratory. 2017. Relationship and Entity Extraction Evaluation Dataset. https://github.com/dstl/re3d. Accessed: January 2018.
[Grishman and Sundheim, 1996] Ralph Grishman and Beth Sundheim. 1996. Message understanding conference- 6: A brief history. In COLING 1996 Volume 1: The 16th International Conference on Computational Linguistics.
[Karimi et al., 2015] Sarvnaz Karimi, Alejandro Metke-Jimenez, Madonna Kemp, and Chen Wang. 2015. Cadec: A corpus of adverse drug event annotations. Journal of biomedical informatics, 55:73-81. Available at https://data.csiro.au Accessed: November 2017.
[Lim et al., 2017] Lim, Swee Kiat, Aldrian Obaja Muis, Wei Lu, and Chen Hui Ong. MalwareTextDB: A database for annotated malware articles. In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), vol. 1, pp. 1557-1567. 2017.
[Liu et al., 2013a] Jingjing Liu, Panupong Pasupat, Scott Cyphers, and Jim Glass. 2013. Asgard: A portable architecture for multilingual dialogue systems. In Acoustics, Speech and Signal Processing (ICASSP), 2013 IEEE International Conference on, pages 8386-8390. IEEE. Available at https://groups.csail.mit.edu/sls/downloads/restaurant/ Accessed: January 2018
[Liu et al., 2013b] Jingjing Liu, Panupong Pasupat, Yining Wang, Scott Cyphers, and Jim Glass. 2013. Query understanding enhanced by hierarchical parsing structures. In Automatic Speech Recognition and Understanding (ASRU), 2013 IEEE Workshop on, pages 72-77. IEEE. Available at https://groups.csail.mit.edu/sls/downloads/movie/ We used the trivia10k13 portion. Accessed: January 2018
[NIST, 1999 IE-ER] NIST. 1999. Information Extraction - Entity Recognition Evaluation. http://www.nist.gov/speech/tests/ieer/er_99/er_99.htm. The newswire development test data only (included in the NLTK package).
[Ohta et al., 2012] Tomoko Ohta, Sampo Pyysalo, Jun'ichi Tsujii and Sophia Ananiadou. 2012. Open-domain Anatomical Entity Mention Detection. In Proceedings of ACL 2012 Workshop on Detecting Structure in Scholarly Discourse (DSSD), pp. 27-36. Available at: http://www.nactem.ac.uk/anatomy/ and https://github.com/openbiocorpora/anem Accessed: November 2017.
[Ritter et al., 2011] Alan Ritter, Sam Clark, Mausam, and Oren Etzioni. 2011. Named entity recognition in tweets: An experimental study. In Proceedings of the 2011 Conference on Empirical Methods in Natural Language Processing, pages 1524-1534, Edinburgh, Scotland, UK., July. Association for Computational Linguistics. Accessed January 2018.
[Sang and Meulder, 2003] Erik F. Tjong Kim Sang and Fien De Meulder. 2003. Introduction to the CoNLL-2003 shared task: Languageindependent named entity recognition. In Proceedings of the Seventh Conference on Natural Language Learning at HLT-NAACL 2003.
[Stubbs et al., 2015] Amber Stubbs and Ozlem Uzuner. 2015. Annotating longitudinal clinical narratives for de-identification: The 2014 i2b2/UTHealth corpus. Journal of biomedical informatics, 58:S20-S29. Available at https://www.i2b2.org/NLP/DataSets/ Accessed: February 2018.
[Uzuner et al., 2007] Ozlem Uzuner, Yuan Luo, and Peter Szolovits. 2007. Evaluating the state-of-the-art in automatic de-identification. Journal of the American Medical Informatics Association, 14(5):550-563. Available at https://www.i2b2.org/NLP/DataSets/ Accessed: February 2018.
[Weischedel and Brunstein, 2005] Ralph Weischedel and Ada Brunstein. 2005. BBN pronoun coreference and entity type corpus. Linguistic Data Consortium, Philadelphia.
[Weischedel et al., 2013] Weischedel, Ralph, Martha Palmer, Mitchell Marcus, Eduard Hovy, Sameer Pradhan, Lance Ramshaw, Nianwen Xue et al. Ontonotes release 5.0 ldc2013t19. Linguistic Data Consortium, Philadelphia, PA (2013).
[Zeldes, 2017] Amir Zeldes. 2017. The GUM corpus: creating multilayer resources in the classroom. Language Resources and Evaluation, 51(3):581-612. Available at https://github.com/amir-zeldes/gum/tree/master/coref/tsv/ Accessed: November 2017.