ชุดข้อมูลสำหรับการจดจำเอนทิตี
ที่เก็บนี้มีชุดข้อมูลจากหลายโดเมนที่มีคำอธิบายประกอบกับประเภทเอนทิตีที่หลากหลายมีประโยชน์สำหรับการจดจำเอนทิตีและงานการจดจำเอนทิตี (NER)
หมายเหตุ: ฉันไม่ได้เพิ่มชุดข้อมูลลงในรายการนี้อีกต่อไป - มีแนวโน้มว่าจะมีชุดข้อมูล NER มากขึ้นที่ปรากฏตั้งแต่ปี 2020 อย่างไรก็ตามฉันยินดีที่จะเพิ่มชุดข้อมูลเพิ่มเติมผ่านปัญหาหรือการร้องขอดึง
ชุดข้อมูลสำหรับ ner เป็นภาษาอังกฤษ
ตารางต่อไปนี้แสดงรายการชุดข้อมูลสำหรับการรับรู้เอนทิตีภาษาอังกฤษ (สำหรับรายการชุดข้อมูล NER ในภาษาอื่นดูด้านล่าง) ไดเรกทอรีข้อมูลมีข้อมูลเกี่ยวกับสถานที่ที่จะได้รับชุดข้อมูลเหล่านั้นซึ่งไม่สามารถใช้ร่วมกันได้เนื่องจากข้อ จำกัด การออกใบอนุญาตรวมถึงรหัสเพื่อแปลง (ถ้าจำเป็น) เป็นรูปแบบ Conll 2003 ลิงก์ไปยัง NER Corpora ในภาษาอื่น ๆ ก็มีการระบุไว้ด้านล่าง
| ชุดข้อมูล | โดเมน | ใบอนุญาต | อ้างอิง | ความพร้อมใช้งาน |
|---|
| Conll 2003 | ข่าว | dua | Sang and Meulder, 2003 | หาง่าย |
| nist-ieer | ข่าว | ไม่มี | Nist 1999 IE-er | ข้อมูล NLTK |
| MUC-6 | ข่าว | LDC | Grishman และ Sundheim, 1996 | LDC 2003T13 |
| ontonotes 5 | หลากหลาย | LDC | Weischedel et al., 2013 | LDC 2013T19 |
| BBN | หลากหลาย | LDC | Weischedel และ Brunstein, 2005 | LDC 2005T33 |
| GMB-1.0.0 | หลากหลาย | ไม่มี | Bos et al., 2017 | http://gmb.let.rug.nl/data.php |
| หมากฝรั่ง -3.1.0 | วิกิ | หลาย ( * 2) | Zeldes, 2016 | ✔รวมอยู่ที่นี่ |
| วิคิกโกลด์ | วิกิพีเดีย | CC-by 4.0 | Balasuriya et al., 2009 | ✔รวมอยู่ที่นี่ |
| คนขี้เกียจ | Twitter | ไม่มี | Ritter et al., 2011 | ไม่มีการแยกรถไฟ/ทดสอบ/แยกส่วน |
| BTC | Twitter | CC-by 4.0 | Derczynski et al., 2016 | ✔รวมอยู่ที่นี่ |
| wnut17 | โซเชียลมีเดีย | CC-by 4.0 | Derczynski et al., 2017 | ✔รวมอยู่ที่นี่ |
| i2b2-2006 | ทางการแพทย์ | dua | Uzuner et al., 2007 | http://www.i2b2.org |
| I2B2-2014 | ทางการแพทย์ | dua | Stubbs et al., 2015 | http://www.i2b2.org |
| นายทหาร | ทางการแพทย์ | CSIRO | Karimi et al., 2015 | http://data.csiro.au/ |
| เกี่ยวกับท้องฟ้า | เกี่ยวกับกายวิภาค | CC-BY-SA 3.0 | Ohta et al., 2012 | ✔รวมอยู่ที่นี่ |
| ผู้เลี้ยงสัตว์ | การสอบถาม | ไม่มี | Liu et al., 2013a | http://groups.csail.mit.edu/sls/ |
| mitmovie | การสอบถาม | ไม่มี | Liu et al., 2013b | http://groups.csail.mit.edu/sls/ |
| MalwaretextDB | มัลแวร์ | ไม่มี | Lim et al., 2017 | http://www.statnlp.org/ |
| RE3D | การป้องกัน | หลาย ( * 1) | DSTL, 2017 | ✔รวมอยู่ที่นี่ |
| การยื่นออกมา | การเงิน | CC-by 3.0 | Alvarado et al., 2015 | ✔รวมอยู่ที่นี่ |
| การประกอบ | หุ่นยนต์ | x | Costa et al., 2017 | x |
| เกี่ยวกับ wikine | วิกิพีเดีย | CC BY-SA-NC 4.0 | Tedeschi et al., 2021 | https://github.com/babelscape/wikineural |
| มัลติเพลน | วิกิพีเดีย | CC BY-SA-NC 4.0 | Tedeschi et al., 2022 | https://github.com/babelscape/multinerd |
| HIPE-20122 | เกี่ยวกับประวัติศาสตร์ | CC BY-SA-NC 4.0 | Ehrmann et al., 2022 | https://github.com/hipe-eval/hipe-2022-data |
| เพลง | ดนตรี | มิกซ์ | Epure and Hennequin, 2023 | https://github.com/deezer/music-ner-ecl2023 |
| wiesp2022-ner | ดาราศาสตร์ฟิสิกส์ | CC BY-SA-NC 4.0 | Grezes et al., 2022 | https://huggingface.co/datasets/adsabs/wiesp2022-ner |
| NNE | ข่าว | CC 4.0 / LDC | Ringland et al., 2019 | https://github.com/nickyringland/nested_named_entities |
| ทั่วโลก | ข่าว | CC BY-SA-NC 4.0 | Shan et al., 2023 | https://github.com/stanfordnlp/en-worldwide-newswire https://arxiv.org/abs/2404.13465 |
ใบอนุญาต
หมายเหตุเกี่ยวกับใบอนุญาต:
(1) RE3D ("ชุดข้อมูลการประเมินความสัมพันธ์และการสกัดเอนทิตี") มีชุดข้อมูลหลายชุดพร้อมใบอนุญาตที่แตกต่างกัน นี่คือ:
- CC-by-SA 3.0 (ชุดข้อมูล Wikipedia)
- CC BY-NC 3.0 (ชุดข้อมูล BBC_ONLINE)
- CC BY 3.0 AU (ชุดข้อมูล Australian_department_of_foreign_affairs)
- โดเมนสาธารณะ (US_STATE_DEPARTMENT DATASET, CENTCOM DATASET) ชุดข้อมูล CENTCOM)
- ใบอนุญาตรัฐบาลเปิดสหราชอาณาจักร v3.0 (ชุดข้อมูล UK_Government)
- Delegation_of_the_european_union_to_syria: ดู https://eeas.europa.eu/delegations/syria/8157/legal-notice_en
- Gum 3.1.0 ประกอบด้วยชุดข้อมูลสามชุดพร้อมใบอนุญาต CC-by 3.0, CC-by-SA 3.0 และ CC-by-NC-SA 3.0 คำอธิบายประกอบได้รับใบอนุญาตภายใต้ CC-by 4.0
ข้อมูลใบอนุญาตโดยละเอียดเพิ่มเติมสำหรับแต่ละชุดข้อมูลสามารถพบได้ในไดเรกทอรีย่อยที่เกี่ยวข้อง
ต่อมา ... - Tabassum et al., รหัสและการจดจำเอนทิตีชื่อใน stackoverflow https://cocoxu.github.io/publications/acl2020_stackoverflow_ner.pdf - litbank: https://github.com/dbamman/litbank NNE: ชุดข้อมูลสำหรับการรับรู้เอนทิตีที่มีชื่อซ้อนกันในภาษาอังกฤษนิวส์ไวร์, 2019 https://github.com/nickyringland/nested_named_entities - MARS Target Encyclopedia - LPSC Abstracts ชุดข้อมูล: https://zenodo.org/record/Record/Record/Record/ https://www.kaggle.com/dataturks/best-buy-ecommerce-ner-dataset/home-กลับมาทำงานสำหรับ ner: https://www.kaggle.com/dataturks/resume-entities-for-ner/home https://aclanthology.org/2021.acl-long.248/
ชุดข้อมูลสำหรับ ner ในภาษาอื่น ๆ
คำศัพท์ที่มีชื่อว่าทรัพยากรเอนทิตี
- Heiner: http://heiner.cl.uni-heidelberg.de/index.shtml
- Neckar: https://event.ifi.uni-heidelberg.de/?page_id=532#wikidata_ne_dataset
การสลับรหัส
- ทวีตภาษาอังกฤษสปานิช (Calcs 2018): https://code-switching.github.io/2018/; https://code-switching.github.io/2018/files/spa-eng/release.zip; http://www.aclweb.org/anthology/w18-3219
- ทวีตอาหรับ-อียิปต์ (Calcs 2018): https://code-switching.github.io/2018/; https://code-switching.github.io/2018/files/msa-egy/arabictweetstokenassigner.zip; http://www.aclweb.org/anthology/w18-3219
- ข้อความโซเชียลมีเดียภาษาฮินดูภาษาอังกฤษ: https://github.com/silentflame/named-entity-recognition; http://aclweb.org/anthology/w18-2405
- EMNLP 2014 งานที่ใช้ร่วมกัน-ทวีตสลับรหัส (เนปาล-อังกฤษ, สเปน-อังกฤษ, แมนดาริน-อังกฤษ, ภาษาอาหรับ-อาราบิก): http://emnlp2014.org/workshops/codeswitch/call.html.html.html.html.html.html.html.html.html
ชาวเยอรมัน
- Conll 2003 (ภาษาอังกฤษ, เยอรมัน): https://www.clips.uantwerpen.be/conll2003/ner/
- Germeval 2014: https://sites.google.com/site/germeval2014ner/data
- Tübingen Treebank ของภาษาเยอรมันที่เขียน (tüba-d/z): http://www.sfs.uni-tuebingen.de/en/ascl/resources/corpora/tueba-dz.html
- หนังสือพิมพ์ยุโรป (ดัตช์, ฝรั่งเศส, เยอรมัน): https://github.com/europeananewspapers/ner-corpora; http://lab.kb.nl/dataset/europeana-newspapers-ner#access
- Transcripts German Europarl (ชุดย่อย): https://nlpado.de/~sebastian/software/ner_german.shtml
- รูปแบบเอนทิตีสำหรับภาษาเยอรมันการเมือง (NEMGP): https://www.thomas-zastrow.de/nlp/
- Wikiner: https://figshare.com/articles/learning_multilingual_named_entity_recognition_from_wikipedia/5462500
- wikineural: https://github.com/babelscape/wikineural
- multinerd: https://github.com/babelscape/multinerd
- DFKI Smartdata Corpus (Geo-entities): https://dfki-lt-re-group.bokbucket.io/smartdata-corpus/ (คลังข้อมูลเยอรมันสำหรับการรับรู้เอนทิติกที่มีชื่อดีและความสัมพันธ์ของการจราจรและเหตุการณ์ในอุตสาหกรรม Gabryszak, Leonhard Hennig
- DBPEDIA บทคัดย่อคลังข้อมูล (อังกฤษ, เยอรมัน, ดัตช์, ฝรั่งเศส, อิตาลี, ญี่ปุ่น): http://downloads.dbpedia.org/2015-04/ext/nlp/abstracts/
- ชุดข้อมูล DAWT - ข้อความ Wikipedia ที่มีคำอธิบายประกอบอย่างหนาแน่นในหลายภาษา (ภาษาอังกฤษ, สเปน, ฝรั่งเศส, อิตาลี, เยอรมัน, อาหรับ): https://github.com/klout/opendata/tree/master/wiki_annotation
- Elena Leitner, Georg Rehm, Juli ́an Moreno-Schneider, ชุดข้อมูลของเอกสารทางกฎหมายของเยอรมันสำหรับการรับรู้เอนทิตีที่มีชื่อ, LREC 2020: http://georg-re.hm/pdf/lrec-2020-leitner-et-al-al-print.pdf; ข้อมูล: https://github.com/elenanereiss/legal-entity-recognition
- HIPE-20122, ชื่อการรับรู้เอนทิตีและการเชื่อมโยงเอนทิตีในเอกสารประวัติศาสตร์หลายภาษา: https://hipe-eval.github.io/hipe-2022/ https://github.com/hipe-eval/hipe-2022-Data
ชาวดัตช์
- Conll 2002 (สเปน, ดัตช์): https://www.clips.uantwerpen.be/conll2002/ner/
- หนังสือพิมพ์ยุโรป (ดัตช์, ฝรั่งเศส, เยอรมัน): https://github.com/europeananewspapers/ner-corpora; http://lab.kb.nl/dataset/europeana-newspapers-ner#access
- ในเวลาเดียวกันคลังข้อมูล (คลังขนาน: อังกฤษ, สเปน, อิตาลี, ดัตช์): http://www.newsreader-project.eu/results/data/wikinews/
- Wikiner: https://figshare.com/articles/learning_multilingual_named_entity_recognition_from_wikipedia/5462500
- wikineural: https://github.com/babelscape/wikineural
- multinerd: https://github.com/babelscape/multinerd
- DBPEDIA บทคัดย่อคลังข้อมูล (อังกฤษ, เยอรมัน, ดัตช์, ฝรั่งเศส, อิตาลี, ญี่ปุ่น): http://downloads.dbpedia.org/2015-04/ext/nlp/abstracts/
- เอกสารรัฐสภาดัตช์ 2558-2559 จากปี 1848.nl (Jonkers ชื่อการรับรู้เอนทิตีในเอกสารรัฐสภาดัตช์โดยใช้กบวิทยานิพนธ์, มหาวิทยาลัยอัมสเตอร์ดัม, 2016): https://github.com/poezedoez/ner/blob/master/code/data/data/data
- Sonar 1 - Desmet and Hoste, Dutch ที่มีชื่อว่าการจดจำเอนทิตีที่มีชื่อว่า 2014 (ลำดับชั้นของชั้นเรียน)
- หนังสือ Corpus-Sonar และ Corpus Gutenberg Dutch: http://blog.namescape.nl/?page_id=85; http://portal.clarin.nl/node/1940
ชาวแอฟริกัน
- Nchlt Afrikaans ชื่อนิติบุคคลที่มีคำอธิบายประกอบ: https://repo.sadilar.org/handle/20.500.12185/299
เกี่ยวกับภาษาสเปน
- Conll 2002 (สเปน, ดัตช์): https://www.clips.uantwerpen.be/conll2002/ner/
- Ancora (สเปน, คาตาลัน): http://clic.ub.edu/corpus/en
- DEFT Spanish Treebank (LDC2018T01): https://catalog.ldc.upenn.edu/ldc2018t01
- Panacea (Lab): http://panacea-lr.eu/en/info-for-researchers/data-sets/dependency-parsed-corpora/dependency-lab-es
- Panacea (env): http://panacea-lr.eu/en/info-for-researchers/data-sets/dependency-parsed-corpora/dependency-env-es
- ในเวลาเดียวกันคลังข้อมูล (คลังขนาน: อังกฤษ, สเปน, อิตาลี, ดัตช์): http://www.newsreader-project.eu/results/data/wikinews/
- Ace 2007 (สเปนและอาหรับ): https://catalog.ldc.upenn.edu/ldc2014t18
- Wikiner: https://figshare.com/articles/learning_multilingual_named_entity_recognition_from_wikipedia/5462500
- wikineural: https://github.com/babelscape/wikineural
- multinerd: https://github.com/babelscape/multinerd
- http://www.grupolys.org/~marcos/pub/lrec16.tar.bz2 (ใช้ใน "การผสมผสานฮิวริสติก Lexico-Semantic เข้ากับ Sieves ความละเอียดของ Coreference สำหรับการจดจำเอนทิตีที่ชื่อ
- corpora หลายภาษาที่มีคำอธิบายประกอบหลักของหน่วยงานบุคคล (สเปน, กาลิเซีย, โปรตุเกส): http://gramatica.usc.es/~marcos/lrec.tar.bz2
- Drugsemantics Gold Standard (Moreno et al., ยาเสพติด: คลังข้อมูลสำหรับการรับรู้เอนทิตีที่มีชื่อในบทสรุปภาษาสเปนของลักษณะผลิตภัณฑ์, 2017): https://data.mendeley.com/datasets/fwc7jrc5jr/1
- DBPEDIA บทคัดย่อคลังข้อมูล (อังกฤษ, เยอรมัน, ดัตช์, ฝรั่งเศส, อิตาลี, ญี่ปุ่น): http://downloads.dbpedia.org/2015-04/ext/nlp/abstracts/
- ชุดข้อมูล DAWT - ข้อความ Wikipedia ที่มีคำอธิบายประกอบอย่างหนาแน่นในหลายภาษา (ภาษาอังกฤษ, สเปน, ฝรั่งเศส, อิตาลี, เยอรมัน, อาหรับ): https://github.com/klout/opendata/tree/master/wiki_annotation
- Cantemist (งานการทำเหมืองข้อความมะเร็ง - งานร่วมกัน - เนื้องอกชื่อการรับรู้เอนทิตี) - ชื่อการรับรู้เอนทิตีของแนวคิดที่สำคัญที่เกี่ยวข้องกับโรคมะเร็งคือสัณฐานวิทยาของเนื้องอกในตำราทางการแพทย์ของสเปน: https://temu.bsc.es/cantemist/
คาตาลัน
- Ancora (สเปน, คาตาลัน): http://clic.ub.edu/corpus/en
กาลิเซีย
- Galician Ner Corpus: https://gramatica.usc.es/~marcos/resources/corpus_gal_nec.txt.gz
- corpora หลายภาษาที่มีคำอธิบายประกอบหลักของหน่วยงานบุคคล (สเปน, กาลิเซีย, โปรตุเกส): http://gramatica.usc.es/~marcos/lrec.tar.bz2
เกี่ยวกับบาสก์
- Basque Named Entities Corpus (EIEC): http://ixa.eus/node/4486?language=en
- Basque disambiguated ชื่อ Entities Corpus (Ediec): http://ixa.si.ehu.es/node/4485?language=en
- Egunkaria 2000 Corpus (383 Newswire texts), ที่กล่าวถึงใน http://qtleap.eu/wp-content/uploads/2014/04/qtleap-2013-D5.1.pdf
ชาวโปรตุเกส
- Harem: https://www.linguateca.pt/aval_conjunta/harem/harem_ing.html
- Cintil Corpus: http://cintil.ul.pt/cintilfeatures.html#corpus
- Wikiner: https://figshare.com/articles/learning_multilingual_named_entity_recognition_from_wikipedia/5462500
- wikineural: https://github.com/babelscape/wikineural
- multinerd: https://github.com/babelscape/multinerd
- corpora หลายภาษาที่มีคำอธิบายประกอบหลักของหน่วยงานบุคคล (สเปน, กาลิเซีย, โปรตุเกส): http://gramatica.usc.es/~marcos/lrec.tar.bz2
- รูปแบบ Bosque 8.0 Eagles: https://gramatica.usc.es/~marcos/resources/corpora_flpt.tgz
- Lener-BR (เอกสารทางกฎหมายของบราซิล): https://cic.unb.br/~teodecampos/lener-br/
- Paramopama: คลังข้อมูลของบราซิล-พอร์ทูกูสำหรับการจดจำเอนทิตีที่มีชื่อ
ภาษาฝรั่งเศส
- เอสเตอร์: http://catalogue.elra.info/en-us/repository/browse/elra-s0241/
- เอสเตอร์ 2: http://catalogue.elra.info/en-us/repository/browse/elra-s0338/
- Etape: http://catalogue.elra.info/en-us/repository/browse/elra-e0046/
- หนังสือพิมพ์ยุโรป (ดัตช์, ฝรั่งเศส, เยอรมัน): https://github.com/europeananewspapers/ner-corpora; http://lab.kb.nl/dataset/europeana-newspapers-ner#access
- Quaero French Medical Corpus: https://quaerofrenchmed.limsi.fr/
- ข่าวออกอากาศ Quaero ขยายชื่อ Entity Corpus: http://catalog.elra.info/en-us/repository/browse/elra-s0349/
- Quaero Old Press ขยายชื่อ Entity Corpus: http://catalog.elra.info/en-us/repository/browse/elra-w0073/
- Wikiner: https://figshare.com/articles/learning_multilingual_named_entity_recognition_from_wikipedia/5462500
- wikiner-fr-gold https://arxiv.org/abs/2411.00030 https://huggingface.co/datasets/danrun/wikiner-fr-gold
- wikineural: https://github.com/babelscape/wikineural
- multinerd: https://github.com/babelscape/multinerd
- DBPEDIA บทคัดย่อคลังข้อมูล (อังกฤษ, เยอรมัน, ดัตช์, ฝรั่งเศส, อิตาลี, ญี่ปุ่น): http://downloads.dbpedia.org/2015-04/ext/nlp/abstracts/
- ชุดข้อมูล DAWT - ข้อความ Wikipedia ที่มีคำอธิบายประกอบอย่างหนาแน่นในหลายภาษา (ภาษาอังกฤษ, สเปน, ฝรั่งเศส, อิตาลี, เยอรมัน, อาหรับ): https://github.com/klout/opendata/tree/master/wiki_annotation
- CAP 2017 - (Twitter Data), Lopez et al., CAP 2017 Challenge: Twitter Named Named Entity Recognition, 2017: http://cap2017.imag.fr/competition.html
- HIPE-20122, ชื่อการรับรู้เอนทิตีและการเชื่อมโยงเอนทิตีในเอกสารประวัติศาสตร์หลายภาษา: https://hipe-eval.github.io/hipe-2022/ https://github.com/hipe-eval/hipe-2022-Data
อิตาลี
- ชนิด: https://github.com/dhfbk/kind
- evalita: http://www.evalita.it/2009/tasks/entity
- ในเวลาเดียวกันคลังข้อมูล (คลังขนาน: อังกฤษ, สเปน, อิตาลี, ดัตช์): http://www.newsreader-project.eu/results/data/wikinews/
- Panacea (env): http://panacea-lr.eu/en/info-for-researchers/data-sets/dependency-parsed-corpora/dependency-env-it
- Panacea (Lab): http://panacea-lr.eu/en/info-for-researchers/data-sets/dependency-parsed-corpora/dependency-lab-it
- Wikiner: https://figshare.com/articles/learning_multilingual_named_entity_recognition_from_wikipedia/5462500
- wikineural: https://github.com/babelscape/wikineural
- multinerd: https://github.com/babelscape/multinerd
- DBPEDIA บทคัดย่อคลังข้อมูล (อังกฤษ, เยอรมัน, ดัตช์, ฝรั่งเศส, อิตาลี, ญี่ปุ่น): http://downloads.dbpedia.org/2015-04/ext/nlp/abstracts/
- ชุดข้อมูล DAWT - ข้อความ Wikipedia ที่มีคำอธิบายประกอบอย่างหนาแน่นในหลายภาษา (ภาษาอังกฤษ, สเปน, ฝรั่งเศส, อิตาลี, เยอรมัน, อาหรับ): https://github.com/klout/opendata/tree/master/wiki_annotation
เกี่ยวกับโรมาเนีย
- Ronec (Dumitrescu และ Avram แนะนำ Ronec - ชาวโรมาเนียชื่อ Entity Corpus LREC 2020) กระดาษ: https://arxiv.org/pdf/1909.01247.pdf ข้อมูล: https://github.com/dumitrescustefan/ronec
- คลังวารสารศาสตร์โรมาเนีย (ROCO): http://metashare.elda.org/repository/browse/romanian-journalistic-corpus-roco/038baa80dc7311e5aa0b00237df3e3583781d7c0f2084057AA
- Romanian Balanced Corpus (Rombac): http://metashare.elda.org/repository/browse/romanian-balanced-corpus-rombac/0a7dd85edc7311e5aa0b00237df3e35873a0d66243502350
กรีก
- Panacea (env): http://panacea-lr.eu/en/info-for-researchers/data-sets/dependency-parsed-corpora/dependency-env-el
- Panacea (Lab): http://panacea-lr.eu/en/info-for-researchers/data-sets/dependency-parsed-corpora/dependency-lab-el
ชาวฮังการี
- ฮังการีชื่อ Entity Corpora: http://rgai.inf.u-szeged.hu/index.php?lang=en&page=corpus_ne
- Hunnerwiki: http://hlt.sztaki.hu/resources/hunnerwiki.html
- nytk: https://github.com/nytud/nytk-nerkor
ภาษาเช็ก
- เช็กชื่อ Entity Corpus: http://ufal.mff.cuni.cz/cnec
- BSNLP 2017 (โครเอเชีย, เช็ก, โปแลนด์, รัสเซีย, สโลวัก, สโลวีเนีย, ยูเครน): http://bsnlp-2017.cs.helsinki.fi/shared_task_results.html
- Czeng 1.0 (คู่ขนานคลัง: เช็กภาษาอังกฤษ): http://ufal.mff.cuni.cz/czeng/czeng10
- pero ocr ner (ประวัติศาสตร์เช็ก OCR พงศาวดาร): https://github.com/roman-janik/poner https://dspace.vut.cz/items/6092E1b0-3d75-4451-8582-28573AC304040404040404040404040404040404040404040404040404040
ขัด
- The Polish Sejm Corpus: http://clip.ipipan.waw.pl/psc
- BSNLP 2017 (โครเอเชีย, เช็ก, โปแลนด์, รัสเซีย, สโลวัก, สโลวีเนีย, ยูเครน): http://bsnlp-2017.cs.helsinki.fi/shared_task_results.html
- Corpus Coreference Polish: http://zil.ipipan.waw.pl/polishcoreferenceCorpus
- Wikiner: https://figshare.com/articles/learning_multilingual_named_entity_recognition_from_wikipedia/5462500
- wikineural: https://github.com/babelscape/wikineural
- multinerd: https://github.com/babelscape/multinerd
- Corpus of Economic News (Cen Corpus): http://www.nlp.pwr.wroc.pl/narzedzia-i-zasoby/zasoby/cen
- KPWR (Korpus Języka Polskiego Politechniki Wrocławskiej/ภาษาโปแลนด์แห่งมหาวิทยาลัยเทคโนโลยีWrocław): http://plwordnet.pwr.wroc.pl/index.php?option=com_content&view http://plwordnet.pwr.wroc.pl/attachments/article/35/kpwr-1.1.7z (Broda et al., KPWR: ไปยังคลังข้อมูลฟรีของโปแลนด์, 2012)
- nkjp: http://clip.ipipan.waw.pl/nationalcorpusofpolish?action=attachfile&do=view&target=nkjp-podkorpusmilionowy-1.2.tar.gz
เกี่ยวกับภาษาโครเอเชีย
- HR500K 1.0: http://hdl.handle.net/11356/1183
- BSNLP 2017 (โครเอเชีย, เช็ก, โปแลนด์, รัสเซีย, สโลวัก, สโลวีเนีย, ยูเครน): http://bsnlp-2017.cs.helsinki.fi/shared_task_results.html
- reldi-normtagner-hr (ทวีตโครเอเชีย): http://hdl.handle.net/11356/1170
ชาวสโลวะเกีย
- BSNLP 2017 (โครเอเชีย, เช็ก, โปแลนด์, รัสเซีย, สโลวัก, สโลวีเนีย, ยูเครน): http://bsnlp-2017.cs.helsinki.fi/shared_task_results.html
- Slovak จัดหมวดหมู่ News Corpus: https://nlp.web.tuke.sk/pages/categorizedNews
สโลเวเนียน
- BSNLP 2017 (โครเอเชีย, เช็ก, โปแลนด์, รัสเซีย, สโลวัก, สโลวีเนีย, ยูเครน): http://bsnlp-2017.cs.helsinki.fi/shared_task_results.html
- SSJ500K: http://www.slovenscina.eu/tehnologije/ucni-korpus; http://eng.slovenscina.eu/tehnologije/ucni-korpus; https://www.clarin.si/repository/xmlui/handle/11356/1029; หมายเหตุ: สำหรับ v 2.2 ดู: http://hdl.handle.net/11356/1210
- ข่าวสโลวีเน่: http://zitnik.si/mediawiki/index.php?title=datasets#slovene_news; http://zitnik.si/mediawiki/images/7/7d/rtvslo_dec2011.tsv; http://zitnik.si/mediawiki/images/5/5e/rtvslo_dec2011_v2.tsv
- Janes-Tag 2.0 (ข้อความโซเชียลมีเดีย) https://www.clarin.si/repository/xmlui/handle/11356/1123; ดูเพิ่มเติมที่: Fišer et al., โครงการ Janes: ทรัพยากรภาษาและเครื่องมือสำหรับเนื้อหาที่ผู้ใช้ Slovene สร้าง, 2018
ชาวยูเครน
- BSNLP 2017 (โครเอเชีย, เช็ก, โปแลนด์, รัสเซีย, สโลวัก, สโลวีเนีย, ยูเครน): http://bsnlp-2017.cs.helsinki.fi/shared_task_results.html
- ยูเครนบราวน์คอร์ปัส: https://github.com/lang-uk/ner-uk; http://lang.org.ua/en/corpora/
ประเทศเซอร์เบีย
- setimes.sr - http://hdl.handle.net/11356/1200
- Corpus การประเมินผลเอนทิตีสำหรับเซอร์เบีย: http://www.korpus.matf.bg.ac.rs/srpneval/
- reldi-normtagner-sr (ทวีตเซอร์เบีย): http://hdl.handle.net/11356/1171
ชาวบัลแกเรีย
เกี่ยวกับไอซ์แลนด์
- Mim-gold-ner (Ingólfsdóttir, Svanhvít Lilja, SigurjónÞorsteinssonและ Hrafn Loftsson "ไปสู่ความแม่นยำสูงที่ชื่อการรับรู้เอนทิตี้สำหรับไอซ์แลนด์ http://www.malfong.is/index.php?pg=mim_gold_ner
เกี่ยวกับเดนมาร์ก
- Dane: Hvingelby et al., [Dane: ทรัพยากรเอนทิตีที่มีชื่อสำหรับเดนมาร์ก] (http://www.lrec-conf.org/proceedings/lrec2020/pdf/2020.lrec-1.565.pdf)
- Danish Propbank (DPB): http://catalog.elra.info/en-us/repository/browse/elra-w0117/
- Arboretum Treebank: http://catalog.elra.info/en-us/repository/browse/elra-w0084/
นอร์เวย์
- Bjarte Johansen การยอมรับว่ามีชื่อว่า NORWEGIAN การดำเนินการของการประชุม Nordic ครั้งที่ 22 เรื่องภาษาศาสตร์การคำนวณ 2019 (https://www.aclweb.org/anthology/w19-6123.pdf) ข้อมูล: https://github.com/ljos/navnkjenner
- Fredrik Jørgensen et al., Norne: คำอธิบายประกอบชื่อหน่วยงานสำหรับนอร์เวย์, 2019 (https://arxiv.org/pdf/1911.12146.pdf) ข้อมูล: https://github.com/ltgoslo/norne/; https://www.nb.no/sprakbanken/show?serial=oai%3anb.no%3asbr-49
ภาษาสวีเดน
- Stockholm Internet Corpus: https://www.ling.su.se/english/nlp/corpora-and-resources/sic
- SUC 3.0: https://spraakbanken.gu.se/eng/resource/suc3
- สวีเดนหมายเหตุประกอบด้วยตนเอง: https://github.com/klintan/swedish-ner-corpus/
- ข้อมูลวิกิพีเดียทางการแพทย์ (Almgren et al., ชื่อการรับรู้เอนทิตีในบันทึกสุขภาพของสวีเดนพร้อมกับ LSTM แบบสองทิศทางแบบลึกของตัวละคร, 2016): https://github.com/olofmogren/biomedical-ner-data-swedish
- HIPE-20122, ชื่อการรับรู้เอนทิตีและการเชื่อมโยงเอนทิตีในเอกสารประวัติศาสตร์หลายภาษา: https://hipe-eval.github.io/hipe-2022/ https://github.com/hipe-eval/hipe-2022-Data
ภาษาฟินแลนด์
- ชุดข้อมูลสำหรับฟินแลนด์ชื่อ recoginition: https://github.com/mpsilfve/finer-data
- Turku ner corpus: https://github.com/turkunlp/turku-ner-corpus
- HIPE-20122, ชื่อการรับรู้เอนทิตีและการเชื่อมโยงเอนทิตีในเอกสารประวัติศาสตร์หลายภาษา: https://hipe-eval.github.io/hipe-2022/ https://github.com/hipe-eval/hipe-2022-Data
เอสโตเนีย
- Estonian Ner Corpus: https://metashare.uth.ee/repository/browse/estonian-ner-corpus/88d030c0acde11e2a6e4005056b40024f1def472ed254e77a8952e1003d9f81e
ลัตเวียและลิทัวเนีย
- https://github.com/accurat-toolkit/tildener/tree/master/test (Pinnis, Latvian และ Lithuanian ชื่อการรับรู้เอนทิตีกับ Tildener, LREC 2012)
- ข้อมูลการฝึกอบรมสำหรับ LV Tagger: https://github.com/peterisp/lvtagger/tree/master/nertrainingdata
ตุรกี
- K̈ucuk and Can ชุดข้อมูลทวีตมีคำอธิบายประกอบสำหรับการรับรู้เอนทิตีและการตรวจจับท่าทาง, 2019: https://github.com/dkucuk/tweet-dataset-ner-sd
- K̈ucuk et al., ชื่อการรับรู้เอนทิตีในทวีตตุรกี: http://optima.jrc.it/resources/2014_jrc_twitter_tr_ner-dataset.zip
- Wikipedia ภาษาอังกฤษ/ตุรกีชื่อการรับรู้และการจัดหมวดหมู่ข้อความ (http://arxiv.org/abs/1702.02363): https://data.mendeley.com/datasets/cdcztymf4k/1
- çoban et al, ชื่อการรับรู้เอนทิตีมากกว่า FBNER: ชุดข้อมูล Facebook ใหม่ในตุรกี: https://ieeexplore.ieee.org/document/9598971 ข้อมูลที่มีอยู่สำหรับวัตถุประสงค์ในการวิจัยตามคำขอ
คาซัค
- Kaznerd: https://arxiv.org/pdf/2111.13419.pdf, https://github.com/is2ai/kaznerd
uyghur
- Uyghur ชื่อ Entity Relation Corpus: https://github.com/kaharjan/uynerel (Abiderexiti et al., แผนการเพิ่มความคิดเห็นสำหรับการสร้างอุยกูร์
เกี่ยวกับอาร์เมเนีย
- Pioner (ชุดข้อมูลมาตรฐานทองคำและมาตรฐานเงิน): https://github.com/ispras-texterra/pioner (Ghukasyan et al., Pioner: ชุดข้อมูลและเส้นเขตแดนสำหรับการจดจำเอนทิตีอาร์เมเนีย, 2018)
- armtdp-ner: https://github.com/myavrum/armtdp-ner
เกี่ยวกับคอปติก
- Coptic Universal Predency TreeBank: https://github.com/universaldencies/ud_coptic-scriptorium/tree/dev (ดู https://copticscriptorium.org/treebank.html) สิ่งนี้มีโทเค็น 46,000 โทเค็นของหน่วยงานที่ซ้อนกัน (ไม่ใช่) ชื่อและ wikified จากตำราคอปติก Sahidic
อัมฮาริก
- Say Corpus (ดู "การจดจำเอนทิตีชื่อสำหรับ Amharic โดยใช้การเรียนรู้ลึก"): https://github.com/geezorg/data/tree/master/amharic/tagged/nmsu-say; http://data.geez.org/
ภาษาอาหรับ
- Aqmar Arabic Wikipedia ชื่อ Entity Corpus: http://www.cs.cmu.edu/~ark/arabicner/
- NE3L ชื่อหน่วยงานอาหรับคลังข้อมูล (อาหรับ, จีน, รัสเซีย): http://catalog.elra.info/en-us/repository/browse/elra-w0078/
- Reflex Entity Translation (คู่ขนานคลังข้อมูล: อังกฤษ, อาหรับ, จีน): https://catalog.ldc.upenn.edu/ldc2009t11
- anercorp: http://users.dsic.upv.es/~ybenajiba/downloads.html (ดูเพิ่มเติม: http://alias-i.com/lingpipe/demos/Tutorial/ne/read-me.html)
- Ace 2003 (ภาษาอังกฤษ, จีน, อาหรับ): https://catalog.ldc.upenn.edu/ldc2004t09
- Ace 2004 (อังกฤษ, จีน, อาหรับ): https://catalog.ldc.upenn.edu/ldc2005t09
- Ace 2005 (ภาษาอังกฤษ, จีน, อาหรับ): https://catalog.ldc.upenn.edu/ldc2006t06
- Ace 2007 (สเปนและอาหรับ): https://catalog.ldc.upenn.edu/ldc2014t18
- Ontonotes 5 (ภาษาอังกฤษ, อาหรับ, จีน): https://catalog.ldc.upenn.edu/ldc2013t19
- ชุดข้อมูล DAWT - ข้อความ Wikipedia ที่มีคำอธิบายประกอบอย่างหนาแน่นในหลายภาษา (ภาษาอังกฤษ, สเปน, ฝรั่งเศส, อิตาลี, เยอรมัน, อาหรับ): https://github.com/klout/opendata/tree/master/wiki_annotation
- Wojood - 2022 อาหรับซ้อนกันชื่อ Entity Corpus https://dlnlp.ai/st/wojood/ https://aclanthology.org/2022.lrec-1.387.pdf https://codalab.lisn.upsaclay.fr/competitions/11740
ชาวเปอร์เซีย
- Armanpersonercorpus: http://islrn.org/resources/399-379-640-828-6/; https://github.com/haniehp/persianner
ซินธี
- Siner: https://aclanthology.org/2020.lec-1.361/, https://github.com/aliwazir/siner-dataset
ภาษาอูรดู
- IJCNLP 2008 SSEAL: http://ltrc.iiit.ac.in/ner-ssea-08/index.cgi?topic=5
- ชุดข้อมูล Uner (Khan et al., ชื่อชุดข้อมูลเอนทิตีสำหรับงานการจดจำเอนทิตีของอูรดู, 2016) มีให้ที่ http://www.iiu.edu.pk/?page_id=5181
- mk-pucit: https://www.dropbox.com/sh/1IVW7YKM2TUGG94/AAB9T5WNNN7FYNESPO7TJJW8LA; ดู: Kanwal et al., ภาษาอูรดูชื่อการรับรู้เอนทิตี: Corpus Generation และแอปพลิเคชั่นการเรียนรู้เชิงลึก, 2019
ทำให้เกิด
- NAAMAPADAM: ชุดข้อมูลการจดจำเอนทิตี (NER) สำหรับ 11 ภาษาอินเดียสำคัญจากสองภาษาครอบครัว https://research.ibm.com/publications/naamapadam-a-large-scale-named-entity-annotated-data-for-indic-languages https://ai4bharat.iitm.ac.in/naamapadam
ภาษาฮินดี
- Hiner: https://github.com/cfiltnlp/hiner
- ชุดข้อมูลสุขภาพภาษาฮินดี: https://www.kaggle.com/aijain/hindi-health-dataset/home
- Fire 2015, ESM-IL (อังกฤษ, ภาษาฮินดี, ทมิฬ, มาลายาลัม): http://au-kbc.org/nlp/esm-fire2015/#traincorpus
- Fire Ner 2013 (ภาษาอังกฤษ, ภาษาฮินดี, ทมิฬ, มาลายาลัม, เบงกาลี): http://au-kbc.org/nlp/ner-fire2013/
- IJCNLP 2008 SSEAL: http://ltrc.iiit.ac.in/ner-ssea-08/index.cgi?topic=5
เบงกอล
- Fire Ner 2013 (ภาษาอังกฤษ, ภาษาฮินดี, ทมิฬ, มาลายาลัม, เบงกาลี): http://au-kbc.org/nlp/ner-fire2013/
- IJCNLP 2008 SSEAL: http://ltrc.iiit.ac.in/ner-ssea-08/index.cgi?topic=5
- Bengali-ner: https://github.com/rifat1493/bengali-ner, https://ieeexplore.ieee.org/document/8944804
- ner-bangla: https://github.com/misabic/ner-bangla-dataset, https://content.iospress.com/articles/journal-of-intelligent-and-fuzzy-systems/IFS179349
เตลูกู
- ner_telugu: https://github.com/anikethjr/ner_telugu
- IJCNLP 2008 SSEAL: http://ltrc.iiit.ac.in/ner-ssea-08/index.cgi?topic=5
- Named Entity Annotated Corpora สำหรับ Telugu: http://www.tdil-dc.in/index.php?option=com_download&task=showresourcedetails&toolid=982&lang=en
maithili
- ตัวจดทะเบียนเอนทิตีชื่อแรกใน Maithili: การสร้างทรัพยากรและการพัฒนาระบบ: https://content.iospress.com/articles/journal-of-intelligent-and-fuzzy-systems/IFS210051
เนปาล
- Everestner: https://journals.flvc.org/flairs/article/view/130725, https://github.com/nowalab/everest-ner
มาราธี
- Named Entity Annotated Corpora สำหรับ Marathi: http://www.tdil-dc.in/index.php?option=com_download&task=showresourcedetails&toolid=979&lang=en
- L3Cube Mahaner: https://arxiv.org/abs/2204.06029 https://github.com/l3cube-pune/marathinlp
ปัญจาบ
- Named Entity Annotated Corpora สำหรับ Punjabi: http://www.tdil-dc.in/index.php?option=com_download&task=showResourcedetails&toolid=980&lang=en
ทมิฬ
- Fire 2015, ESM-IL (อังกฤษ, ภาษาฮินดี, ทมิฬ, มาลายาลัม): http://au-kbc.org/nlp/esm-fire2015/#traincorpus
- Fire Ner 2013 (ภาษาอังกฤษ, ภาษาฮินดี, ทมิฬ, มาลายาลัม, เบงกาลี): http://au-kbc.org/nlp/ner-fire2013/
มาลายาลัม
- Fire 2015, ESM-IL (อังกฤษ, ภาษาฮินดี, ทมิฬ, มาลายาลัม): http://au-kbc.org/nlp/esm-fire2015/#traincorpus
- Fire Ner 2013 (ภาษาอังกฤษ, ภาษาฮินดี, ทมิฬ, มาลายาลัม, เบงกาลี): http://au-kbc.org/nlp/ner-fire2013/
Oriya/Odia
- IJCNLP 2008 SSEAL: http://ltrc.iiit.ac.in/ner-ssea-08/index.cgi?topic=5
Sinhala/Sinhalese
แบบไทย
- Thai-named-entity-recognition-data: https://github.com/pythainlp/thai-named-entity-recognition-data
- ไทยชื่อ Entity Corpora: http://pioneer.chula.ac.th/~awirote/resources/corpora--data.html; http://pioneer.chula.ac.th/~awirote/data-nutcha.zip; http://pioneer.chula.ac.th/~awirote/data-sasiwimon.zip; http://pioneer.chula.ac.th/~awirote/data-nattadaporn.zip
- lst20: https://huggingface.co/datasets/lst20; https://arxiv.org/abs/2008.05055
- ไทย-เนอร์: https://github.com/vistec-ai/thai-nner, https://aclanthology.org/2022.findings-acl.116
ชาวอินโดนีเซีย
- INTEMIC: http://metashare.elda.org/repository/browse/identic/fed3fada7ef111e5aa3b001dd8b71c66c98eee36eabd42f18ffd9a95da9104cc/
- https://github.com/yohanesgultom/nlp-experiments/tree/master/data/ner
- Indonesia-ner: Syaifudin & Nurwidyantoro https://ieeexplore.ieee.org/document/7828656 https://github.com/yusufsyaifudin/indonesia-ner
- Idner-News-2K: ชุดข้อมูลของข่าวอินโดนีเซียสำหรับงานจดจำเอนไซม์ชื่อ Reannotation ของ Syaifudin & Nurwidyantoro https://dl.acm.org/doi/10.1145/3592854#fn8 https://github.com/khairunnisaor/idner-news-2k/
- nerp และ ner-grit: ชุดข้อมูลอินโดนีเซียสองชุดจาก Indonlp/Indonlu https://github.com/indonlp/indonlu/tree/master/dataset https://aclanthology.org/2020.aacl-main.85/
เวียดนาม
- VLSP 2016: http://vlsp.org.vn/resources-vlsp2016; https://github.com/undertheseanlp/ner
- VLSP 2018: http://vlsp.org.vn/resources-vlsp2018; https://github.com/undertheseanlp/ner
- phoner_covid19: https://github.com/vinairesearch/phoner_covid19
ญี่ปุ่น
- Irex: https://nlp.cs.nyu.edu/irex/package/
- Met-2 (ญี่ปุ่น, จีน): https://www-nlpir.nist.gov/related_projects/muc/
- bccwj พื้นฐาน NE Corpus: https://sites.google.com/site/projectnextnlpne/en (Iwakura et al., การสร้างคลังเอนทิตีพื้นฐานของญี่ปุ่นชื่อประเภทต่างๆ, ข่าว 2016)
- DBPEDIA บทคัดย่อคลังข้อมูล (อังกฤษ, เยอรมัน, ดัตช์, ฝรั่งเศส, อิตาลี, ญี่ปุ่น): http://downloads.dbpedia.org/2015-04/ext/nlp/abstracts/
- ข้อมูลจาก: Mai et al., การศึกษาเชิงประจักษ์เกี่ยวกับการจดจำเอนทิตีที่มีชื่อดี, Coling 2018 (ภาษาอังกฤษ, ญี่ปุ่น): https://fgner.alt.ai/duc/ene/Testsets/Comp/
- Wikipedia ner corpus: https://github.com/stockmarkteam/ner-wikipedia-dataset
- Wikiann: https://elisa-ie.github.io/wikiann/
- GSD: การแปลงชุดข้อมูล UD GSD เป็นเอนทิตีที่มีชื่อโดย Megagon Labs https://github.com/megagonLabs/ud_japanese-gsd
- KWDLC: เอกสารทางเว็บของมหาวิทยาลัย Kyoto เป็นผู้นำ Corpus https://nlp.ist.i.kyoto-u.ac.jp/en/index.php?kwdlc https://github.com/ku-nlp/kwdlc https:/nagisa.hutthedthedThedTHEDLC
เกาหลี
- สถาบันภาษาเกาหลีแห่งชาติ (ROK) - Ner Corpus: https://github.com/digitalprk/koreaner; https://ithub.korean.go.kr/user/total/referenceView.do?boardseq=5&articleseq=118&boardg=t&isinsupd&boardtype=corpus
- kmou ner - https://github.com/kmounlp/ner
- การประเมินความเข้าใจภาษาเกาหลี - klue ner - https://klue-benchmark.com/tasks/69/overview/description
- https://github.com/Songys/entity
- HLCT 2016 Corpus พร้อมการอัปเดต - https://github.com/machinereading/koreannercorpus
ชาวจีน
- Ace 2003 (ภาษาอังกฤษ, จีน, อาหรับ): https://catalog.ldc.upenn.edu/ldc2004t09
- Ace 2004 (อังกฤษ, จีน, อาหรับ): https://catalog.ldc.upenn.edu/ldc2005t09
- Ace 2005 (ภาษาอังกฤษ, จีน, อาหรับ): https://catalog.ldc.upenn.edu/ldc2006t06
- Ontonotes 5 (ภาษาอังกฤษ, อาหรับ, จีน): https://catalog.ldc.upenn.edu/ldc2013t19
- Met-2 (ญี่ปุ่น, จีน): https://www-nlpir.nist.gov/related_projects/muc/
- Reflex Entity Translation (คู่ขนานคลังข้อมูล: อังกฤษ, อาหรับ, จีน): https://catalog.ldc.upenn.edu/ldc2009t11
- NE3L ชื่อเอนทิตีคลังภาษาจีน (อาหรับ, จีน, รัสเซีย): http://catalogue.elra.info/en-us/repository/browse/elra-w0079/
- การเปรียบเทียบข้อมูลระยะสั้นต้นฉบับ I เป็นภาษาจีน (ชื่อเอนทิตี): http://catalog.elra.info/en-us/repository/browse/elra-w0045_04/
- การเปรียบเทียบข้อมูลระยะสั้นต้นฉบับ II ในภาษาจีน (เอนทิตีชื่อ): http://catalog.elra.info/en-us/repository/browse/elra-w0045_08/
- ERE DEFT CORPORA (คู่ขนานคลังข้อมูล: อังกฤษ, จีน): Mott et al., หน่วยงานภาษาจีน-อังกฤษคู่ขนาน, ความสัมพันธ์และกิจกรรม Corpora, 2016 (LDC2015E78, LDC2014E114)
- Weibo ภาษาจีน: คำอธิบายประกอบสไตล์ที่คล่องแคล่วสำหรับชื่อและการกล่าวถึงเล็กน้อยในสื่อสังคมออนไลน์ของจีน (Weibo): https://github.com/hltcoe/Golden-horse
- eduner จีน: 2023 ชุดข้อมูลในโดเมนการศึกษา: https://link.springer.com/article/10.1007/s00521-023-08635-5 https://github.com/anonymous-xl/eduner
- Chinese Aerospace NER: https://www.nature.com/articles/s41598-023-50705-0 https://github.com/Coder-XIAOKAI/Aerospace_NERdatasets
- SciCN: A Chinese Dataset and Benchmark for Scientific Information Extraction https://file.techscience.com/files/cmc/2024/TSP_CMC-78-3/TSP_CMC_35594/TSP_CMC_35594.pdf https://github.com/yangjingla/SciCN
- EMP NER: Historical Chinese https://aclanthology.org/2024.lrec-main.35.pdf https://gitlab.com/enpchina/ENP-NER
ภาษาตากาล็อก
- TLUnifed: https://arxiv.org/abs/2311.07161 https://huggingface.co/datasets/ljvmiranda921/tlunified-ner
ชาวรัสเซีย
- BSNLP 2017 (Croatian, Czech, Polish, Russian, Slovak, Slovene, Ukrainian): http://bsnlp-2017.cs.helsinki.fi/shared_task_results.html
- NE3L named entities Russian corpus (Arabic, Chinese, Russian): https://catalog.elra.info/en-us/repository/browse/ELRA-W0080/
- WikiNER: https://figshare.com/articles/Learning_multilingual_named_entity_recognition_from_Wikipedia/5462500
- WikiNEuRal: https://github.com/Babelscape/wikineural
- MultiNERD: https://github.com/Babelscape/multinerd
- factRuEval-2016: https://github.com/dialogue-evaluation/factRuEval-2016
- RuREBus 2020 (Russian Relation Extraction for Business) corpus https://github.com/dialogue-evaluation/RuREBus
โยรูบา
- GV-Yorùbá-NER. Data: https://github.com/ajesujoba/YorubaTwi-Embedding/tree/master/Yoruba/Yor%C3%B9b%C3%A1-NER ; Data statement: https://drive.google.com/file/d/177xu-O2FTJ7VJQ-0ohCWjVd1qu61Tvml/view Paper: Jesujoba O Alabi, Kwabena Amponsah-Kaakyire, David I Adelani, and Cristina Espãna-Bonet. Massive vs. curated word embeddings for low-resourced languages. the case of Yorùbá and Twi. In LREC, 2020 (https://arxiv.org/abs/1912.02481)
ภาษาสวาฮิลี
- Helsinki Corpus of Swahili 2.0 (HCS 2.0) Annotated Version: http://metashare.csc.fi/repository/browse/helsinki-corpus-of-swahili-20-hcs-20-annotated-version/232c1910b9eb11e5915e005056be118e59fb2e920f1f4c0cafc94915fc6f5cac/ See: Shah et al., 2010. SYNERGY: A Named Entity Recognition System for Resource-scarce Languages such as Swahili using Online Machine Translation
Igbo
- IgboNER: https://aclanthology.org/2022.lrec-1.547/ https://github.com/Chiamakac/IgboNER-Models later updated in https://openreview.net/pdf?id=tHUS9-vmUfC from https://sites.google.com/view/africanlp2023/home
isiNdebele
- NCHLT isiNdebele Named Entity Annotated Corpus: https://repo.sadilar.org/handle/20.500.12185/306
โซซา
- NCHLT isiXhosa Named Entity Annotated Corpus: https://repo.sadilar.org/handle/20.500.12185/312
ซูลู
- NCHLT isiZulu Named Entity Annotated Corpus: https://repo.sadilar.org/handle/20.500.12185/319
Sepedi
- NCHLT Sepedi Named Entity Annotated Corpus: https://repo.sadilar.org/handle/20.500.12185/328
Sesotho
- NCHLT Sesotho Named Entity Annotated Corpus: https://repo.sadilar.org/handle/20.500.12185/334
Setswana
- NCHLT Setswana Named Entity Annotated Corpus: https://repo.sadilar.org/handle/20.500.12185/341
Siswati
- NCHLT Siswati Named Entity Annotated Corpus: https://repo.sadilar.org/handle/20.500.12185/346
Venda
- NCHLT Tshivenda Named Entity Annotated Corpus: https://repo.sadilar.org/handle/20.500.12185/355
- MPHAYANER: Named Entity Recognition for Tshivenḓa: https://openreview.net/pdf?id=0nneuL3bSLt https://github.com/rendanim/MphayaNER from https://sites.google.com/view/africanlp2023/home
Xitsonga
- NCHLT Xitsonga Named Entity Annotated Corpus: https://repo.sadilar.org/handle/20.500.12185/362
ภาษาละติน
- Herodotos Project: https://github.com/alexerdmann/Herodotos_Project_Annotation
A long list can be found here: http://damien.nouvels.net/resourcesen/corpora.html
References
[Alvarado et al., 2015] Alvarado, Julio Cesar Salinas, Karin Verspoor, and Timothy Baldwin. Domain adaption of named entity recognition to support credit risk assessment. In Proceedings of the Australasian Language Technology Association Workshop 2015, pp. 84-90. 2015. Accessed: August 2018.
[Balasuriya et al., 2009] Balasuriya, Dominic, Nicky Ringland, Joel Nothman, Tara Murphy, and James R. Curran. Named entity recognition in wikipedia. In Proceedings of the 2009 Workshop on The People's Web Meets NLP: Collaboratively Constructed Semantic Resources, pp. 10-18. Association for Computational Linguistics, 2009
[Bos et al., 2017] Bos, Johan, Valerio Basile, Kilian Evang, Noortje J. Venhuizen, and Johannes Bjerva. The Groningen meaning bank. In Handbook of linguistic annotation, pp. 463-496. Springer, Dordrecht, 2017.
[Derczynski et al., 2016] Derczynski, Leon, Kalina Bontcheva, and Ian Roberts. Broad twitter corpus: A diverse named entity recognition resource. In Proceedings of COLING 2016, the 26th International Conference on Computational Linguistics: Technical Papers, pp. 1169-1179. 2016. Available at: https://github.com/GateNLP/broad_twitter_corpus Accessed: August 2018.
[Derczynski et al., 2017] Leon Derczynski, Eric Nichols, Marieke van Erp, Nut Limsopatham (2017) Results of the WNUT2017 Shared Task on Novel and Emerging Entity Recognition, in Proceedings of the 3rd Workshop on Noisy, User-generated Text. Available at: https://noisy-text.github.io/2017/emerging-rare-entities.html
[DSTL, 2017] Defence Science and Technology Laboratory. 2017. Relationship and Entity Extraction Evaluation Dataset. https://github.com/dstl/re3d. Accessed: January 2018.
[Grishman and Sundheim, 1996] Ralph Grishman and Beth Sundheim. 1996. Message understanding conference- 6: A brief history. In COLING 1996 Volume 1: The 16th International Conference on Computational Linguistics.
[Karimi et al., 2015] Sarvnaz Karimi, Alejandro Metke-Jimenez, Madonna Kemp, and Chen Wang. 2015. Cadec: A corpus of adverse drug event annotations. Journal of biomedical informatics, 55:73-81. Available at https://data.csiro.au Accessed: November 2017.
[Lim et al., 2017] Lim, Swee Kiat, Aldrian Obaja Muis, Wei Lu, and Chen Hui Ong. MalwareTextDB: A database for annotated malware articles. In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), vol. 1, pp. 1557-1567. 2017.
[Liu et al., 2013a] Jingjing Liu, Panupong Pasupat, Scott Cyphers, and Jim Glass. 2013. Asgard: A portable architecture for multilingual dialogue systems. In Acoustics, Speech and Signal Processing (ICASSP), 2013 IEEE International Conference on, pages 8386-8390. IEEE. Available at https://groups.csail.mit.edu/sls/downloads/restaurant/ Accessed: January 2018
[Liu et al., 2013b] Jingjing Liu, Panupong Pasupat, Yining Wang, Scott Cyphers, and Jim Glass. 2013. Query understanding enhanced by hierarchical parsing structures. In Automatic Speech Recognition and Understanding (ASRU), 2013 IEEE Workshop on, pages 72-77. IEEE. Available at https://groups.csail.mit.edu/sls/downloads/movie/ We used the trivia10k13 portion. Accessed: January 2018
[NIST, 1999 IE-ER] NIST. 1999. Information Extraction - Entity Recognition Evaluation. http://www.nist.gov/speech/tests/ieer/er_99/er_99.htm. The newswire development test data only (included in the NLTK package).
[Ohta et al., 2012] Tomoko Ohta, Sampo Pyysalo, Jun'ichi Tsujii and Sophia Ananiadou. 2012. Open-domain Anatomical Entity Mention Detection. In Proceedings of ACL 2012 Workshop on Detecting Structure in Scholarly Discourse (DSSD), pp. 27-36. Available at: http://www.nactem.ac.uk/anatomy/ and https://github.com/openbiocorpora/anem Accessed: November 2017.
[Ritter et al., 2011] Alan Ritter, Sam Clark, Mausam, and Oren Etzioni. 2011. Named entity recognition in tweets: An experimental study. In Proceedings of the 2011 Conference on Empirical Methods in Natural Language Processing, pages 1524-1534, Edinburgh, Scotland, UK., July. Association for Computational Linguistics. Accessed January 2018.
[Sang and Meulder, 2003] Erik F. Tjong Kim Sang and Fien De Meulder. 2003. Introduction to the CoNLL-2003 shared task: Languageindependent named entity recognition. In Proceedings of the Seventh Conference on Natural Language Learning at HLT-NAACL 2003.
[Stubbs et al., 2015] Amber Stubbs and Ozlem Uzuner. 2015. Annotating longitudinal clinical narratives for de-identification: The 2014 i2b2/UTHealth corpus. Journal of biomedical informatics, 58:S20-S29. Available at https://www.i2b2.org/NLP/DataSets/ Accessed: February 2018.
[Uzuner et al., 2007] Ozlem Uzuner, Yuan Luo, and Peter Szolovits. 2007. Evaluating the state-of-the-art in automatic de-identification. Journal of the American Medical Informatics Association, 14(5):550-563. Available at https://www.i2b2.org/NLP/DataSets/ Accessed: February 2018.
[Weischedel and Brunstein, 2005] Ralph Weischedel and Ada Brunstein. 2005. BBN pronoun coreference and entity type corpus. Linguistic Data Consortium, Philadelphia.
[Weischedel et al., 2013] Weischedel, Ralph, Martha Palmer, Mitchell Marcus, Eduard Hovy, Sameer Pradhan, Lance Ramshaw, Nianwen Xue et al. Ontonotes release 5.0 ldc2013t19. Linguistic Data Consortium, Philadelphia, PA (2013).
[Zeldes, 2017] Amir Zeldes. 2017. The GUM corpus: creating multilayer resources in the classroom. Language Resources and Evaluation, 51(3):581-612. Available at https://github.com/amir-zeldes/gum/tree/master/coref/tsv/ Accessed: November 2017.