พื้นที่เก็บข้อมูลนี้มีชุดข้อมูลที่มีคำอธิบายประกอบซึ่งสามารถใช้ในการฝึกอบรมแบบจำลองที่มีการดูแลสำหรับงานของการสกัดความสัมพันธ์เชิงความหมาย หากคุณรู้ชุดข้อมูลเพิ่มเติมและต้องการมีส่วนร่วมโปรดแจ้งให้ฉันทราบหรือส่ง PR
แบ่งออกเป็น 3 กลุ่ม:
การสกัดข้อมูลแบบดั้งเดิม : ความสัมพันธ์เป็นคำอธิบายประกอบด้วยตนเองและเป็นของประเภทที่กำหนดไว้ล่วงหน้าเช่นจำนวนคลาสที่ปิด
การสกัดข้อมูลแบบเปิด : ความสัมพันธ์มีคำอธิบายประกอบด้วยตนเอง แต่ไม่มีประเภทเฉพาะใด ๆ
ภายใต้การดูแลที่ห่างไกล : ความสัมพันธ์มีคำอธิบายประกอบโดยการใช้เทคนิคการกำกับดูแลที่ห่างไกลและมีการกำหนดล่วงหน้า
| ชุดข้อมูล | nr. ชั้นเรียน | ภาษา | ปี | อ้างถึง |
|---|---|---|---|---|
| AIMED.TAR.GZ | 2 | ภาษาอังกฤษ | ปี 2548 | เมล็ดที่ตามมาสำหรับการสกัดสัมพันธ์ |
| wikipedia_datav1.0.tar.gz | 53 | ภาษาอังกฤษ | 2549 | การรวมโมเดลการสกัดที่น่าจะเป็นและการขุดข้อมูลเพื่อค้นหาความสัมพันธ์และรูปแบบในข้อความ |
| semeval2007-task4.tar.gz | 7 | ภาษาอังกฤษ | 2550 | SEMEVAL-2007 TASK 04: การจำแนกประเภทของความสัมพันธ์เชิงความหมายระหว่างการเสนอชื่อ |
| hlt-naacl08-data.txt | 2 | ภาษาอังกฤษ | 2550 | เรียนรู้ที่จะสกัดความสัมพันธ์จากเว็บโดยใช้การกำกับดูแลน้อยที่สุด |
| rerelem.tar.gz | 4 | ชาวโปรตุเกส | 2552 | การตรวจจับความสัมพันธ์ระหว่างหน่วยงานที่มีชื่อ: รายงานงานที่ใช้ร่วมกัน |
| semeval2010_task8_all_data.tar.gz | 10/18 (ทิศทาง) | ภาษาอังกฤษ | 2010 | SEMEVAL-2010 TASK 8: การจำแนกประเภทหลายทางของความสัมพันธ์เชิงความหมายระหว่างคู่ของการเสนอชื่อ |
| bionlp.tar.gz | 2 | ภาษาอังกฤษ | ปี 2554 | ภาพรวมของงานที่ใช้ร่วมกันของ BionLP 2011 |
| ddicorpus2013.zip | 4 | ภาษาอังกฤษ | ปี 2555 | คลังข้อมูล DDI: คลังคำอธิบายประกอบกับสารทางเภสัชวิทยาและปฏิกิริยาระหว่างยา - ยาเสพติด |
| ade-corpus-v2.zip | 2 | ภาษาอังกฤษ | 2013 | การพัฒนาคลังข้อมูลมาตรฐานเพื่อสนับสนุนการสกัดโดยอัตโนมัติของผลข้างเคียงที่เกี่ยวข้องกับยาจากรายงานผู้ป่วย |
| dbpediarelations-pt-0.2.txt.bz2 | 10 | ชาวโปรตุเกส | 2013 | การสำรวจ DBPEDIA และ Wikipedia สำหรับการสกัดความสัมพันธ์แบบโปรตุเกส |
| kbp37-master.zip | 37 ทิศทาง | ภาษาอังกฤษ | ปี 2558 | การจำแนกประเภทความสัมพันธ์ผ่านเครือข่ายประสาทกำเริบ |
| ชุดข้อมูล | nr. ชั้นเรียน | ภาษา | ปี | อ้างถึง |
|---|---|---|---|---|
| DataSet-ijcnlp2011.tar.gz | เปิด | ภาษาอังกฤษ | ปี 2554 | การสกัดคำอธิบายความสัมพันธ์ด้วยฟิลด์สุ่มแบบมีเงื่อนไข |
| Reverb_emnlp2011_data.tar.gz | เปิด | ภาษาอังกฤษ | ปี 2554 | การระบุความสัมพันธ์สำหรับการสกัดข้อมูลแบบเปิด |
| Clausie-datasets.tar.gz | เปิด | ภาษาอังกฤษ | 2013 | Clausie: การสกัดข้อมูลแบบเปิดตามประโยค |
| emnlp13_ualberta_experiments_v2.zip | เปิด | ภาษาอังกฤษ | 2013 | ประสิทธิผลและประสิทธิภาพของการสกัดแบบเปิดโล่ง |
| ชุดข้อมูล | nr. ชั้นเรียน | ภาษา | ปี | อ้างถึง |
|---|---|---|---|---|
| http://iesl.cs.umass.edu/riedel/ecml/ | ห่างไกล | ภาษาอังกฤษ | 2010 | การสร้างแบบจำลองความสัมพันธ์และการกล่าวถึงโดยไม่มีข้อความที่มีป้ายกำกับ |
| https://github.com/google-research-datasets/relation-extraction-corpus | ห่างไกล | ภาษาอังกฤษ | 2013 | https://research.googleblog.com/2013/04/50000-lessons-on-how-to-read-relation.html |
| pgr.zip | ห่างไกล | ภาษาอังกฤษ | 2019 | คลังมาตรฐานเงินของความสัมพันธ์ฟีโนไทป์-ยีนของมนุษย์ |
| pgr-crowd.zip | อยู่ห่างไกล + crowdsourced | ภาษาอังกฤษ | 2020 | วิธีการไฮบริดที่มีต่อการฝึกอบรมด้านชีวการแพทย์การฝึกอบรม Corpora: รวมการกำกับดูแลที่ห่างไกลกับ crowdsourcing |
dateset : dbpediarelations-pt-0.2.txt.bz2
อ้างอิง : สำรวจ DBPEDIA และ Wikipedia สำหรับการสกัดความสัมพันธ์แบบโปรตุเกส
คำอธิบาย : คอลเลกชันของประโยคในภาษาโปรตุเกสที่แสดงความสัมพันธ์ทางความหมายระหว่างคู่ของเอนทิตีที่สกัดจาก DBPEDIA ประโยคถูกรวบรวมโดยการกำกับดูแลที่ห่างไกลและได้รับการแก้ไข Manuall
Dateset : Aimed.tar.gz
อ้างอิง : เมล็ดที่ตามมาสำหรับการสกัดความสัมพันธ์
คำอธิบาย : ประกอบด้วยบทคัดย่อ 225 medline ซึ่ง 200 เป็นที่รู้จักกันเพื่ออธิบายการมีปฏิสัมพันธ์ระหว่างโปรตีนของมนุษย์ในขณะที่อีก 25 คนไม่ได้อ้างถึงปฏิสัมพันธ์ใด ๆ มีการอ้างอิงโปรตีน 4084 และการโต้ตอบที่ติดแท็กประมาณ 1,000 รายการในชุดข้อมูลนี้
dateset : semeval2007-task4.tar.gz
อ้างอิง : Semeval-2007 TASK 04: การจำแนกประเภทของความสัมพันธ์เชิงความหมายระหว่างการเสนอชื่อ
คำอธิบาย : ชุดข้อมูลขนาดเล็กที่มี 7 ประเภทความสัมพันธ์และตัวอย่างรวม 1,529 ตัวอย่าง
dateset : semeval2010_task8_all_data.tar.gz
อ้างอิง : Semeval-2010 ภารกิจ 8: การจำแนกประเภทหลายทางของความสัมพันธ์เชิงความหมายระหว่างคู่ของการเสนอชื่อ
คำอธิบาย : Semeval-2010 งาน 8 เป็นงานการจำแนกประเภทหลายทางซึ่งฉลากสำหรับแต่ละตัวอย่างจะต้องเลือกจากชุดที่สมบูรณ์ของความสัมพันธ์สิบชุดและการแมปจากคำนามไปยังสล็อตอาร์กิวเมนต์ไม่ได้ให้ไว้ล่วงหน้า นอกจากนี้เรายังให้ข้อมูลเพิ่มเติม: ตัวอย่างที่มีคำอธิบายประกอบ 10,717 ตัวอย่างเมื่อเทียบกับ 1,529 ในงาน Semeval-1 ภารกิจ 4
dateset : rerelem.tar.gz
อ้างอิง : การตรวจจับความสัมพันธ์ระหว่างหน่วยงานที่มีชื่อ: รายงานงานที่ใช้ร่วมกัน
คำอธิบาย : การประกวดการประเมินผลครั้งแรก (TRACK) สำหรับชาวโปรตุเกสซึ่งมีเป้าหมายที่จะตรวจจับและจำแนกความสัมพันธ์ระหว่างหน่วยงานที่มีชื่อในการเรียกใช้ข้อความเรียกว่า Rerelem ด้วยคอลเลกชันที่มีคำอธิบายประกอบกับเอนทิตีที่มีชื่อของหมวดหมู่ความหมายที่แตกต่างกันสิบประเภทเราทำเครื่องหมายความสัมพันธ์ทั้งหมดระหว่างพวกเขาภายในแต่ละเอกสาร เราใช้การจำแนกความสัมพันธ์แบบสี่เท่าต่อไปนี้: ตัวตน, รวมอยู่ในที่ตั้งอยู่และอื่น ๆ (ซึ่งต่อมามีรายละเอียดอย่างชัดเจนในความสัมพันธ์ที่แตกต่างกันยี่สิบ)
dateset : wikipedia_datav1.0.tar.gz
อ้างอิง : การรวมโมเดลการสกัดที่น่าจะเป็นและการขุดข้อมูลเพื่อค้นหาความสัมพันธ์และรูปแบบในข้อความ
คำอธิบาย : เราสุ่มตัวอย่าง 1127 วรรคจาก 271 บทความจากสารานุกรมออนไลน์ Wikipedia และติดป้ายทั้งหมด 4701 อินสแตนซ์ความสัมพันธ์ นอกเหนือจากความสัมพันธ์ระหว่างบุคคลกับบุคคลจำนวนมากเรายังรวมถึงการเชื่อมโยงระหว่างผู้คนและองค์กรรวมถึงข้อเท็จจริงเกี่ยวกับชีวประวัติเช่นวันเกิดและ Jobtitle ในทั้งหมดมีป้ายกำกับ 53 รายการในข้อมูลการฝึกอบรม
dateset : hlt-naacl08-data.txt
อ้างอิง : การเรียนรู้ที่จะสกัดความสัมพันธ์จากเว็บโดยใช้การกำกับดูแลน้อยที่สุด
คำอธิบาย : คู่การซื้อกิจการของ บริษัท และคู่บุคคลหลังคลอดที่นำมาจากเว็บ ชุดทดสอบการซื้อกิจการของ บริษัท มีทั้งหมด 995 กรณีซึ่ง 156 เป็นบวก ชุดทดสอบการคลอดบุตรของบุคคลมีทั้งหมด 601 กรณีและมีเพียง 45 รายการเท่านั้นที่เป็นบวก
Dateset : bionlp.tar.gz
อ้างอิง : ภาพรวมของงานที่ใช้ร่วมกันของ BionLP 2011
คำอธิบาย : งานเกี่ยวข้องกับการรับรู้ของสองส่วนของความสัมพันธ์ไบนารีระหว่างหน่วยงาน: องค์ประกอบโปรตีนและ subunitcomplex งานได้รับแรงบันดาลใจจากความท้าทายที่เฉพาะเจาะจง: การระบุส่วนประกอบของโปรตีนในข้อความนั้นเกี่ยวข้องเช่นการรับรู้ข้อโต้แย้งของไซต์ (เทียบกับงาน EPI และ ID) และความสัมพันธ์ระหว่างโปรตีนและคอมเพล็กซ์ที่เกี่ยวข้องกับงานใด ๆ ที่เกี่ยวข้องกับพวกเขา การตั้งค่า REL ได้รับแจ้งจากงานความสัมพันธ์ทางความหมายล่าสุด (Hendrickx et al., 2010) ข้อมูลงานซึ่งประกอบด้วยคำอธิบายประกอบใหม่สำหรับข้อมูล GE ขยายทรัพยากรที่แนะนำก่อนหน้านี้ (Pyysalo et al., 2009; Ohta et al., 2010a)
Dateset : ddicorpus2013.zip
อ้างอิง : คลังข้อมูล DDI: คลังคำอธิบายประกอบกับสารทางเภสัชวิทยาและปฏิกิริยาระหว่างยา - ยา
คำอธิบาย : คลังข้อมูล DDI มีบทคัดย่อ medline เกี่ยวกับปฏิกิริยาระหว่างยาเสพติดรวมถึงเอกสารที่อธิบายการปฏิสัมพันธ์ระหว่างยายาเสพติดจากฐานข้อมูล DrugBank งานนี้ได้รับการออกแบบมาเพื่อจัดการกับการสกัดปฏิสัมพันธ์ระหว่างยาเสพติดโดยรวม แต่แบ่งออกเป็นสองงานย่อยเพื่อให้การประเมินผลการปฏิบัติงานแยกต่างหากสำหรับแง่มุมต่าง ๆ ของปัญหา งานนี้มีสองงานย่อย:
เสนอ DDIs สี่ประเภท:
Dateset : Ade-Corpus-v2.zip
อ้างอิง : การพัฒนาคลังข้อมูลมาตรฐานเพื่อสนับสนุนการสกัดโดยอัตโนมัติของผลข้างเคียงที่เกี่ยวข้องกับยาจากรายงานผู้ป่วย
คำอธิบาย : งานที่นำเสนอที่นี่มีจุดมุ่งหมายเพื่อสร้างคลังข้อมูลที่มีคำอธิบายประกอบอย่างเป็นระบบซึ่งสามารถรองรับการพัฒนาและการตรวจสอบวิธีการสำหรับการสกัดโดยอัตโนมัติของผลข้างเคียงที่เกี่ยวข้องกับยาจากรายงานผู้ป่วย เอกสารมีคำอธิบายประกอบเป็นสองเท่าอย่างเป็นระบบในรอบต่าง ๆ เพื่อให้แน่ใจว่ามีคำอธิบายประกอบที่สอดคล้องกัน เอกสารคำอธิบายประกอบในที่สุดก็กลมกลืนกันเพื่อสร้างคำอธิบายประกอบฉันทามติที่เป็นตัวแทน เพื่อแสดงให้เห็นถึงตัวอย่างสถานการณ์กรณีการใช้งานคลังข้อมูลถูกใช้เพื่อฝึกอบรมและตรวจสอบรูปแบบสำหรับการจำแนกประเภทข้อมูลกับประโยคที่ไม่เป็นข้อมูล ตัวจําแนกเอนโทรปีสูงสุดที่ได้รับการฝึกฝนด้วยคุณสมบัติที่เรียบง่ายและประเมินโดยการตรวจสอบข้าม 10 เท่าส่งผลให้คะแนน F1 0.70 แสดงถึงการใช้งานที่เป็นประโยชน์ของคลังข้อมูล
dateset : kbp37-master.zip.zip
อ้างอิง : การจำแนกความสัมพันธ์ผ่านเครือข่ายประสาทกำเริบ
คำอธิบาย : ชุดข้อมูลนี้เป็นการแก้ไขชุดข้อมูลคำอธิบายประกอบ MIML-RE ซึ่งจัดทำโดย Gabor Angeli และคณะ (2014) พวกเขาใช้คอลเลกชันเอกสารอย่างเป็นทางการของ KBP ทั้งปี 2010 และ 2013 รวมถึงการถ่ายโอนข้อมูล Wikipedia ในเดือนกรกฎาคม 2013 เป็นคลังข้อความสำหรับคำอธิบายประกอบการอธิบาย 33811 ประโยค เพื่อให้ชุดข้อมูลเหมาะสำหรับงานของเรามากขึ้นเราได้ทำการปรับแต่งหลายอย่าง:
ก่อนอื่นเราเพิ่มทิศทางไปยังชื่อความสัมพันธ์เช่น 'ต่อ: พนักงานของ' ถูกแบ่งออกเป็นสองความสัมพันธ์ 'ต่อ: พนักงานของ (e1, e2)' และ 'ต่อ: พนักงานของ (e2, e1)' ยกเว้น 'ไม่มีความสัมพันธ์' ตามคำอธิบายของงาน KBP 3 เราแทนที่ 'org: ผู้ปกครอง' ด้วย 'org: บริษัท ย่อย' และแทนที่ 'org: สมาชิกของ' with 'org: สมาชิก' (โดยทิศทางย้อนกลับของพวกเขา) สิ่งนี้นำไปสู่ 76 ความสัมพันธ์ในชุดข้อมูล
จากนั้นเราสถิติความถี่ของแต่ละความสัมพันธ์ที่มีสองทิศทางแยกกัน และความสัมพันธ์กับความถี่ต่ำจะถูกยกเลิกเพื่อให้ทั้งสองทิศทางของความสัมพันธ์แต่ละครั้งเกิดขึ้นมากกว่า 100 เท่าในชุดข้อมูล เพื่อความสมดุลของชุดข้อมูลที่ดีขึ้น 80% 'ไม่มีความสัมพันธ์' ประโยคจะถูกยกเลิกแบบสุ่ม
หลังจากนั้นชุดข้อมูลจะถูกสุ่มสับแล้วประโยคภายใต้แต่ละความสัมพันธ์จะแบ่งออกเป็นสามกลุ่ม 70% สำหรับการฝึกอบรม 10% สำหรับการพัฒนา 20% สำหรับการทดสอบ ในที่สุดเราลบประโยคเหล่านั้นในชุดการพัฒนาและทดสอบที่คู่และความสัมพันธ์ปรากฏขึ้นในประโยคการฝึกอบรมพร้อมกัน
dateset : Reverb_emnlp2011_data.tar.gz
อ้างอิง : การระบุความสัมพันธ์สำหรับการสกัดข้อมูลแบบเปิด
คำอธิบาย : 500 ประโยคตัวอย่างจากเว็บโดยใช้บริการ Link แบบสุ่มของ Yahoo
Dateset : Clausie-datasets.tar.gz
Cite : Clausie: การสกัดข้อมูลแบบเปิดตามประโยค
คำอธิบาย :
ชุดข้อมูลที่แตกต่างกันสามชุด ก่อนอื่นชุดข้อมูล Reverb ประกอบด้วย 500 ประโยคพร้อมการสกัดที่มีป้ายกำกับด้วยตนเอง ประโยคได้รับผ่านบริการแบบสุ่มลิงค์ของ Yahoo และโดยทั่วไปจะมีเสียงดังมาก ประการที่สองประโยคสุ่ม 200 ประโยคจากหน้า Wikipedia ประโยคเหล่านี้สั้นกว่าง่ายกว่าและมีเสียงดังน้อยกว่าชุดข้อมูล Reverb เนื่องจากบทความวิกิพีเดียบางบทความเขียนโดยผู้พูดที่ไม่ใช่เจ้าของภาษาอย่างไรก็ตามประโยควิกิพีเดียจึงมีสิ่งก่อสร้างทางไวยากรณ์ที่ไม่ถูกต้อง ประการที่สามประโยคสุ่ม 200 ประโยคจากคอลเลกชัน New York Times ประโยคเหล่านี้มักจะสะอาดมาก แต่มักจะยาวและซับซ้อน
dateset : emnlp13_ualberta_experiments_v2.zip
อ้างอิง : ประสิทธิผลและประสิทธิภาพของการสกัดแบบเปิดโล่ง
คำอธิบาย : Web-500 เป็นชุดข้อมูลที่ใช้กันทั่วไปซึ่งพัฒนาขึ้นสำหรับการทดลอง Textrunner (Banko และ Etzioni, 2008) ประโยคเหล่านี้มักจะไม่สมบูรณ์และไม่มั่นคงทางไวยากรณ์ซึ่งเป็นตัวแทนของความท้าทายในการจัดการกับข้อความเว็บ NYT-500 แสดงถึงปลายอีกด้านของสเปกตรัมที่มีเรื่องราวใหม่ที่เขียนได้ดีจาก New York Times Corpus (Sandhaus, 2008) Penn-100 มีประโยคจาก Penn Treebank ที่เพิ่งใช้ในการประเมินวิธี Treekernel (Xu et al., 2013) เราใส่คำอธิบายประกอบความสัมพันธ์สำหรับ Web-500 และ NYT-500 ด้วยตนเองและใช้คำอธิบายประกอบ Penn-100 ที่จัดทำโดยผู้เขียนของ Treekernel (Xu et al., 2013)
dateset : dataSet-ijcnlp2011.tar.gz
อ้างอิง : การสกัดคำอธิบายความสัมพันธ์ด้วยฟิลด์สุ่มแบบมีเงื่อนไข
คำอธิบาย : ชุดข้อมูลนิวยอร์กไทม์สมีบทความธุรกิจ 150 บทความจากนิวยอร์กไทม์ส บทความถูกรวบรวมข้อมูลจากเว็บไซต์ NYT ระหว่างเดือนพฤศจิกายน 2552 ถึงมกราคม 2010 หลังจากการแยกประโยคและโทเค็นเราใช้ Stanford Ner Tagger (URL: http://nlp.stanford.edu/ner/index.shtml) สำหรับเอนทิตีที่มีชื่อที่มีโทเค็นหลายตัวเราต่อกันเป็นโทเค็นเดียว จากนั้นเราก็ใช้หน่วยงาน (ต่อ, org) แต่ละคู่ที่เกิดขึ้นในประโยคเดียวกันกับอินสแตนซ์ความสัมพันธ์ของผู้สมัครคนเดียวซึ่งต่อเอนทิตีต่อนิติบุคคลได้รับการปฏิบัติเป็น Arg-1 และเอนทิตีองค์กรได้รับการปฏิบัติเป็น Arg-2
ข้อมูล Wikipedia ถูกสร้างขึ้นก่อนหน้านี้โดย Aron Culotta et al .. เนื่องจากชุดข้อมูลต้นฉบับไม่มีข้อมูลคำอธิบายประกอบที่เราต้องการเราจึงผนวกคำใหม่อีกครั้ง ในทำนองเดียวกันเราได้ทำการแยกประโยค, โทเค็นและการติดแท็ก ner และใช้คู่ของ (ต่อ, ต่อ) เอนทิตีที่เกิดขึ้นในประโยคเดียวกันกับอินสแตนซ์ความสัมพันธ์ของผู้สมัคร เรามักจะปฏิบัติต่อสิ่งแรกต่อเอนทิตีเป็น ARG-1 และที่สองต่อเอนทิตีเป็น Arg-2
Dateset : http://iesl.cs.umass.edu/riedel/ecml/
อ้างอิง : การสร้างแบบจำลองความสัมพันธ์และการกล่าวถึงโดยไม่มีข้อความที่มีป้ายกำกับ
คำอธิบาย : ชุดข้อมูล NYT เป็นชุดข้อมูลที่ใช้กันอย่างแพร่หลายในงานสกัดความสัมพันธ์ที่อยู่ห่างไกล ชุดข้อมูลนี้สร้างขึ้นโดยการจัดแนวความสัมพันธ์ Freebase กับคลังข้อมูล New York Times (NYT) โดยมีประโยคจากปี 2548-2549 ใช้เป็นคลังการฝึกอบรมและประโยคจากปี 2550 ที่ใช้เป็นคลังการทดสอบ
Dateset : https://github.com/google-research-datasets/relation-extraction-corpus
อ้างอิง : https://research.googleblog.com/2013/04/50000-lessons-on-how-to-read-relation.html
คำอธิบาย : https://research.googleblog.com/2013/04/50000-lessons-on-how-to-read-relation.html
ชุดข้อมูล : pgr.zip
อ้างอิง : คลังมาตรฐานเงินของความสัมพันธ์ฟีโนไทป์-ยีนของมนุษย์
คำอธิบาย : ความสัมพันธ์ฟีโนไทป์ของมนุษย์-ยีนเป็นพื้นฐานที่จะเข้าใจต้นกำเนิดของความผิดปกติฟีโนไทป์บางอย่างและโรคที่เกี่ยวข้อง วรรณกรรมชีวการแพทย์เป็นแหล่งที่ครอบคลุมที่สุดของความสัมพันธ์เหล่านี้อย่างไรก็ตามเราต้องการเครื่องมือการสกัดที่เกี่ยวข้องเพื่อรับรู้โดยอัตโนมัติ เครื่องมือเหล่านี้ส่วนใหญ่ต้องการคลังข้อมูลที่มีคำอธิบายประกอบและความรู้ที่ดีที่สุดของเราไม่มีคลังข้อมูลที่มีความสัมพันธ์กับฟีโนไทป์-ยีนของมนุษย์ บทความนี้นำเสนอคลังข้อมูลฟีโนไทป์-ยีน (PGR) คลังข้อมูลมาตรฐานเงินของฟีโนไทป์ของมนุษย์และคำอธิบายประกอบของยีนและความสัมพันธ์ของพวกเขา คลังข้อมูลประกอบด้วยบทคัดย่อ 1712, 5676 คำอธิบายประกอบฟีโนไทป์ของมนุษย์, 13835 คำอธิบายประกอบของยีนและความสัมพันธ์ 4283 เราสร้างคลังข้อมูลนี้โดยใช้เครื่องมือจดจำเอนทิตีที่มีชื่อซึ่งผลลัพธ์ได้รับการประเมินบางส่วนโดยผู้ดูแลแปดคนซึ่งได้รับความแม่นยำ 87.01% ด้วยการใช้คลังข้อมูลเราสามารถได้รับผลลัพธ์ที่มีแนวโน้มด้วยเครื่องมือการเรียนรู้ลึกที่ล้ำสมัยสองอย่างคือ 78.05% ของความแม่นยำ คลังข้อมูล PGR ได้เปิดเผยต่อสาธารณชนในชุมชนการวิจัย
ชุดข้อมูล : pgr-crowd.zip
อ้างอิง : วิธีการไฮบริดที่มีต่อการฝึกอบรมด้านชีวการแพทย์การฝึกอบรม Corpora: รวมการกำกับดูแลที่ห่างไกลกับ crowdsourcing
คำอธิบาย : ชุดข้อมูลการสกัดความสัมพันธ์ทางชีวการแพทย์ (RE) มีความสำคัญในการสร้างฐานความรู้และเพื่อการค้นพบการโต้ตอบใหม่ มีหลายวิธีในการสร้างชุดข้อมูล RE ชีวการแพทย์บางอย่างน่าเชื่อถือกว่าวิธีอื่น ๆ เช่นการใช้คำอธิบายประกอบของผู้เชี่ยวชาญด้านโดเมน อย่างไรก็ตามการใช้แพลตฟอร์ม crowdsourcing ที่เกิดขึ้นใหม่เช่น Amazon Mechanical Turk (MTURK) สามารถลดค่าใช้จ่ายในการสร้างชุดข้อมูล RE แม้ว่าจะไม่สามารถรับประกันคุณภาพระดับเดียวกันได้ก็ตาม มีการขาดพลังของนักวิจัยในการควบคุมว่าใครและในบริบทของคนงานมีส่วนร่วมในแพลตฟอร์ม crowdsourcing อย่างไร ดังนั้นการดูแลที่อยู่ห่างไกลด้วยการระดมทุนอาจเป็นทางเลือกที่เชื่อถือได้มากขึ้น คนงาน crowdsourcing จะถูกขอให้แก้ไขหรือทิ้งคำอธิบายประกอบที่มีอยู่แล้วซึ่งจะทำให้กระบวนการขึ้นอยู่กับความสามารถในการตีความประโยคชีวการแพทย์ที่ซับซ้อนน้อยลง ในงานนี้เราใช้ชุดข้อมูลฟีโนไทป์ของมนุษย์ - ยีน (PGR) ที่สร้างขึ้นก่อนหน้านี้เพื่อดำเนินการตรวจสอบความถูกต้องของ crowdsourcing เราแบ่งชุดข้อมูลต้นฉบับออกเป็นสองคำอธิบายประกอบ: ภารกิจที่ 1, 70% ของชุดข้อมูลที่มีคำอธิบายประกอบโดยคนงานหนึ่งคนและงาน 2, 30% ของชุดข้อมูลที่มีคำอธิบายประกอบโดยคนงานเจ็ดคน นอกจากนี้สำหรับภารกิจที่ 2 เราได้เพิ่มผู้ประเมินพิเศษในสถานที่และผู้เชี่ยวชาญด้านโดเมนเพื่อประเมินคุณภาพการตรวจสอบความถูกต้องของ crowdsourcing ต่อไป ที่นี่เราอธิบายถึงท่อส่งรายละเอียดสำหรับการตรวจสอบความถูกต้องของ crowdsourcing RE สร้างการเปิดตัวชุดข้อมูล PGR ใหม่พร้อมการแก้ไขผู้เชี่ยวชาญบางส่วนบางส่วนและประเมินคุณภาพของแพลตฟอร์ม mTurk เราใช้ชุดข้อมูลใหม่กับระบบการเรียนรู้ลึกที่ล้ำสมัยสองระบบ (Biont และ Biobert) และเปรียบเทียบประสิทธิภาพของมันกับชุดข้อมูล PGR ดั้งเดิมรวมถึงการรวมกันระหว่างทั้งสองเพื่อให้ได้ค่าเฉลี่ยเพิ่มขึ้น 0.3494 รหัสที่รองรับงานของเราและชุดข้อมูล PGR ใหม่มีอยู่ที่ https://github.com/lasigebiotm/pgr-crowd