يحتوي هذا المستودع على مجموعات بيانات مشروحة يمكن استخدامها لتدريب النماذج الخاضعة للإشراف لمهمة استخراج العلاقة الدلالية. إذا كنت تعرف أي مجموعات بيانات أخرى ، وترغب في المساهمة ، من فضلك ، أبلغني أو إرسال العلاقات العامة.
إنه مقسم في 3 مجموعات:
استخراج المعلومات التقليدية : يتم شرح العلاقات يدويًا ، وينتمي إلى النوع المحدد مسبقًا ، أي عددًا مغلقًا من الفصول.
استخراج المعلومات المفتوحة : يتم شرح العلاقات يدويًا ، ولكن ليس لديها أي نوع محدد.
خاضع للإشراف بشكل بعيد : يتم شرح العلاقات من خلال توسيع بعض تقنية الإشراف البعيدة ويتم تحديدها مسبقًا.
| مجموعة البيانات | ن. فصول | لغة | سنة | استشهد |
|---|---|---|---|---|
| AIMED.TAR.GZ | 2 | إنجليزي | 2005 | نواة اللاحقة لاستخراج العلاقة |
| wikipedia_datav1.0.tar.gz | 53 | إنجليزي | 2006 | دمج نماذج الاستخراج الاحتمالية واستخراج البيانات لاكتشاف العلاقات والأنماط في النص |
| Semeval2007-task4.tar.gz | 7 | إنجليزي | 2007 | Semeval-2007 المهمة 04: تصنيف العلاقات الدلالية بين المرشحين |
| hlt-naacl08-data.txt | 2 | إنجليزي | 2007 | تعلم استخراج العلاقات من الويب باستخدام الحد الأدنى من الإشراف |
| RERELEM.TAR.GZ | 4 | البرتغالية | 2009 | الكشف عن العلاقة بين الكيانات المسماة: تقرير عن مهمة مشتركة |
| semeval2010_task8_all_data.tar.gz | 10/19 (الاتجاه) | إنجليزي | 2010 | Semeval-2010 المهمة 8: تصنيف متعدد الاتجاهات للعلاقات الدلالية بين أزواج من الترشيحات |
| bionlp.tar.gz | 2 | إنجليزي | 2011 | نظرة عامة على المهمة المشتركة BionLP 2011 |
| ddicorpus2013.zip | 4 | إنجليزي | 2012 | The DDI Corpus: مجموعة مشروحة مع المواد الدوائية وتفاعلات المخدرات المخدرات |
| ade-corpus-v2.zip | 2 | إنجليزي | 2013 | تطوير مجموعة معيارية لدعم الاستخراج التلقائي للآثار الضارة المتعلقة بالمخدرات من تقارير الحالة الطبية |
| dbpediarelations-pt-0.2.txt.bz2 | 10 | البرتغالية | 2013 | استكشاف DBPedia و Wikipedia لاستخراج العلاقة الدلالية البرتغالية |
| KBP37-Master.zip | 37 الاتجاه | إنجليزي | 2015 | تصنيف العلاقة عبر الشبكة العصبية المتكررة |
| مجموعة البيانات | ن. فصول | لغة | سنة | استشهد |
|---|---|---|---|---|
| Dataset-Ijcnlp2011.tar.gz | يفتح | إنجليزي | 2011 | استخراج واصفات العلاقة مع الحقول العشوائية الشرطية |
| referb_emnlp2011_data.tar.gz | يفتح | إنجليزي | 2011 | تحديد العلاقات لاستخراج المعلومات المفتوحة |
| clausie-datasets.tar.gz | يفتح | إنجليزي | 2013 | Clausie: استخراج المعلومات المفتوحة المستندة إلى البند |
| emnlp13_ualberta_experiments_v2.zip | يفتح | إنجليزي | 2013 | فعالية وكفاءة استخراج العلاقة المفتوحة |
| مجموعة البيانات | ن. فصول | لغة | سنة | استشهد |
|---|---|---|---|---|
| http://iesl.cs.umass.edu/riedel/ecml/ | بعيد | إنجليزي | 2010 | نمذجة العلاقات وإشاراتها دون نص مسمى |
| https://github.com/google-research-datasets/relation-extraction-corpus | بعيد | إنجليزي | 2013 | https://research.googleblog.com/2013/04/50000-lessons-on-how-to-tread-reelation.html |
| PGR.ZIP | بعيد | إنجليزي | 2019 | مجموعة فضية قياسية لعلاقات النمط الظاهري البشري |
| PGR-Crowd.zip | بعيدة + جماعية | إنجليزي | 2020 | نهج هجين نحو شركة تدريب على استخراج العلاقة الطبية الحيوية: الجمع بين الإشراف البعيد مع التعهيد الجماعي |
Dateset : dbpediarelations-pt-0.2.txt.bz2
الاستشهاد : استكشاف DBPedia و Wikipedia لاستخراج العلاقة الدلالية البرتغالية
الوصف : مجموعة من الجمل في البرتغالية التي تعبر عن العلاقات الدلالية بين أزواج الكيانات المستخرجة من DBPedia. تم جمع الأحكام من خلال الإشراف البعيد ، وكانت من مانوال المنقحة.
التواريخ : AIMED.TAR.GZ
استشهد : نواة اللاحقة لاستخراج العلاقة
الوصف : يتكون من 225 ملخصات Medline ، ومن المعروف أن 200 منها تصف التفاعلات بين البروتينات البشرية ، في حين أن 25 لا تشير إلى أي تفاعل. هناك 4084 مراجع البروتين وحوالي 1000 تفاعل موسومة في مجموعة البيانات هذه.
Dateset : Semeval2007-Task4.Tar.Gz
الاستشهاد : Semeval-2007 المهمة 04: تصنيف العلاقات الدلالية بين الترفيات
الوصف : مجموعة بيانات صغيرة ، تحتوي على 7 أنواع علاقات وما مجموعه 1529 أمثلة مشروحة.
Dateset : semeval2010_task8_all_data.tar.gz
CITE : Semeval-2010 المهمة 8: تصنيف متعدد الاتجاهات للعلاقات الدلالية بين أزواج من الترشيحات
الوصف : Semeval-2010 المهمة 8 كمهمة تصنيف متعددة الاتجاهات والتي يجب أن يتم فيها اختيار الملصق لكل مثال من المجموعة الكاملة من 10 علاقات ولا يتم توفير رسم الخرائط من الأسماء إلى فتحات الوسيطة مسبقًا. نقدم أيضًا المزيد من البيانات: 10،717 أمثلة مشروحة ، مقارنة بـ 1،529 في مهمة Semeval-1 4.
Dateset : Rerelem.tar.gz
الاستشهاد : اكتشاف العلاقة بين الكيانات المسماة: تقرير عن مهمة مشتركة
الوصف : مسابقة التقييم الأولى (المسار) للبرتغاليين الذين كان هدفه هو اكتشاف وتصنيف العلاقات بين الكيانات الممتدة في النص ، يسمى Rerelem. بالنظر إلى مجموعة مشروحة مع كيانات محددة تنتمي إلى عشر فئات دلالية مختلفة ، قمنا بتمييز جميع العلاقات بينهما داخل كل وثيقة. استخدمنا تصنيف العلاقة أربعة أضعاف التالية: الهوية ، المدرجة في ، الموجودة في ، وغيرها (والتي تم تفصيلها لاحقًا إلى عشرين علاقة مختلفة).
Dateset : wikipedia_datav1.0.tar.gz
الاستشهاد : دمج نماذج الاستخراج الاحتمالية واستخراج البيانات لاكتشاف العلاقات والأنماط في النص
الوصف : أخذنا أخذ عينات من 1127 فقرات من 271 مقالة من الموسوعة على الإنترنت ويكيبيديا ووصفنا ما مجموعه 4701 حالة العلاقة. بالإضافة إلى مجموعة كبيرة من العلاقات بين شخص إلى شخص ، قمنا أيضًا بتضمين روابط بين الأشخاص والمنظمات ، وكذلك الحقائق السيرة الذاتية مثل عيد الميلاد وتوترات Job. في المجموع ، هناك 53 علامة في بيانات التدريب.
Dateset : Hlt-Naacl08-data.txt
استشهد : تعلم استخراج العلاقات من الويب باستخدام الحد الأدنى من الإشراف
الوصف : أزواج استحواذ الشركات وأزواج الولادة المأخوذة من الويب. تضم مجموعة اختبار شراء الشركات ما مجموعه 995 حالة ، منها 156 إيجابية. تحتوي مجموعة اختبار Proth-Birthplace على ما مجموعه 601 حالة ، و 45 منها فقط إيجابية.
Dateset : Bionlp.tar.gz
الاستشهاد : نظرة عامة على المهمة المشتركة BionLP 2011
الوصف : تتضمن المهمة التعرف على علاقتين ثنائيتين بين الكيانات: مكون البروتين والوحدة الفرعية. يتم تحفيز المهمة من خلال تحديات محددة: تحديد مكونات البروتينات في النص ، على سبيل المثال ، على سبيل التعرف على حجج الموقع (راجع مهام GE و EPI و ID) ، والعلاقات بين البروتينات ومجمعاتها ذات الصلة بأي مهمة تنطوي عليها. يتم إبلاغ إعداد RELL بمهام العلاقة الدلالية الحديثة (Hendrickx et al. ، 2010). تمتد بيانات المهمة ، التي تتكون من تعليقات جديدة لبيانات GE ، إلى مورد تم تقديمه مسبقًا (Pyysalo et al. ، 2009 ؛ Ohta et al. ، 2010a).
Dateset : ddicorpus2013.zip
Cite : The DDI Corpus: مجموعة مشروحة مع المواد الدوائية وتفاعلات المخدرات المخدرات
الوصف : يحتوي مجموعة DDI على ملخصات Medline على تفاعلات دواء المخدرات بالإضافة إلى المستندات التي تصف تفاعلات دواء المخدرات من قاعدة بيانات البنك الدوائي. تم تصميم هذه المهمة لمعالجة استخراج تفاعلات دواء المخدرات ككل ، ولكنها مقسمة إلى مهامين للسماح بتقييم منفصل لأداء جوانب مختلفة من المشكلة. تتضمن المهمة مهامتين فرعيتين:
تم اقتراح أربعة أنواع من DDIs:
Dateset : Ade-Corpus-V2.zip
الاستشهاد : تطوير مجموعة مؤيدية لدعم الاستخراج التلقائي للآثار الضارة المرتبطة بالمخدرات من تقارير الحالة الطبية
الوصف : يهدف العمل المعروض هنا إلى إنشاء مجموعة مشروحة بشكل منهجي يمكن أن تدعم تطوير والتحقق من طرق الاستخراج التلقائي للآثار الضارة المتعلقة بالمخدرات من تقارير الحالة الطبية. يتم توضيح المستندات بشكل منهجي في جولات مختلفة لضمان تعليقات ثابتة. يتم تنسيق المستندات المشروحة أخيرًا لتوليد تعليقات تمثيلية تمثيلية. من أجل إظهار سيناريو استخدام مثال ، تم توظيف مجموعة لتدريب النماذج والتحقق منها لتصنيف المعلومات المفيدة مقابل الجمل غير المفيدة. أدى مصنف إنتروبيا الأقصى المدربين مع ميزات بسيطة وتقييمها من خلال التحقق من صحة 10 أضعاف إلى درجة F1 من 0.70 مما يشير إلى تطبيق مفيد محتمل للجسم.
Dateset : KBP37-Master.zip.zip
الاستشهاد : تصنيف العلاقة عبر الشبكة العصبية المتكررة
الوصف : مجموعة البيانات هذه عبارة عن مراجعة لمجموعة بيانات التعليقات التوضيحية MIML-RE ، المقدمة من Gabor Angeli et al. (2014). يستخدمون كل من مجموعات المستندات الرسمية 2010 و 2013 KBP ، بالإضافة إلى تفريغ ويكيبيديا في يوليو 2013 باعتبارها مجموعة نصية للتعليق ، تم شرح جمل 33811. لجعل مجموعة البيانات أكثر ملاءمة لمهمتنا ، صنعنا العديد من التحسين:
أولاً ، نضيف اتجاهًا إلى أسماء العلاقات ، بحيث يتم تقسيم "الموظف من" إلى علاقتين "لكل: موظف (E1 ، E2)" و "Per: Employee of (E2 ، E1)" باستثناء "لا علاقة". وفقًا لوصف مهمة KBP ، 3 نستبدل "Org: Parents" بـ "Org: Sompaniaries" واستبدال "Org: Member of" org: Member "(من خلال اتجاهاتهم العكسية). هذا يؤدي إلى 76 علاقات في مجموعة البيانات.
ثم ، نحن الإحصاء تواتر كل علاقة مع اتجاهين بشكل منفصل. ويتم التخلص من العلاقات ذات التردد المنخفض بحيث يحدث كلا الاتجاهين لكل علاقة أكثر من 100 مرة في مجموعة البيانات. لتحسين التوازن بين مجموعة البيانات ، يتم التخلص من جمل 80 ٪ "لا علاقة" بشكل عشوائي.
بعد ذلك ، يتم خلط مجموعة البيانات بشكل عشوائي ، ثم يتم تقسيم جميع الجمل تحت كل علاقة إلى ثلاث مجموعات ، و 70 ٪ للتدريب ، و 10 ٪ للتنمية ، و 20 ٪ للاختبار. أخيرًا ، نقوم بإزالة هذه الجمل في مجموعة التطوير والاختبار التي ظهرت أزواج كيانها وعلاقتها في جملة تدريبية في وقت واحد.
Dateset : referb_emnlp2011_data.tar.gz
الاستشهاد : تحديد العلاقات لاستخراج المعلومات المفتوحة
الوصف : 500 جملة تم أخذ عينات منها من الويب ، باستخدام خدمة الرابط العشوائي لـ Yahoo.
التواريخ : clausie-datasets.tar.gz
الاستشهاد : Clausie: استخراج المعلومات المفتوحة القائمة على البند
وصف :
ثلاث مجموعات بيانات مختلفة. أولاً ، تتكون مجموعة بيانات REARB من 500 جملة مع استخراج المسمى يدويًا. تم الحصول على الجمل من خلال خدمة الارتباط العشوائي لـ Yahoo وهي صاخبة للغاية. ثانياً ، 200 جملة عشوائية من صفحات ويكيبيديا. هذه الجمل أقصر وأبسط وأقل صاخبة من تلك الموجودة في مجموعة بيانات تردد. نظرًا لأن بعض مقالات ويكيبيديا مكتوبة من قبل المتحدثين غير الأصليين ، فإن جمل ويكيبيديا تحتوي على بعض الإنشاءات النحوية غير الصحيحة. ثالثًا ، تكون 200 جملة عشوائية من مجموعة New York Times هذه الجمل نظيفة جدًا بشكل عام ولكنها تميل إلى أن تكون طويلة ومعقدة.
Dateset : emnlp13_ualberta_experiments_v2.zip
الاستشهاد : فعالية وكفاءة استخراج العلاقة المفتوحة
الوصف : Web-500 هي مجموعة بيانات شائعة الاستخدام ، تم تطويرها لتجارب Textrunner (Banko و Etzioni ، 2008). غالبًا ما تكون هذه الجمل غير مكتملة وغير سليمة من الناحية النحوية ، والتي تمثل تحديات التعامل مع نص الويب. يمثل NYT-500 الطرف الآخر من الطيف مع قصص جديدة رسمية مكتوبة جيدًا من Corpus New York Times (Sandhaus ، 2008). يحتوي Penn-100 على جمل من Penn Treebank المستخدم مؤخرًا في تقييم طريقة Treekernel (Xu et al. ، 2013). قمنا بتوضيح علاقات Web-500 و NYT-500 يدويًا ونستخدم التعليقات التوضيحية Penn-100 التي يقدمها مؤلفو Treekernel (Xu et al. ، 2013).
Dateset : Dataset-Ijcnlp2011.tar.gz
الاستشهاد : استخراج واصفات العلاقة مع الحقول العشوائية الشرطية
الوصف : تحتوي مجموعة بيانات New York Times على 150 مقالة عمل من New York Times. تم زحف المقالات من موقع NYT عبر موقع NYT بين نوفمبر 2009 ويناير 2010. بالنسبة للكيانات المسماة التي تحتوي على رموز متعددة قمنا بتسلسلها في رمز واحد. ثم أخذنا كل زوج من كيانات (PER ، ORG) التي تحدث في نفس الجملة مثل مثيل علاقة مرشح واحد ، حيث يتم التعامل مع كل كيان على أنه Arg-1 ويتم التعامل مع كيان ORG باسم Arg-2.
تم إنشاء بيانات Wikipedia مسبقًا بواسطة Aron Culotta et al .. نظرًا لأن مجموعة البيانات الأصلية لم تحتوي على معلومات التعليقات التوضيحية التي نحتاجها ، قمنا بإعادة نقلها. وبالمثل ، أجرينا تقسيم الجملة ، والرمز المميز ووضع العلامات على NER ، وأخذنا أزواج من الكيانات (لكل ،) التي تحدث في نفس الجملة مثل مثال العلاقة المرشح. نتعامل دائمًا مع الأول لكل كيان كـ Arg-1 والثاني لكل كيان مثل Arg-2.
Dateset : http://iesl.cs.umass.edu/riedel/ecml/
الاستشهاد : نمذجة العلاقات وإشاراتها دون نص مسمى
الوصف : مجموعة بيانات NYT هي مجموعة بيانات تستخدم على نطاق واسع على مهمة استخراج العلاقة التي تم إشرافها بشكل بعيد. تم إنشاء مجموعة البيانات هذه من خلال محاذاة علاقات القاعدة الحرة مع مجموعة نيويورك تايمز (NYT) ، مع جمل من عام 2005-2006 تستخدم كحساب التدريب والجمل من عام 2007 المستخدمة كحساب اختبار.
Dateset : https://github.com/google-research-datasets/relation-extraction-corpus
CITE : https://research.googleblog.com/2013/04/50000-lessons-on-to-to-troad-reelation.html
الوصف : https://research.googleblog.com/2013/04/50000-lessons-on-to-to-tread-reelation.html
مجموعة البيانات : pgr.zip
CITE : مجموعة فضية قياسية لعلاقات النمط الظاهري البشري
الوصف : علاقات النمط الظاهري البشري أمر أساسي لفهم أصل بعض التشوهات المظهرية وأمراضها المرتبطة بها. الأدب الطبي الحيوي هو المصدر الأكثر شمولاً لهذه العلاقات ، ومع ذلك ، نحتاج إلى أدوات استخراج العلاقة للتعرف عليها تلقائيًا. تتطلب معظم هذه الأدوات مجموعة مشروحة وإلى حد علمنا ، لا يوجد مجموعة متوفرة مخصصة لعلاقات النمط الظاهري البشري. تقدم هذه الورقة مجموعة العلاقات بين النمط الظاهري (PGR) ، وهي مجموعة قياسية فضية من النمط الظاهري البشري والتعليقات الجينية وعلاقاتها. يتكون Corpus من 1712 ملخصات ، 5676 التعليقات التوضيحية للنمط الظاهري البشري ، 13835 تعليقات الجينات ، و 4283 العلاقات. لقد أنشأنا هذه المجموعة باستخدام أدوات التعرف على الدخول المسماة ، والتي تم تقييم نتائجها جزئيًا من قبل ثمانية منسقين ، وحصلوا على دقة 87.01 ٪. باستخدام المجموعة ، تمكنا من الحصول على نتائج واعدة مع اثنين من أدوات التعلم العميقة على أحدث طراز ، وهما 78.05 ٪ من الدقة. تم توفير PGR Corpus للجمهور لمجتمع الأبحاث.
مجموعة البيانات : PGR-Crowd.zip
الاستشهاد : نهج هجين نحو شركة تدريب استخراج العلاقة الطبية الحيوية: الجمع بين الإشراف البعيد مع التعهيد الجماعي
الوصف : مجموعات بيانات العلاقة الطبية الحيوية (RE) أمر حيوي في بناء قواعد المعرفة وللتعزيز اكتشاف التفاعلات الجديدة. هناك عدة طرق لإنشاء مجموعات بيانات الطب الحيوي ، بعضها أكثر موثوقية من غيرها ، مثل اللجوء إلى تعليقات خبراء المجال. ومع ذلك ، فإن الاستخدام الناشئ لمنصات التعهيد الجماعي ، مثل Amazon Mechanical Turk (MTURK) ، يمكن أن يقلل من تكلفة بناء مجموعة البيانات ، حتى لو لم يكن من غير ذلك مستوى الجودة. هناك نقص في قوة الباحث للسيطرة على من ، وكيف وفي أي سياق يشارك العمال في منصات التعهيد الجماعي. وبالتالي ، يمكن أن يكون تحالف الإشراف البعيد مع التعهيد الجماعي بديلاً أكثر موثوقية. سيُطلب من عمال التعهيد الجماعي تصحيح أو تجاهل التعليقات التوضيحية الموجودة بالفعل ، مما يجعل العملية أقل اعتمادًا على قدرتهم على تفسير الجمل الطبية الحيوية المعقدة. في هذا العمل ، نستخدم مجموعة بيانات بيانات النمط الظاهري - النمط البشري الذي تم إنشاؤه مسبقًا (PGR) لإجراء التحقق من صحة التعهيد الجماعي. قمنا بتقسيم مجموعة البيانات الأصلية إلى مهمتين للتعليقات التوضيحية: المهمة 1 ، 70 ٪ من مجموعة البيانات التي تم توضيحها من قبل عامل واحد ، والمهمة 2 ، 30 ٪ من مجموعة البيانات التي تم شرحها من قبل سبعة عمال. أيضًا ، بالنسبة للمهمة 2 ، أضفنا Rater في الموقع وخبير في المجال لزيادة تقييم جودة التحقق من صحة التعهيد الجماعي. هنا ، وصفنا خط أنابيب مفصل للتحقق من صحة التعهيد الجماعي ، وإنشاء إصدار جديد من مجموعة بيانات PGR مع مراجعة خبراء المجال الجزئي ، وتقييم جودة منصة MTURK. قمنا بتطبيق مجموعة البيانات الجديدة على أنظمة التعلم العميقة الحديثة (Biont و BioBert) وقارنا أدائها مع مجموعة بيانات PGR الأصلية ، بالإضافة إلى مجموعات بين الاثنين ، لتحقيق زيادة 0.3494 في متوسط F-Measure. يتوفر الكود الذي يدعم عملنا والإصدار الجديد لمجموعة بيانات PGR على https://github.com/lasigebiotm/pgr-crowd.