مورد رائع لـ NLP
تحديث جديد: شبكة الكبسولة ، اكتشاف السخرية
جدول المحتويات
- جدول المحتويات
- المكتبات
- Essesntial الرياضيات
- قاموس
- معجم
- التحليل
- الخطاب
- نموذج اللغة
- اكتشاف السخرية
- الترجمة الآلية
- توليد النص
- تصنيف النص
- تلخيص النص
- المشاعر
- كلمة/وثيقة تضمينات
- تمثيل الكلمات
- إجابة سؤال
- استخراج المعلومات
- استنتاج اللغة الطبيعية
- شبكات كبسولة
- المنطقي
- آخر
- يساهم
مكتبات مفيدة
- تتعامل محاضرة Numpy Stanford CS231N مع Numpy ، وهو أمر أساسي في حسابات التعلم الآلي.
- NLTK إنها مجموعة من المكتبات والبرامج لمعالجة اللغة الطبيعية الرمزية والإحصائية
- TensorFlow برنامج تعليمي قدمه TensorFlow. إنه يعطي تفسيرات رائعة على الأساسيات مع الوسائل البصرية. مفيد في NLP العميق
- Pytorch برنامج تعليمي رائع على Pytorch الذي يوفره Facebook بجودة رائعة.
- تسلسل Tensor2Tensor إلى مجموعة أدوات التسلسل بواسطة Google مكتوب في TensorFlow.
- تسلسل FairSeq إلى مجموعة أدوات التسلسل بواسطة Facebook مكتوب في Pytorch.
- تعانق محولات الوجه مكتبة تعتمد على المحول الذي يوفره وجه المعانقة الذي يتيح الوصول بسهولة إلى النماذج التي تم تدريبها مسبقًا. واحدة من مكتبات NLP الرئيسية ليس فقط للمطورين ولكن الباحثين كذلك.
- عانق الرمز المميزات مكتبة Tokenizer التي تحافظ على وجه المعانقة. إنه يعزز العمليات السريعة حيث تتم كتابة الوظائف الرئيسية في الصدأ. يمكن تجربة أحدث المميزات مثل BPE مع مميزات الوجه المعانقة.
- Spacy برنامج تعليمي كتبه Ines ، المطور الأساسي للسباسي الجديرة بالملاحظة.
- Torchtext برنامج تعليمي على Torchtext ، وهي حزمة تجعل المعالجة المسبقة للبيانات مفيدة. لديه تفاصيل أكثر من الوثائق الرسمية.
- SentencePiece Open Source Library التي تبني المفردات المستندة إلى BPE باستخدام معلومات الكلمات الفرعية.
- مكتبة Gensim Python لنمذجة الموضوع وفهرسة المستندات واسترجاع التشابه مع الشركات الكبيرة.
- Polyglot خط أنابيب لغة طبيعي يدعم التطبيقات الضخمة متعددة اللغات.
- يوفر TextBlob واجهة برمجة تطبيقات بسيطة للغوص في مهام معالجة اللغات الطبيعية المشتركة (NLP) مثل وضع علامات على جزء من الكلام ، واستخراج عبارة الاسم ، وتحليل المشاعر ، والتصنيف ، والترجمة ، وتكامل WordNet ، والتحليل ، و Word Inspection
- Quepy إطار Python لتحويل أسئلة اللغة الطبيعية إلى الاستعلامات في لغة استعلام قاعدة البيانات.
- وحدة تعدين على شبكة الإنترنت للبيثون ، مع أدوات للتجشيد ومعالجة اللغة الطبيعية والتعلم الآلي وتحليل الشبكة والتصور
الرياضيات الأساسية
- الإحصائيات والاحتمالات
- الإحصائيات 110 محاضرة حول الاحتمال التي يمكن فهمها بسهولة من قبل الطلاب الرئيسيين غير الهندسيين.
- يتم نشر محاضرات براندون فولتز من براندون فولتز على محاضرات الإحصاء على يوتيوب وهي قصيرة إلى حد ما ، بحيث يمكن الوصول إليها بسهولة أثناء التنقل اليومي.
- الجبر الخطي
- الجبر الخطي محاضرة رهيبة من البروفيسور جيلبرت سترانج.
- جوهر المحاضرة الجبرية الخطي الخطي على قناة يوتيوب 3BLUE1BROWN
- الأساسيات
- الرياضيات لكتاب التعلم الآلي على جميع المعرفة الرياضية المصحوبة بالتعلم الآلي.
- جوهر محاضرة حساب التفاضل والتكامل من قناة 3Blue1brown المذكورة أعلاه ، مفيد لأولئك الذين يريدون نظرة عامة على حساب التفاضل والتكامل بالمثل.
قاموس
- قاموس ثنائي اللغة
- CC-CEDICT قاموس ثنائي اللغة بين اللغة الإنجليزية والصينية.
- نطق القاموس
- CMUDICT The Carnegie Mellon Ponstering Dictionary هو قاموس نطق مقروء من الآلات في أمريكا الشمالية التي تحتوي على أكثر من 134000 كلمة ونطقها.
معجم
- PDEV نمط قاموس الأفعال الإنجليزية.
- Verbnet معجم يجمع الأفعال بناءً على سلوك الربط الدلالي/النحوي.
- Framenet معجم على أساس دلالات الإطار.
- WordNet معجم يصف العلاقات الدلالية (مثل المرادف والاستيفاء المفرط) بين الكلمات الفردية.
- Propbank مجموعة من مليون كلمة من النص الإنجليزي ، مشروح مع ملصقات دور الحجة للأفعال ؛ والمعجم الذي يحدد أدوار الحجة تلك على أساس كل شيء.
- Nombank A مجموعة بيانات تمثل مجموعات من الحجج التي تملأ مع الأسماء في Propbank Corpus (The Wall Street Journal Corpus of Penn TreeBank) ، تمامًا كما يسجل Propbank مثل هذه المعلومات للأفعال.
- Semlink مشروع هدفه هو ربط موارد معجمية مختلفة عبر مجموعة من التعيينات. (Verbnet ، Propbank ، FrameNet ، WordNet)
- Framester Framester هو مركز بين Framenet و WordNet و Verbnet و Babelnet و Dbpedia و Yago و Dolce-Zero ، بالإضافة إلى موارد أخرى. لا ينشئ Framester ببساطة رسمًا بيانيًا للمعرفة المتصل بقوة ، ولكنه يطبق أيضًا معالجة رسمية صارمة لدلالات إطار Fillmore ، مما يتيح الاستعلام عن البومة الكاملة والتفكير على الرسم البياني المعرفة القائم على الإطار المشترك.
التحليل
- PTB The Penn TreeBank (PTB).
- التبعيات الشاملة التبعيات العالمية (UD) هي إطار للتعليق النحوي المتسق للضغط على العوامل وجهد مفتوح مع أكثر من 200 من المساهمين الذين ينتجون أكثر من 100 شجرة شجرة بأكثر من 60 لغة.
- TweeBank TweeBank V2 عبارة عن مجموعة من التغريدات الإنجليزية المشروحة في تبعيات عالمية يمكن استغلالها لتدريب أنظمة NLP لتعزيز أدائها على نصوص وسائل التواصل الاجتماعي.
- Semeval-2016 Task 9 Semeval-2016 المهمة 9 (تحليل التبعية الصينية الدلالية).
الخطاب
- PDTB2.0 PDTB ، الإصدار 2.0. يشرح 40600 علاقات الخطاب ، موزعة على الأنواع الخمسة التالية: صريحة ، ضمنية ، إلخ.
- PDTB3.0 في الإصدار 3 ، تم شرح 13000 رمز إضافي ، وتم توحيد بعض التعليقات التوضيحية الزوجية ، وتم تضمين حواس جديدة وكانت المجموعة تخضع لسلسلة من عمليات التحقق من الاتساق.
- ترجمة خلفية شرح علاقات الخطاب الضمنية هذا المورد يحتوي على مثيلات علاقة خطاب ضمنية مشروحة. يتم شرح هذه الجمل تلقائيًا عن طريق التراجع الخلفي لشركة Corpora المتوازية.
- تتضمن ScourseChinesetEdTalks هذه المجموعة التعليقات التوضيحية لـ 16 محادثات TED باللغة الصينية.
نموذج اللغة
- PTB Penn Treebank Corpus في إصدار LM.
- google مليار بيانات بيانات Word 1 مليار كلمة معيار نمذجة اللغة.
- Wikitext The Wikitext Language Dataset هي مجموعة تضم أكثر من 100 مليون رمز مستخرج من مجموعة مقالات جيدة ومميزة على ويكيبيديا. بالمقارنة مع النسخة المعالجة مسبقًا من Penn TreeBank (PTB) ، فإن Wikitext-2 أكبر أكثر من مرتين ويكون Wikitext-103 أكبر من 110 مرة.
اكتشاف السخرية
- يعتمد كاشف السخرية السياقية Cascade (CASCADE) نهجًا هجينًا لكل من النمذجة التي تعتمد على المحتوى والسياق للكشف عن السخرية في مناقشات الوسائط الاجتماعية عبر الإنترنت. كذلك استخدموا مستخلصات الميزات القائمة على المحتوى مثل الشبكات العصبية التلافيفية
- نظرة أعمق على التغريدات الساخرة باستخدام مجلة Neural Netural Neturals الدولية للبحوث المتقدمة في هندسة الكمبيوتر والتكنولوجيا ، المجلد 6 ، العدد 1 ، يناير 2017. يقترحون نظامًا آليًا للكشف عن السخرية على Twitter باستخدام ميزات متعلقة بالشاعر
- Adarnn Adaptive Netural Neural Network (Adarnn) لتصنيف معنويات Twitter المعتمد على الهدف. ينشر بشكل تكيفي مشاعر الكلمات لتستهدف اعتمادًا على السياق والعلاقات النحوية بينها
- اكتشاف السخرية مع الشبكات العصبية العميقة المتوسطة المتعلقة بالشبكات المتوسطة المتعلقة بالشبكات المتوسطة. يتعلم النموذج الميزات المحلية في الطبقات المنخفضة التي يتم تحويلها بعد ذلك إلى ميزات عالمية في الطبقات العليا.
الترجمة الآلية
- Europarl يتم استخراج Europarl الموازي مجموعة من وقائع البرلمان الأوروبي. ويشمل إصدارات في 21 لغة أوروبية: الرومانية (الفرنسية ، الإيطالية ، الإسبانية ، البرتغالية ، الرومانية) ، الجرمانية (الإنجليزية ، الهولندية ، الألمانية ، الدنماركية ، السويدية) ، السلافيك (البلغارية ، التشيكية ، البولندية ، السلوفاكية ، السلوفيان) ، والفيني-الأسبريين (الفنلندية ، الهنغاريان ، الاساتونيان) ، بلاتيان (لوجيان).
- Uncorpus تتكون الأمم المتحدة الموازية Corpus v1.0 من سجلات رسمية وغيرها من الوثائق البرلمانية للأمم المتحدة الموجودة في المجال العام.
- CWMT بيانات ZH-EN التي تم جمعها ومشاركتها من قبل Workshop الصين على مجتمع الترجمة الآلية (CWMT). هناك ثلاثة أنواع من البيانات للترجمة الآلية الصينية والإنجليزية: النص الصيني أحادي اللغة ، والنص الصيني الإنجليزي ، ونص المرجع المتعدد.
- بيانات التدريب على نموذج اللغة أحادي اللغة ، مثل الزحف الشائع الأخبار في CS de en fi ro ru tr والبيانات المتوازية.
- Opus Opus هي مجموعة متزايدة من النصوص المترجمة من الويب. في مشروع OPUS ، نحاول تحويل ومواءمة البيانات المجانية عبر الإنترنت ، وإضافة التعليقات التوضيحية اللغوية ، وتزويد المجتمع بمجموعة متوازية متوفرة للجمهور.
توليد النص
- مقال تلقائي تينسنت يعلق على مجموعة بيانات صينية واسعة النطاق مع ملايين التعليقات الحقيقية ومجموعة فرعية مصنوعة من الإنسان تميز الجودة المتغيرة. تتكون مجموعة البيانات هذه من حوالي 200 كيلو مقالة إخبارية وتعليقات بشرية 4.5 متر جنبًا إلى جنب مع بيانات التعريف الغنية لفئات المقالات وأصوات المستخدمين من التعليقات.
- تلخيص
- BigPatent تتكون مجموعة بيانات تلخيص من 1.3 مليون سجل من وثائق براءات الاختراع الأمريكية جنبا إلى جنب مع ملخصات مكتوبة بشرية.
- بيانات إلى نص
- مجموعة بيانات Wikipedia ومجموعة البيانات هذه تجمع مجموعة البيانات هذه 428،748 شخصًا و 12،236 Animal Infobox مع الوصف على أساس Wikipedia Dump (2018/04/01) و Wikidata (2018/04/12).
- Wikibio هذه مجموعة البيانات تجمع 728،321 السيرة الذاتية من ويكيبيديا. ويهدف إلى تقييم خوارزميات توليد النص. لكل مقالة ، توفر الفقرة الأولى و infobox (كلاهما رمزي).
- تتكون مجموعة DOTOWIRE هذه من ملخصات لعبة كرة السلة (المكتسب من الإنسان) (المكتسب من قبل الإنسان) محاذاة مع قراراتها المقابلة في الصندوق والخط.
- تفاصيل MLB في توليد البيانات إلى النص مع نمذجة الكيان ، ACL 2019
تصنيف النص
- 20 NewSgroups مجموعة بيانات 20 مجموعة أخبار هي مجموعة تضم حوالي 20.000 وثيقة أخبار ، تم تقسيمها (تقريبًا) بالتساوي عبر 20 مجموعة إخبارية مختلفة.
- AG's Corpus of News Attlics AG عبارة عن مجموعة من أكثر من مليون مقالة إخبارية.
- Yahoo-Asswers-Topic-Classification تحتوي هذه المجموعة على 4،483،032 سؤالًا وإجاباتها المقابلة من Yahoo! خدمة الإجابات.
- Google-Snippets تحتوي مجموعة البيانات هذه على نتائج بحث الويب المتعلقة بـ 8 مجالات مختلفة مثل الأعمال وأجهزة الكمبيوتر والهندسة.
- BenchmarkingzeroShot يحتوي هذا المستودع على الكود وبيانات ورقة EMNLP2019 "تصنيف نص صفري صفر: مجموعات البيانات ، التقييم ونهج الاستفادة من".
تلخيص النص
- تلخيص النص مع Gensim يعتمد تطبيق Gensim على خوارزمية "Textrank" الشهيرة
- تلخيص نص غير خاضع للإشراف مقال رائع يصف تلخيص النص باستخدام توصيلات الجملة
- تحسين التجريد في تلخيص النص اقتراح تقنيتين للتحسين
- تلخيص النص وتصنيفه أكثر ارتباطًا بالبيانات العلمية والصحية
- تلخيص النص مع TensorFlow. دراسة أساسية حول تلخيص النص لعام 2016
المشاعر
- MPQA 3.0 تحتوي هذه المجموعة على مقالات إخبارية وغيرها من المستندات النصية المعروفة يدويًا للآراء والولايات الخاصة الأخرى (أي المعتقدات والعواطف والمشاعر والمضاربات ، إلخ). التغييرات الرئيسية في هذا الإصدار من MPQA Corpus هي إضافات التعليقات التوضيحية New Etarget (الكيان/الحدث).
- Sentiwordnet SentiwordNet هو مورد معجمي لاستخراج الرأي. يعين SentiWordNet لكل مجموعة من درجات المشاعر Three Wordnet: الإيجابية ، السلبية ، الموضوعية.
- جمعية NRC Word-Emotion Learcon المعجم NRC العاطفي هو قائمة بالكلمات الإنجليزية وارتباطاتها بثمانية مشاعر أساسية (الغضب ، الخوف ، التوقع ، الثقة ، المفاجأة ، الحزن ، الفرح ، والاشمئزاز) ومشاعر (سلبية وإيجابية).
- STANFORD SESITION TREITING SST هي مجموعة بيانات الورقة: النماذج العميقة العودية للتأليف الدلالي على مصادر الشجرة ريتشارد سوتشر ، أليكس بيرليين ، جان وو ، جاسون تشوانغ ، كريستوفر مانينغ ، أندرو نغ وكريستوفر بوتس عن الأساليب التجريبية في معالجة اللغة الطبيعية (EMNLP 2013)
- Semeval-2013 Twitter Semeval 2013 Twitter Dataset ، التي تحتوي على شرح معلق على مستوى العبارة.
- Sentihood Sentihood هي مجموعة بيانات لمهمة تحليل المعنويات المستهدفة المستهدفة ، والتي تحتوي على 5215 جملة. Sentihood: مجموعة بيانات تحليل المعنويات المستهدفة على الجوانب للأحياء الحضرية ، Coling 2016 .
- Semeval-2014 المهمة 4 تهتم هذه المهمة بتحليل المعنويات القائم على الجانب (ABSA). تم توفير مجموعتين بيانات خاصتين بأجهزة الكمبيوتر المحمولة والمطاعم ، التي تتكون من أكثر من 6 آلاف جمل مع تعليقات إنسانية على مستوى الجوانب الدقيقة للتدريب.
كلمة/وثيقة تضمينات
- أفضل ما الحالي من الكلمات/الجملة العالمية. إنه يشفر الكلمات والجمل في ناقلات كثيفة ذات طول ثابت لتحسين معالجة البيانات النصية بشكل كبير.
- توثيق التضمين مع ناقلات الفقرة 2015. من Google.
- توضيح كلمة قفاز
- fasttext مكتبة لتعلم تضمينات الكلمات وتصنيف النص الذي تم إنشاؤه بواسطة مختبر أبحاث الذكاء الاصطناعى في Facebook مع العديد من النماذج المسبقة
- تصنيف النص مع تطبيق Word2VEC العملي حول كيفية القيام بتصنيف النص مع Word2Vec باستخدام القفاز
- دمج الوثيقة مقدمة في الأساسيات وأهمية تضمينات الوثيقة
- من تضمينات الكلمات لتوثيق المسافات ، تقوم بتكوين مسافة Word Mover (WMD) التي تقيس الاختلاف بين وثيقتين نصيين كحد أدنى من المسافة التي تحتاج الكلمات المدمجة لوثيقة واحدة إلى "السفر" للوصول إلى الكلمات المضمنة لمستند آخر.
- تعليمي DOC2VEC على مجموعة بيانات LEE
- تضمينات الكلمة في بيثون مع سبير و Gensim
- بيرت المصور ، إلمو ، وشركاه. (كيف تصدع NLP التعلم النقل). ديسمبر 2018.
- تمثيلات الكلمات العميقة السياقية. إلمو. تنفيذ Pytorch. تنفيذ TF
- صقل جيد لتصنيف النص. رمز التنفيذ.
- التعلم الخاضع للإشراف على تمثيلات الجملة العالمية من بيانات الاستدلال اللغة الطبيعية. يوضح كيف تم تدريب تمثيلات الجملة العالمية باستخدام البيانات الخاضعة للإشراف
- تعلمت في الترجمة: ناقلات الكلمات السياقية. يستخدم Cove مشفر LSTM عميق من نموذج تسلسل إلى تسلسل متسلسل مدرب على الترجمة الآلية (MT) لإضفاء الطابع السياق على ناقلات الكلمات
- تمثيل موزع للجمل والوثائق. ناقلات الفقرة. انظر البرنامج التعليمي DOC2VEC في Gensim
- Sense2vec. طريقة سريعة ودقيقة لفصل الإحساس بالكلمة في تضمينات الكلمات العصبية
- تخطي ناقلات الفكر. نموذج ترميز مشفر يحاول إعادة بناء الجمل المحيطة بممر مشفر
- تسلسل لتسلسل التعلم مع الشبكات العصبية. يستخدم LSTM متعددة الطبقات لرسم خريطة لسلسلة الإدخال إلى متجه من أبعاد ثابت ، ثم LSTM آخر عميق لفك تشفير تسلسل الهدف من المتجه
- قوة المتجهات المذهلة للكلمة. المواد المتعلقة بـ Word2Vec من مختلف خمس أوراق بحثية
- تضمينات السلسلة السياقية لوضع تسلسل. تتضمن الخصائص أنها (أ) تدرب دون أي فكرة صريحة للكلمات ، و (ب) سياقها بواسطة النص المحيط بها
- أوضح بيرت - نموذج اللغة الفنية لـ NLP. شرح رائع لأساسيات كيفية عمل بيرت.
- مراجعة النماذج القائمة على بيرت. وبعض القرائن/الأفكار الحديثة حول ما يجعل بيرت فعالاً للغاية
تمثيل الكلمات
- تضمين الكلمات
- Google News Word2VEC يحتوي النموذج على 300 ناقل أبعاد لـ 3 ملايين كلمة وعبارات تدربت على جزء من مجموعة بيانات الأخبار في Google (حوالي 100 مليار كلمة).
- القفازات التي تم تدريبها قبل التدريب قبل القفازات باستخدام القفاز. ويكيبيديا + Gigaword 5 ، الزحف المشترك ، تويتر.
- Fasttext Trained Cord Ettrabed Cord Proctors مقابل 294 لغة ، تم تدريبها على ويكيبيديا باستخدام النص السريع.
- BPEMB BPEMB هي مجموعة من التضمينات التي تم تدريبها قبل التدريب على 275 لغة ، استنادًا إلى ترميز البايت للبايت (BPE) وتدريب على ويكيبيديا.
- تضمين الكلمات القائمة على التبعية ، تضمين الكلمات المدربة مسبقًا على أساس معلومات التبعية ، من تضمينات الكلمات المستندة إلى التبعية ، ACL 2014 .
- يؤدي meta-peddings مجموعات من بعض إصدارات تضمين الكلمات المسبقة ، من الأعمدة الوصفية: تضمينات الكلمات ذات الجودة العالية عبر مجموعات التضمين ، ACL 2016.
- ناقلات LEXVEC تدرب مسبقًا بناءً على نموذج تضمين كلمة LEXVEC . الزحف الشائع ، ويكيبيديا الإنجليزية و NewsCrawl.
- Muse Muse هي مكتبة Python لتضمينات الكلمات متعددة اللغات ، والتي توفر تضمينات متعددة اللغات لمدة 30 لغة و 110 قواميس ثنائية اللغة على نطاق واسع على نطاق واسع.
- CWV يوفر هذا المشروع أكثر من 100 ناقلات كلمة صينية (التضمينات) المدربين بتمثيلات مختلفة (كثيفة وتفرق) ، وميزات السياق (Word ، و Ngram ، والشخصية ، والمزيد) ، و Corpora.
- لقد أثبت Charngram2Vec هذا المستودع الكود الذي تم إعادة تنفيذه لحرف N-Gram المسبق المقدم في ورقة العديد من المهام المشتركة (JMT) ، وهو نموذج مشترك في المهام: تنمية شبكة عصبية لمهام NLP متعددة ، EMNLP2017 .
- تمثيل الكلمات مع السياق
- توفر تمثيلات سياقية Elmo مسبقًا من نماذج اللغة ثنائية الاتجاه واسعة النطاق تحسينات كبيرة لجميع مهام NLP الخاضعة للإشراف تقريبًا.
- Bert Bert ، أو B idirectional e ncoder r epresentations من T Ransformers ، هي طريقة جديدة لتمثيلات اللغة قبل التدريب التي تحصل على نتائج أحدث على مجموعة واسعة من مهام معالجة اللغة الطبيعية (NLP). (2018.10)
- OpenGPT GPT-2 هو نموذج لغوي كبير يعتمد على المحولات مع 1.5 مليار معلمة ، يتم تدريبه على مجموعة بيانات من 8 ملايين صفحة ويب. يتم تدريب GPT-2 على هدف بسيط: توقع الكلمة التالية ، بالنظر إلى جميع الكلمات السابقة في بعض النص.
إجابة سؤال
- الفهم قراءة الآلة
- Squad Stanford Question Repling DataSet (Squad) هي مجموعة بيانات جديدة لفهم القراءة ، تتكون من أسئلة طرحها عمال الحشد على مجموعة من مقالات ويكيبيديا ، حيث تكون الإجابة على كل سؤال عبارة عن جزء من النص ، أو تمتد ، من مقطع القراءة المقابل.
- يتم إصدار CMRC2018 CMRC2018 بواسطة ورشة التقييم الثانية حول فهم قراءة الآلة الصينية. تتكون مجموعة البيانات من ما يقرب من 20.000 سؤال حقيقي شرحها Hu- man في فقرات ويكيبيديا.
- DCRD Delta Reading Commandensive DataSet هي مجموعة بيانات مفتوحة لفهم القراءة الصينية الصينية (MRC) ، وهي تحتوي على 10،014 فقرات من 2،108 مقالة ويكيبيديا و 30،000+ سؤال تم إنشاؤها بواسطة المذيعين.
- يتضمن TriviaQa TriviaQa 95 ألفًا من أزواج الإجابة عن أسئلة من قبل عشاق التوافه ووثائق الأدلة التي تم جمعها بشكل مستقل ، ستة لكل سؤال في المتوسط ، والتي توفر إشرافًا بعيدًا عالي الجودة للإجابة على الأسئلة. � هذه مجموعة البيانات من مجال ويكيبيديا ومجال الويب.
- NewsQa NewsQa هي مجموعة بيانات فهم للقراءة من الآلة الحشود تضم 120 ألف زوج أسئلة وأجوبة.
- HarvestingQa يحتوي هذا المجلد على مجموعة بيانات QA-Pairs على مستوى الفقرة (تقسيم إلى قطار ، DEV واختبار) الموصوفة في: حصاد أزواج أسئلة على مستوى الفقرة من ويكيبيديا (ACL 2018).
- يهدف بروبارا بروبارا إلى تعزيز البحث في فهم اللغة الطبيعية في سياق النص الإجرائي. وهذا يتطلب تحديد الإجراءات الموضحة في الفقرة وتتبع التغييرات التي تحدث في الكيانات المعنية.
- McScript McScript هي مجموعة بيانات جديدة لمهمة فهم الماكينة التي تركز على المعرفة المنطقية. ويضم 13،939 سؤالا على 2،119 نص السردي ويغطي 110 سيناريوهات يومية مختلفة. يتم شرح كل نص مع واحد من 110 سيناريوهات.
- McScript2.0 McScript2.0 هي مجموعة فهم الماكينة للتقييم الشامل لمعرفة البرنامج النصي. أنه يحتوي على تقريب. 20،000 سؤال حول تقريبا. 3500 نص ، تم تعليمه الجماعي بناءً على عملية تجميع جديدة تؤدي إلى تحدي أسئلة. لا يمكن الإجابة على نصف الأسئلة من نصوص القراءة ، ولكن يتطلب استخدام المنطق ، وعلى وجه الخصوص ، المعرفة النصية.
- Comminenseqa Commonsenseqa هي مجموعة بيانات جديدة للإجابة على أسئلة متعددة الخيارات تتطلب أنواعًا مختلفة من المعرفة المنطقية للتنبؤ بالإجابات الصحيحة. أنه يحتوي على 12،102 سؤال مع إجابة واحدة صحيحة وأربعة إجابات تشتيت.
- يتضمن NarrativeQa NarryQa قائمة الوثائق التي تحتوي على ملخصات ويكيبيديا ، وروابط للقصص الكاملة ، والأسئلة والأجوبة. للحصول على وصف مفصل لهذا ، راجع الورقة "تحدي فهم القراءة السرد".
- Hotpotqa Hotpotqa عبارة عن مجموعة بيانات للإجابة على أسئلة تتميز بأسئلة طبيعية متعددة الهووب ، مع إشراف قوي لدعم الحقائق لتمكين أنظمة الإجابة على أسئلة أكثر تفسيرًا.
- تكرار/تحديد أسئلة مماثلة
- Quora أسئلة أسئلة أزواج Quora أسئلة أسئلة daaset تتكون من أكثر من 400000 سطر من أسئلة محتملة أزواج مكررة. [تنسيق إصدار Kaggle]
- اطرح على Ubuntu أن هذا الريبو يحتوي على مجموعة من الأسئلة المعالجة مسبقًا مأخوذة من Askubuntu.com 2014 Corpus Dump. ويأتي أيضًا مع 400*20 من التعليقات التوضيحية المنطوقة ، مما يمثل أزواجًا من الأسئلة على أنها "مماثلة" أو "غير متماثلة" ، من استرجاع الأسئلة شبه الخاضعة للإشراف مع تلوينات بوابة ، NAACL2016 .
استخراج المعلومات
- كيان
- تحتوي مجموعة البيانات هذه على مجموعة البيانات القياسية والمتاحة للجمهور لتصنيف الكيانات الدقيقة ، المقدمة بتنسيق رمزي معالج مسبقًا ، وتفاصيل في البنية العصبية لنوع الكيانات الحبيبية ، EACL 2017 .
- كيان فائق ، يكتب مهمة جديدة لكتابة كيان: بالنظر إلى جملة مع ذكر كيان ، فإن الهدف هو التنبؤ بمجموعة من عبارات الشكل الحرة (على سبيل المثال ناطحة سحاب أو مؤلف أغاني أو إجرامي) تصف الأنواع المناسبة للكيان المستهدف.
- Contity Corpus Corpus مجموعة بيانات محددة من الحبيبات المغطاة بالكيان على الجزء الكامل من Wall Street Journal من Penn TreeBank (PTB) ، والتي تضم شرحًا 279،795 ذكرًا من 114 نوعًا من الكيانات مع ما يصل إلى 6 طبقات من التعشيش.
- إن التعرف على الكيان المسمى على تبديل رمز البيانات الذي تم تبديله رمزًا (CS) هو الظاهرة التي يتحول بها مكبرات الصوت متعددة اللغات بين لغاتها المشتركة في التواصل المكتوب أو المنطوق. يحتوي على بيانات التدريب والتطوير لأنظمة ضبط واختبار الأزواج اللغوية التالية: اللغة الإنجليزية الإسبانية (SPA-ENG) ، والمصرية العربية المعيارية (MSA-Egy).
- MIT Movie Corpus The MIT Movie Corpus هي مجموعة تدريب واختبار موسومة بشكل دلالي بتنسيق Bio. إن Eng Corpus عبارة عن استفسارات بسيطة ، و trivia10k13 corpus هي استفسارات أكثر تعقيدًا.
- MIT Restaurant Corpus The Mit Restaurant Corpus عبارة عن مجموعة تدريب واختبار موسومة بشكل دلالي بتنسيق حيوي.
- استخراج العلاقة
- توصي مجموعات البيانات من العلاقات الدلالية المشروحة أن هذا المستودع يحتوي على مجموعات بيانات مشروحة يمكن استخدامها لتدريب النماذج الخاضعة للإشراف لمهمة استخراج العلاقة الدلالية.
- Tacred Tacred هي مجموعة بيانات استخراج العلاقة واسعة النطاق مع 106،264 أمثلة تم إنشاؤها على نار ويب ونص الويب من المجموعة المستخدمة في تحديات قاعدة المعرفة TAC السنوية (TAC KBP). التفاصيل في الاهتمام المدرك والبيانات الخاضعة للإشراف على تحسين ملء الفتحات ، EMNLP 2017 .
- FILEREL FILEREL هي مجموعة بيانات تصنيف علاقات قليلة ، والتي تضم 70 ، 000 جمل لغة طبيعية تعبر عن 100 علاقات شرحها من قبل عمال الحشد.
- SEMEVAL 2018 TASK7 بيانات التدريب والتقييم البرنامج النصي لـ SEMEVAL 2018 المهمة 7: استخراج العلاقة الدلالية وتصنيفها في الأوراق العلمية.
- صينية لتراكتور-ريد على مستوى الخطاب المسماة التعرف على الكيان واستخلاص العلاقة لنص الأدب الصيني. أنه يحتوي على 726 مقالة ، 29،096 جملة وأكثر من 100000 حرف في المجموع.
- حدث
- ACE 2005 Training Data تتألف Corpus من بيانات مختلفة من أنواع مختلفة من الكيانات والعلاقات والأحداث تم إنشاؤها بواسطة اتحاد البيانات اللغوي بدعم من برنامج ACE ، عبر ثلاث لغات: اللغة الإنجليزية والصينية والعربية.
- تم تصميم مجموعة الطوارئ الصينية في حالات الطوارئ الصينية (CEC) بواسطة مختبر دلالي للبيانات في جامعة شنغهاي. تنقسم هذه المجموعة إلى 5 فئات - الزلزال والنار والحادث المروري والهجوم الإرهابي وتسمم الطعام.
- تقييم الأحداث TAC-KBP هو مسار فرعي في عدد سكان TAC للمعرفة (KBP) ، والذي بدأ من عام 2015. هدف مجموعة TAC للمعرفة (KBP) هو تطوير وتقييم التقنيات لملء قواعد المعرفة (KBS) من النص غير المنظم.
- بيانات تقييم السرد cloze تقييم فهم البرنامج النصي من خلال التنبؤ بالحدث التالي بالنظر إلى العديد من أحداث السياق. التفاصيل في التعلم غير الخاضع للإشراف لمخططات السرد والمشاركين ، ACL 2009 .
- Event Tensor مجموعة بيانات تقييم حول توليد المخطط/تشابه الجملة/السرد ، والذي يقترحه تمثيلات الأحداث مع التراكيب المستندة إلى التوتر ، AAAI 2018 .
- Semeval-2015 Task 4 Timeline: Order-Document Ordering. بالنظر إلى مجموعة من المستندات والكيان المستهدف ، تتمثل المهمة في إنشاء جدول زمني للحدث يتعلق بهذا الكيان ، أي لاكتشاف وترسيخ في الوقت المناسب وطلب الأحداث التي تنطوي على الكيان المستهدف.
- يتألف وصف الحدث Red Richer من العلاقات الأساسية وعلاقات السد وحدث الأحداث (علاقات زمنية وسببية وعلاقات فرعية وإعداد تقارير) على 95 من نيوزيو إنجليزي ، ومنتدى المناقشة ووثائق النص السردي ، وتغطي جميع الأحداث والأوقات والكيانات غير الجارية داخل كل وثيقة.
- Inscript تحتوي مجموعة inscript على ما مجموعه 1000 نص سردي تم تعليمه عبر تركيك ميكانيكي الأمازون. تم شرحه بمعلومات البرنامج النصي في شكل أحداث خاصة بالسيناريو وعلامات المشاركين.
- AutolabeLevent بيانات العمل في توليد البيانات المسمى تلقائيًا لاستخراج الأحداث على نطاق واسع ، ACL2017 .
- EventInframenet بيانات العمل في الاستفادة من FramEnet لتحسين الكشف التلقائي عن الأحداث ، ACL2016 .
- في هذه الأثناء ، تتكون Corpus (The Newsreader Multilingual Event and Time Corpus) من ما مجموعه 480 مقالة إخبارية: 120 مقالات من Wikinews الإنجليزية حول أربعة مواضيع وترجماتها باللغة الإسبانية والإيطالية والهولندية. تم شرحه يدويًا على مستويات متعددة ، بما في ذلك الكيانات والأحداث والمعلومات الزمنية والأدوار الدلالية والحدث داخل الوصول والمواد المتقاطعة والكيان.
- يتميز Bionlp-ST 2013 Bionlp-ST 2013 بمهام استخراج الأحداث الست: استخراج أحداث Genia لبناء قاعدة المعرفة NFKB ، وعلم الوراثة السرطانية ، وترتيب المسار ، والتعليقات التعليمية مع تنظيم الجينات ، وشبكة تنظيم الجينات في البكتيريا ، والبكتيريا البيولوجية (التعليقات الدلالية من قبل الحدود).
- الحدث العلاقات الزمنية والسببية
- يلبي مخطط العلاقة السببية والزمنية (Caters) ، وهو فريد من نوعه في وقت في وقت واحد التقاط مجموعة هجومية من العلاقات الزمنية والسببية بين الأحداث. يحتوي Caters على ما مجموعه 1600 جملة في سياق 320 قصصًا قصيرة من خمسة جملات تم أخذ عينات منها من Corcstories Corpus.
- سبيان بانك سبيان بانك المسببة للسباق هو مجموعة الأسماك الزمنية المأخوذة من مهمة Tempeval-3 ، والتي تضع معلومات جديدة حول السببية في شكل Cigmentals وتوضيح Clinks. 6،811 أحداث (أحداث تم إنشاؤها فقط بواسطة Makeinstance Tag of Timeml) ، 5،118 tlinks (الروابط الزمنية) ، 171 csignals (الإشارات السببية) ، 318 clinks (الروابط السببية).
- EventCausalityData توفر مجموعة بيانات EventCausality تعليقات سببية كثيفة نسبيًا على 25 مقالة من نيوسبايرات تم جمعها من CNN في عام 2010.
- EventStoryline مجموعة بيانات قياسية للكشف عن العلاقة الزمنية والسببية.
- Tempeval-3 تهدف المهمة المشتركة لـ Tempeval-3 إلى تعزيز الأبحاث حول معالجة المعلومات الزمنية.
- TemporalCausalReasoning مجموعة بيانات مع كل من شرح العلاقات الزمنية والسببية. تم شرح العلاقات الزمنية بناءً على المخطط المقترح في "مخطط التعليقات التوضيحية متعددة المحاور للعلاقات الزمنية للحدث" باستخدام CrowdFlower ؛ تم تعيين العلاقات السببية من "EventCausalityData".
- يحتوي Timebank TimeBank 1.2 على 183 مقالة إخبارية تم شرحها بالمعلومات الزمنية ، وإضافة الأحداث والأوقات والروابط الزمنية (tlinks) بين الأحداث والأوقات.
- Timebank-EventTime Corpus هذه مجموعة البيانات هي مجموعة فرعية من مجموعة TimeBank مع نظام شرح جديد لترسيخ الأحداث في الوقت المناسب. وصف مفصل.
- وقائع الحدث
- مجموعة بيانات UW للحدث ، تحتوي مجموعة البيانات هذه على تعليقات نصية من Tempeval-3 corpus مع علامات تقييم الواقعية.
- FactBank 1.0 FactBank 1.0 ، يتكون من 208 وثيقة (أكثر من 77000 رمز) من تقارير إخبارية في نيوسباياير والبث فيها ، يتم شرح الحدث بدرجة واقعية.
- ConceptBank The ConceptBank هو مجموعة من 1200 خطاب طبيعي يحدث بشكل طبيعي ، حيث تحتوي الجملة النهائية على مسند للبشر بموجب مشغل إلغاء الاستخدام (سؤال ، وسائل ، نفي ، سابقة للشرط).
- UDS DEROMANTICS Universal Devomposition Adt ، حدثت مجموعة بيانات ، وتغطي مجمل التبعيات العالمية الإنجليزية V1.2 (EUD1.2) TreeBank ، وهي مجموعة بيانات كبيرة للحدث.
- DLEF مجموعة بيانات حقائق الحدث على مستوى المستند (DLEF) ، والتي تتضمن المصدر (الإنجليزية والصينية) ، والمبادئ التوجيهية التفصيلية لكل من واقعية الحدث على مستوى المستندات والجملة.
- الحدث الأساسي
- ECB 1.0 تتكون هذه المجموعة من مجموعة من مستندات Google News مشروحة بمعلومات COREFERENCE للحدث الداخلي والموسيقي. يتم تجميع المستندات وفقًا لمجموعة Google News ، كل مجموعة من المستندات التي تمثل نفس الحدث الأساسي (أو الموضوع).
- EECB 1.0 مقارنةً بـ ECB 1.0 ، يتم تمديد مجموعة البيانات هذه في اتجاهين: (1) جمل مشروحة بالكامل ، و (2) علاقات الكيان الأساسية. بالإضافة إلى ذلك ، قام المليقات بإزالة العلاقات بخلاف Coreference (على سبيل المثال ، subevent ، الغرض ، ذات الصلة ، إلخ).
- Ecb+ The Ecb+ Corpus هو امتداد لـ ECB 1.0. يتكون مكون Corpus المضافة حديثًا من 502 وثيقة تنتمي إلى 43 موضوعًا للبنك المركزي الأوروبي ولكنها تصف أحداثًا مختلفة مختلفة عن تلك التي تم التقاطها بالفعل في البنك المركزي الأوروبي.
- فتح استخراج المعلومات
- OIE-BENCERMARK يحتوي هذا المستودع على رمز لتحويل تعليقات QA-SRL إلى استخراج المفتوح II ومقارنة محلات OPEN-IE مقابل مجموعة مؤيدية محولة.
- NeuralOpenie مجموعة بيانات تدريب من استخراج المعلومات المفتوحة العصبية ، ACL 2018. فيما يلي ما مجموعه 36،247،584 hsentence ، أزواج tuplei المستخرجة من Wikipedia Dump باستخدام OpenI4.
- آخر
- حصل Wikilinknink على مجموعة بيانات على نطاق واسع على نطاق واسع من أجزاء النص من الويب ، وهو أمر أكثر صاخبة وأكثر صعوبة من مجموعات البيانات القائمة على الأخبار.
استنتاج اللغة الطبيعية
- SNLI The SNLI Corpus (الإصدار 1.0) عبارة عن مجموعة تضم 570 ألف أزواج من الجملة الإنجليزية المكتوبة الإنسان المسمى يدويًا بالتصنيف المتوازن مع الملصقات التي تستلزمها وتناقضًا وتناقضًا ، ودعم مهمة استنتاج اللغة الطبيعية (NLI) ، والمعروفة أيضًا باسم التعرف على النصي (RTE).
- Multinli The Multinli The Multi-Genre Natural Inference (Multinli) Corpus هي مجموعة من المصادر الحشود من 433 ألف زوج من الأزواج المعروضة مع معلومات النصي. تم تصميم مجموعة Corpus على مجموعة SNLI ، ولكنها تختلف في والتي تغطي مجموعة من الأنواع من النص المنطوق والمكتوب ، ويدعم تقييم تعميم متشابك متشابك.
- Scitail the Scitail Dataset هي مجموعة بيانات استنزاف تم إنشاؤها من امتحانات علوم الاختيار من متعدد وجمل الويب. يجعل المجال مجموعة البيانات هذه مختلفة في الطبيعة عن مجموعات البيانات السابقة ، وتتألف من جمل أكثر واقعية بدلاً من أوصاف المشهد.
- PAWS مجموعة بيانات جديدة مع 108،463 إعادة صياغة مصممة جيدا وغيرها من الأزواج مع تداخل معجمي عالية. PAWS: Paraphrase Adversaries from Word Scrambling
Capsule Networks
- Investigating Capsule Networks with Dynamic Routing for Text Classification.It show how capsule networks exhibit significant improvement when transfer single-label to multi-label text classification over the competitors
- Attention-Based Capsule Networks with Dynamic Routing for Relation Extraction. They explore the capsule networks used for relation extraction in a multi-instance multi-label learning framework and propose a novel neural approach based on capsule networks with attention mechanisms
- Identifying Aggression and Toxicity in Comments using Capsule Network. 2018. It is early days for Capsule Networks, which was introduced by Geoffrey Hinton, et al., in 2017 as an attempt to introduce an NN architecture superior to the classical CNNs. The idea aims to capture hierarchincal relationships in the input layer through dynamic routing between "capsules" of neurons. Due likely to the affinitity of the theme of addressing hierarchical complexities, the idea's extention to the NLP field has since been a sujbect of active research, such as in the papers listed above.
- Dynamic Routing Between Capsules.They propose an iterative routing-by-agreement mechanism: A lower-level capsule prefers to send its output to higher level capsules whose activity vectors have a big scalar product with the prediction coming from the lower-level capsule
- Matrix Ccapsules With Expectation-Maximization Routing. The transformation matrices of capsule net are trained discriminatively by backpropagating through the unrolled iterations of EM between each pair of adjacent capsule layers
Commonsense
- ConceptNet ConceptNet is a multilingual knowledge base, representing words and phrases that people use and the common-sense relationships between them.
- Commonsense Knowledge Representation ConceptNet-related resources. Details in Commonsense Knowledge Base Completion. Proc. of ACL, 2016
- ATOMIC, an atlas of everyday commonsense reasoning, organized through 877k textual descriptions of inferential knowledge. ATOMIC focuses on inferential knowledge organized as typed if-then relations with variables.
- SenticNet SenticNet provides a set of semantics, sentics, and polarity associated with 100,000 natural language concepts. SenticNet consists of a set of tools and techniques for sentiment analysis combining commonsense reasoning, psychology, linguistics, and machine learning.
آخر
- QA-SRL This dataset use question-answer pairs to model verbal predicate-argument structure. The questions start with wh-words (Who, What, Where, What, etc.) and contains a verb predicate in the sentence; the answers are phrases in the sentence.
- QA-SRL 2.0 This repository is the reference point for QA-SRL Bank 2.0, the dataset described in the paper Large-Scale QA-SRL Parsing, ACL 2018.
- NEWSROOM CORNELL NEWSROOM is a large dataset for training and evaluating summarization systems. It contains 1.3 million articles and summaries written by authors and editors in the newsrooms of 38 major publications.
- CoNLL 2010 Uncertainty Detection The aim of this task is to identify sentences in texts which contain unreliable or uncertain information. Training Data contains biological abstracts and full articles from the BioScope (biomedical domain) corpus and paragraphs from Wikipedia possibly containing weasel information.
- COLING 2018 automatic identification of verbal MWE Corpora were annotated by human annotators with occurrences of verbal multiword expressions (VMWEs) according to common annotation guidelines. For example, "He picked one up ."
- Scientific NLP
- PubMed 200k RCT PubMed 200k RCT is new dataset based on PubMed for sequential sentence classification. The dataset consists of approximately 200,000 abstracts of randomized controlled trials, totaling 2.3 million sentences.
- Automatic Academic Paper Rating A dataset for automatic academic paper rating (AAPR), which automatically determine whether to accept academic papers. The dataset consists of 19,218 academic papers by collecting data on academic pa- pers in the field of artificial intelligence from the arxiv.
- ACL Title and Abstract Dataset This dataset gathers 10,874 title and abstract pairs from the ACL Anthology Network (until 2016).
- SCIERC A dataset includes annotations for entities, relations, and coreference clusters in scientific articles.
- SciBERT SciBERT is a BERT model trained on scientific text. A broad set of scientific nlp datasets under the data/ directory across ner, parsring, pico and text classification.
- 5AbstractsGroup The dataset contains academic papers from five different domains collected from the Web of Science, namely business, artifical intelligence, sociology, transport and law.
- SciCite A new large dataset of citation intent from Structural Scaffolds for Citation Intent Classification in Scientific Publications
- ACL-ARC A dataset of citation intents in the computational linguistics domain (ACL-ARC) introduced by Measuring the Evolution of a Scientific Field through Citation Frames .
- GASP The dataset consists of list of cited abstracts associated with the corresponding source abstract. The goal is to generete the abstract of a target paper given the abstracts of cited papers.
Contribute Contributions welcome!