مجموعة بيانات NLP الصينية والإنجليزية. يمكنك النقر للبحث.
يمكنك المساهمة في قوتك عن طريق تحميل معلومات مجموعة البيانات. بعد تحميل خمس مجموعات بيانات أو أكثر ومراجعتها ، يمكن استخدام الطالب كمساهم في المشروع وعرضها.
مجموعة أدوات Clueai: ثلاث دقائق وثلاث أسطر من التعليمات البرمجية لإكمال تطوير NLP (التعلم عينة صفر)

إذا كان هناك أي مشكلة في مجموعة البيانات ، فيرجى تقديم مشكلة.
جميع مجموعات البيانات من الإنترنت ولا يتم تنظيمها إلا لسهولة الاستخراج. إذا كان هناك أي انتهاك أو مشكلات أخرى ، فيرجى الاتصال بنا في الوقت المناسب لحذفها.
| بطاقة تعريف | عنوان | تاريخ التحديث | مزود مجموعة البيانات | رخصة | يوضح | الكلمات الرئيسية | فئة | عنوان الورق | ملاحظة |
|---|---|---|---|---|---|---|---|---|---|
| 1 | CCKS2017 تحديد كيان تسمية الحالة الإلكترونية الصينية | مايو 2017 | شركة بكين جيمويون للتكنولوجيا الصحية المحدودة | تأتي البيانات من بيانات السجل الطبي الإلكتروني الحقيقي لمنصة المستشفى السحابية ، مع ما مجموعه 800 عنصر (سجل زيارة مفردة المريض) ، وتم علاجها مع إزالة الحساسية. | السجل الطبي الإلكتروني | اسم التعرف على الكيان | الصينية | ||
| 2 | CCKS2018 تعريف كيان تسمية الحالة الإلكترونية الصينية | 2018 | Yidu Cloud (Beijing) Technology Co. ، Ltd. | توفر مهمة التقييم الخاصة بـ CCKS2018 التعرف على كيان التسمية الإلكترونية لـ CCKS201 600 نصوص طبية إلكترونية ملحوظة ، والتي تتطلب ما مجموعه خمسة كيانات بما في ذلك الأجزاء التشريحية ، والأعراض المستقلة ، وأوصاف الأعراض ، والجراحة والعقاقير. | السجل الطبي الإلكتروني | اسم التعرف على الكيان | الصينية | ||
| 3 | MSRA المسمى بيانات تعريف الكيان في معهد Microsoft Asia Research Institute | MSRA | تأتي البيانات من MSRA ، ونموذج وضع العلامات هو Bio ، وهناك 46365 إدخال في المجموع | MSRA | اسم التعرف على الكيان | الصينية | |||
| 4 | 1998 مجموعة شرح تعريف تحديد الكيان اليومية للأشخاص | يناير 1998 | الناس يوميا | مصدر البيانات هو الأشخاص اليومي في عام 1998 ، ونموذج وضع العلامات هو Bio ، مع ما مجموعه 23،061 مشاركة. | 98 الناس يوميا | اسم التعرف على الكيان | الصينية | ||
| 5 | بوسون | بيانات Bosen | مصدر البيانات هو boson ، نموذج العلامات هو BMEO ، وهناك 2000 إدخال في المجموع | بوسون | اسم التعرف على الكيان | الصينية | |||
| 6 | دليل على غرامة الحبوب ner | 2020 | فكرة | تعتمد مجموعة بيانات CLUENERNER2020 على مجموعة بيانات تصنيف النص THUCTC من جامعة TSINGHUA ، والتي تختار بعض البيانات لشرح التعليقات على تسمية الحبيبات الدقيقة. البيانات الأصلية تأتي من Sina News RSS. تحتوي البيانات على 10 فئات ملصقات ، وتتضمن مجموعة التدريب ما مجموعه 10،748 جسمًا ، وتتضمن مجموعة التحقق ما مجموعه 1،343 مجموعة. | الحبيبات الجميلة كولي | اسم التعرف على الكيان | الصينية | ||
| 7 | Conll-2003 | 2003 | CNTS - مجموعة تكنولوجيا اللغة | تأتي البيانات من مهمة CONLL-2003 ، التي تعرض أربع فئات بما في ذلك PER ، LOC ، ORG و MISC | Conll-2003 | اسم التعرف على الكيان | ورق | إنجليزي | |
| 8 | ويبو الاعتراف بالكيان | 2015 | https://github.com/hltcoe/golden-horse | EMNLP-2015 | اسم التعرف على الكيان | ||||
| 9 | Sighan Bakeoff 2005 | 2005 | MSR/PKU | Bakeoff-2005 | اسم التعرف على الكيان |
| بطاقة تعريف | عنوان | تاريخ التحديث | مزود مجموعة البيانات | رخصة | يوضح | الكلمات الرئيسية | فئة | عنوان الورق | ملاحظة |
|---|---|---|---|---|---|---|---|---|---|
| 1 | Newsqa | 2019/9/13 | معهد Microsoft Research | الغرض من مجموعة بيانات Maluuba NewsQA هو مساعدة المجتمعات البحثية على بناء خوارزميات يمكنها الإجابة على الأسئلة التي تتطلب مهارات الفهم والتفاهم على مستوى الإنسان. أنه يحتوي على أكثر من 12000 مقالة إخبارية و 120،000 إجابة ، بمتوسط 616 كلمة لكل مقالة و 2 إلى 3 إجابات لكل سؤال. | إنجليزي | QA | ورق | ||
| 2 | فريق | ستانفورد | مجموعة بيانات أسئلة وأجوبة Stanford (Squad) هي مجموعة بيانات لفهم القراءة المكونة من أسئلة أثيرت على مجموعة من المقالات على ويكيبيديا ، حيث تكون الإجابة على كل سؤال عبارة عن فقرة نصية ، والتي قد تأتي من فقرة القراءة المقابلة ، أو قد لا يتم إجازة السؤال. | إنجليزي | QA | ورق | |||
| 3 | اختصارات بسيطة | فيسبوك | مجموعة أسئلة وأجوبة بسيطة واسعة النطاق استنادًا إلى شبكات التخزين ، توفر مجموعة البيانات مجموعة بيانات أسئلة متعددة المهام وإجابة مع 100 ألف إجابة على الأسئلة البسيطة. | إنجليزي | QA | ورق | |||
| 4 | ويكيكا | 2016/7/14 | معهد Microsoft Research | من أجل عكس احتياجات المعلومات الحقيقية للمستخدمين العاديين ، تستخدم Wikiqa سجلات استعلام Bing كمصدر للمشكلة. كل سؤال يرتبط بصفحة ويكيبيديا قد يكون لها إجابات. نظرًا لأن القسم الموجز في صفحة ويكيبيديا يوفر معلومات أساسية وغالبًا ما يكون أكثر أهمية حول هذا الموضوع ، يتم استخدام الجمل الواردة في هذا القسم كإجابات مرشحة. بمساعدة التعهيد الجماعي ، تتضمن مجموعة البيانات 3047 أسئلة وجمل 29258 ، منها 1473 جملة تم وضع علامة عليها كجمل إجابة للسؤال المقابل. | إنجليزي | QA | ورق | ||
| 5 | CMEDQA | 2019/2/25 | تشانغ شنغ | تحتوي البيانات من المنتدى الطبي عبر الإنترنت على 54000 سؤال وما يقرب من 100000 إجابة. | الصينية | QA | ورق | ||
| 6 | CMEDQA2 | 2019/1/9 | تشانغ شنغ | يحتوي الإصدار الموسع من CMEDQA على حوالي 100000 سؤال مرتبط بالطبي وما يقارب 200000 إجابة. | الصينية | QA | ورق | ||
| 7 | WebMedqa | 2019/3/10 | انه junqing | مجموعة بيانات أسئلة وطبية عبر الإنترنت تحتوي على 60،000 سؤال و 310،000 إجابة ، وتحتوي على فئات الأسئلة. | الصينية | QA | ورق | ||
| 8 | XQA | 2019/7/29 | جامعة تسينغهوا | تقوم هذه المقالة بشكل أساسي بإنشاء مجموعة بيانات وتجريب مفتوحة باللغة المتقاطعة للأسئلة والإجابة المفتوحة. تتضمن مجموعة البيانات (مجموعة التدريب ، مجموعة الاختبار) تسع لغات وأكثر من 90،000 سؤال وإجابات. | متعدد اللغات | QA | ورق | ||
| 9 | Amazonqa | 2019/9/29 | أمازون | اقترحت جامعة كارنيجي ميلون مهمة نموذج ضمان الجودة القائمة على التعليقات استجابةً لنقاط الألم للإجابات المتكررة على الأسئلة على منصة Amazon ، أي استخدام سؤال وجواب سابق للإجابة على منتج معين ، سيقوم نظام QA تلقائيًا بتلخيص إجابة للعملاء. | إنجليزي | QA | ورق | ||
| 9 | Amazonqa | 2019/9/29 | أمازون | اقترحت جامعة كارنيجي ميلون مهمة نموذج ضمان الجودة القائمة على التعليقات استجابةً لنقاط الألم للإجابات المتكررة على الأسئلة على منصة Amazon ، أي استخدام سؤال وجواب سابق للإجابة على منتج معين ، سيقوم نظام QA تلقائيًا بتلخيص إجابة للعملاء. | إنجليزي | QA | ورق |
| بطاقة تعريف | عنوان | تاريخ التحديث | مزود مجموعة البيانات | رخصة | يوضح | الكلمات الرئيسية | فئة | عنوان الورق | ملاحظة |
|---|---|---|---|---|---|---|---|---|---|
| 1 | NLPCC2013 | 2013 | CCF | Weibo Corpus ، التي تتميز بـ 7 مشاعر: مثل ، الاشمئزاز ، السعادة ، الحزن ، الغضب ، المفاجأة ، الخوف. الحجم: 14 000 منشورات Weibo ، 45 431 جملة | NLPCC2013 ، العاطفة | تحليل المشاعر | ورق | ||
| 2 | NLPCC2014 Task1 | 2014 | CCF | Weibo Corpus ، التي تتميز بـ 7 مشاعر: مثل ، الاشمئزاز ، السعادة ، الحزن ، الغضب ، المفاجأة ، الخوف. الحجم: 20،000 منشورات Weibo | NLPCC2014 ، العاطفة | تحليل المشاعر | |||
| 3 | NLPCC2014 Task2 | 2014 | CCF | Weibo Corpus مميزة بالإيجابية والسلبية | NLPCC2014 ، المشاعر | تحليل المشاعر | |||
| 4 | Weibo العاطفة كوربوس | 2016 | جامعة هونغ كونغ بوليتكنيك | Weibo Corpus ، التي تتميز بـ 7 مشاعر: مثل ، الاشمئزاز ، السعادة ، الحزن ، الغضب ، المفاجأة ، الخوف. الحجم: أكثر من 40،000 منشور Weibo | Weibo العاطفة كوربوس | تحليل المشاعر | Corpus Construction العاطفة على أساس الاختيار من الملصقات الطبيعية صاخبة | ||
| 5 | [Rencecps] (يمكن الاتصال بـ Fuji Ren ([email protected]) لاتفاقية ترخيص.) | 2009 | فوجي رن | مجموعة المدونة المشروحة تتميز بالعاطفة والشعور على مستوى المستند ومستوى الفقرة ومستوى الجملة. أنه يحتوي على 1500 مدونة و 11000 فقرات و 35000 جملة. | rencps ، العاطفة ، المشاعر | تحليل المشاعر | بناء مدونة العاطفة لتحليل التعبير العاطفي الصيني | ||
| 6 | weibo_senti_100k | مجهول | مجهول | ضع علامة على Sina Weibo مع العاطفة ، وهناك حوالي 50000 تعليقات إيجابية وسلبية لكل منها | Weibo Senti ، المشاعر | تحليل المشاعر | |||
| 7 | BDCI2018-AUTOMOBILE صناعة المستخدمين والاعتراف العاطفي | 2018 | CCF | توضع تعليقات على السيارات في منتدى السيارات على موضوعات شعر السيارة: الطاقة ، السعر ، الداخلية ، التكوين ، السلامة ، المظهر ، المناولة ، استهلاك الوقود ، المساحة ، والراحة. يتميز كل موضوع بالعلامات العاطفية ، ويتم تقسيم العواطف إلى 3 فئات ، مع الأرقام 0 و 1 و -1 على التوالي تمثل محايدة وإيجابية وسلبية. | يعزى تحليل المشاعر تحليل المشاعر | تحليل المشاعر | |||
| 8 | منظمة العفو الدولية منظمة العفو الدولية ، تحليل المعنويات ، تحليل المعنويات | 2O18 | ميتوان | مراجعات تقديم الطعام ، 6 سمات من المستوى الأول ، 20 سمات المستوى الثاني ، يتم وضع علامة على كل سمة إيجابية ، سلبية ، محايدة ، ولم يتم ذكرها. | السمة تحليل المشاعر | تحليل المشاعر | |||
| 9 | BDCI2019 المعلومات المالية السلبية وتحديد الموضوع | 2019 | البنك المركزي | أخبار المجال المالي ، كل عينة علامات على قائمة الكيانات وكذلك قائمة الكيانات السلبية. المهمة هي تحديد ما إذا كانت العينة سلبية والكيان السلبي المقابل. | تحليل المشاعر الكيان | تحليل المشاعر | |||
| 10 | مراجعة التجارة الإلكترونية لكأس Zhijiang | 2019 | مختبر Zhijiang | تتمثل مهمة استكشاف آراء مراجعات العلامات التجارية في استخراج خصائص سمة المنتج وآراء المستهلك من مراجعات المنتجات ، وتأكيد أنواعها العاطفية والسمات. للحصول على ميزة سمة معينة لمنتج ما ، هناك سلسلة من كلمات الرأي التي تصفه ، والتي تمثل وجهات نظر المستهلكين حول ميزة السمة. كل مجموعة من خصائص سمة المنتج ، رأي المستهلك} لها قطبية عاطفية مقابلة (سلبية ، محايدة ، إيجابية) ، والتي تمثل رضا المستهلك عن هذه السمة. بالإضافة إلى ذلك ، يمكن تصنيف ميزات السمات المتعددة في نوع سمة معين ، مثل المظهر والمربع وميزات السمات الأخرى يمكن تصنيفها في نوع سمة التغليف. ستقوم الفرق المشاركة في النهاية بتقديم معلومات التنبؤ المستخرجة لبيانات الاختبار ، بما في ذلك أربعة مجالات: السمة كلمة المميزة ، كلمة الرأي ، قطبية الرأي ونوع السمة. | السمة تحليل المشاعر | تحليل المشاعر | |||
| 11 | 2019 مسابقة خوارزمية الحرم الجامعي Sohu | 2019 | سوهو | بالنظر إلى العديد من المقالات ، فإن الهدف هو الحكم على الكيان الأساسي للمقال وموقفه العاطفي تجاه الكيان الأساسي. تحدد كل مقالة ما يصل إلى ثلاثة كيانات أساسية ويحدد الميول العاطفية للمقال تجاه الكيانات الأساسية المذكورة أعلاه (إيجابية ومحايدة وسلبية). الكيان: الأشخاص ، والأشياء ، والمناطق ، والمؤسسات ، والمجموعات ، والمؤسسات ، والصناعات ، وبعض الأحداث المحددة ، وما إلى ذلك. الكيان الأساسي: الكلمة الكيان التي تصف بشكل أساسي أو تعمل كدور رئيسي للمقال. | تحليل المشاعر الكيان | تحليل المشاعر |
| بطاقة تعريف | عنوان | تاريخ التحديث | مزود مجموعة البيانات | رخصة | يوضح | الكلمات الرئيسية | فئة | عنوان الورق | ملاحظة |
|---|---|---|---|---|---|---|---|---|---|
| 1 | [2018 "Daguan Cup" تحدي معالجة ذكي] (https://www.pkbigdata.com/common/cmpt/ "Daguan Cup" Text Text Intelligent Processing Challenge_shiti and data.html) | يوليو 2018 | بيانات متفائلة | مجموعة البيانات تأتي من البيانات المتفائلة وهي مهمة تصنيف نصية طويلة. ويتضمن بشكل أساسي أربعة حقول: معرف ، مقال ، Word_Seg والفئة. تحتوي البيانات على 19 فئة ، بلغ مجموعها 102،275 عينة. | نص طويل إزالة الحساسية | تصنيف النص | الصينية | ||
| 2 | عنوان اليوم الأخبار الصينية (النص) | مايو 2018 | عناوين اليوم | مجموعة البيانات تأتي من Toutiao اليوم وهي مهمة تصنيف نصية قصيرة. تحتوي البيانات على 15 فئة ، بلغ مجموعها 382،688 عينة. | نص قصير ؛ أخبار | تصنيف النص | الصينية | ||
| 3 | تصنيف النص الصيني Thucnews | 2016 | جامعة تسينغهوا | يتم إنشاء Thucnews بناءً على تصفية البيانات التاريخية وتصفية قناة Sina News RSS بين عامي 2005 و 2011 ، وكلها بتنسيق نص عادي UTF-8. استنادًا إلى نظام تصنيف أخبار سينا الأصلي ، قمنا بإعادة دمج وتقسيم 14 فئة تصنيف المرشحين: التمويل ، اليانصيب ، العقارات ، الأسهم ، المنزل ، التعليم ، التكنولوجيا ، المجتمع ، الأزياء ، الشؤون الحالية ، الرياضة ، علامات البروج ، الألعاب ، والترفيه ، مع ما مجموعه 740،000 مستند أخبار (2.19 جيجابايت) | الوثائق ؛ أخبار | تصنيف النص | الصينية | ||
| 4 | تصنيف النص الصيني بجامعة فودان | مجموعة معالجة اللغة الطبيعية ، قسم معلومات الكمبيوتر والتكنولوجيا ، جامعة فودان ، المركز الدولي لقواعد البيانات | مجموعة البيانات من جامعة فودان وهي مهمة تصنيف نصية قصيرة. تحتوي البيانات على 20 فئة ، مع ما مجموعه 9،804 وثيقة. | الوثائق ؛ أخبار | تصنيف النص | الصينية | |||
| 5 | عنوان الأخبار تصنيف نص قصير | ديسمبر 2019 | Chenfengshf | مشاركة المجال العام CC0 | مجموعة البيانات مشتقة من منصة Kesci وهي مهمة تصنيف نصية قصيرة لحقل عنوان الأخبار. معظم المحتوى هو العنوان النص القصير (الطول <50) ، تحتوي البيانات على 15 فئة ، ما مجموعه 38W عينة | نص قصير ؛ عنوان الأخبار | تصنيف النص | الصينية | |
| 6 | 2017 تحدي تعليم الآلة في كأس Zhihu Kanshan | يونيو 2017 | جمعية الذكاء الاصطناعي الصيني ؛ تشوهو | مجموعة البيانات تأتي من Zhihu ، والتي هي بيانات مشروحة لعلاقة الربط بين السؤال وعلامات الموضوع. يحتوي كل سؤال على علامات واحدة أو أكثر ، مع ما مجموعه 1999 علامة ، يحتوي على ما مجموعه 3 ملايين سؤال. | سؤال؛ نص قصير | تصنيف النص | الصينية | ||
| 7 | 2019 كأس Zhijiang - مسابقة تعدين الرأي للتجارة الإلكترونية | أغسطس 2019 | مختبر Zhijiang | تتمثل مهمة استكشاف آراء مراجعات العلامات التجارية في استخراج خصائص سمة المنتج وآراء المستهلك من مراجعات المنتجات ، وتأكيد أنواعها العاطفية والسمات. للحصول على ميزة سمة معينة لمنتج ما ، هناك سلسلة من كلمات الرأي التي تصفه ، والتي تمثل وجهات نظر المستهلكين حول ميزة السمة. كل مجموعة من خصائص سمة المنتج ، رأي المستهلك} لها قطبية عاطفية مقابلة (سلبية ، محايدة ، إيجابية) ، والتي تمثل درجة رضا المستهلكين مع هذه السمة. | تعليقات؛ نص قصير | تصنيف النص | الصينية | ||
| 8 | تصنيف النص الطويل Iflytek | Iflytek | تحتوي مجموعة البيانات هذه على أكثر من 17000 بيانات نصية ذات علامات نصية طويلة حول أوصاف تطبيق التطبيق ، بما في ذلك مواضيع التطبيق المختلفة المتعلقة بالحياة اليومية ، مع ما مجموعه 119 فئة | نص طويل | تصنيف النص | الصينية | |||
| 9 | بيانات تصنيف الأخبار عبر الشبكة بأكملها (Sogouca) | 16 أغسطس 2012 | سوجو | تأتي هذه البيانات من بيانات الأخبار من 18 قناة بما في ذلك المحلية والدولية والرياضية والاجتماعية والترفيه ، وما إلى ذلك من يونيو إلى يوليو 2012. | أخبار | تصنيف النص | الصينية | ||
| 10 | بيانات أخبار Sohu (Sogoucs) | أغسطس 2012 | سوجو | مصدر البيانات هو Sohu News من 18 قناة بما في ذلك المحلية والدولية والرياضية والاجتماعية والترفيه ، إلخ من يونيو إلى يوليو 2012. | أخبار | تصنيف النص | الصينية | ||
| 11 | مجموعة أخبار العلوم والتكنولوجيا | نوفمبر 2017 | معهد ليو يو للأتمتة ، مركز المعلومات الشامل للأكاديمية الصينية للعلوم | لا يمكنني التنزيل في الوقت الحالي ، لقد اتصلت بالمؤلف ، في انتظار التعليقات | أخبار | ||||
| 12 | chnsenticorp_htl_all | مارس 2018 | https://github.com/sophonplus/chinesenlpcorpus | أكثر من 7000 بيانات مراجعة الفندق ، أكثر من 5000 مراجعة إيجابية ، أكثر من 2000 مراجعة سلبية | |||||
| 13 | waimai_10k | مارس 2018 | https://github.com/sophonplus/chinesenlpcorpus | مراجعات المستخدم التي تم جمعها بواسطة منصة الوجبات السريعة معينة هي 4000 إيجابي وحوالي 8000 سلبية. | |||||
| 14 | Online_shopping_10_cats | مارس 2018 | https://github.com/sophonplus/chinesenlpcorpus | هناك 10 فئات ، مع ما مجموعه أكثر من 60،000 تعليق ، وحوالي 30،000 تعليق إيجابي وسلبي ، بما في ذلك الكتب والأجهزة اللوحية والهواتف المحمولة والفواكه والشامبو وسخان المياه ، منغنيو ، الملابس ، أجهزة الكمبيوتر ، الفنادق | |||||
| 15 | weibo_senti_100k | مارس 2018 | https://github.com/sophonplus/chinesenlpcorpus | أكثر من 100000 قطعة ، تتميز بعاطفة على سينا ويبو ، وحوالي 50000 تعليقات إيجابية وسلبية هي كل منها | |||||
| 16 | SimplifyWeibo_4_moods | مارس 2018 | https://github.com/sophonplus/chinesenlpcorpus | يحتوي أكثر من 360،000 قطعة ، تتميز بعواطف على سينا ويبو ، على 4 أنواع من المشاعر ، بما في ذلك حوالي 200000 قطعة من الفرح ، وحوالي 50000 قطعة من الغضب والاشمئزاز والاكتئاب. | |||||
| 17 | DMSC_V2 | مارس 2018 | https://github.com/sophonplus/chinesenlpcorpus | 28 فيلمًا ، أكثر من 700000 مستخدم ، أكثر من 2 مليون مستخدم | |||||
| 18 | yf_dianping | مارس 2018 | https://github.com/sophonplus/chinesenlpcorpus | 240،000 مطعم و 540،000 مستخدم و 4.4 مليون تعليق/بيانات تصنيف | |||||
| 19 | yf_amazon | مارس 2018 | https://github.com/sophonplus/chinesenlpcorpus | 520،000 عنصر ، أكثر من 1100 فئة ، 1.42 مليون مستخدم ، 7.2 مليون تعليق/بيانات التصنيف |
| بطاقة تعريف | عنوان | تاريخ التحديث | مزود مجموعة البيانات | رخصة | يوضح | الكلمات الرئيسية | فئة | عنوان الورق | ملاحظة |
|---|---|---|---|---|---|---|---|---|---|
| 1 | LCQMC | 2018/6/6 | مركز هاربين للتكنولوجيا (شنتشن) مركز أبحاث الحوسبة الذكية | إبداع المشاع الإبداعي 4.0 الترخيص الدولي | تحتوي مجموعة البيانات هذه على 260،068 أزواج أسئلة صينية من حقول متعددة. يتم وضع علامة على أزواج الجملة ذات نية التحقيق نفسها على أنها 1 ، وإلا فهي 0 ؛ وهي مجزأة في مجموعة التدريب: 238،766 زوجًا ، مجموعة التحقق من الصحة: 8802 أزواج ، مجموعة الاختبار: 12،500 زوج. | مطابقة أسئلة واسعة النطاق ؛ نية مطابقة | مطابقة نص قصيرة مطابقة أسئلة | ورق | |
| 2 | BQ Corpus | 2018/9/4 | مركز هاربين للتكنولوجيا (شنتشن) مركز أبحاث الحوسبة الذكية ؛ Webank | هناك 120،000 زوج من الجملة في مجموعة البيانات هذه ، من سجل الخدمة الاستشارية للبنك لمدة عام واحد ؛ تحتوي أزواج الجملة على نوايا مختلفة ، تتميز بنسبة 1: 1 عينات إيجابية وسلبية. | أسئلة الخدمة المصرفية ؛ نية مطابقة | مطابقة نص قصيرة اكتشاف الاتساق سؤال | ورق | ||
| 3 | AFQMC ANT Financial Thankity | 2018/4/25 | النمل المالية | توفير 100000 زوج من البيانات المسمى (تم تحديثها على دفعات ، محدثة) كبيانات تدريب ، بما في ذلك أزواج مترادفة وأزواج مختلفة | أسئلة مالية | مطابقة نص قصيرة مطابقة أسئلة | |||
| 4 | مسابقة Paipaidai "Magic Mirror Cup" الثالثة | 2018/6/10 | معهد أبحاث التمويل الذكي Paipaidai | يحتوي ملف Train.csv على 3 أعمدة ، أي التسمية (التسمية ، مما يعني ما إذا كان السؤال 1 والسؤال 2 يعني نفس الشيء ، 1 يعني نفس الشيء ، و 0 يعني الفرق) ، وعدد السؤال 1 (Q1) وعدد السؤال 2 (Q2). ظهرت جميع أرقام المشكلات التي تظهر في هذا الملف في السؤال. csv | المنتجات المالية | مطابقة نص قصيرة مطابقة أسئلة | |||
| 5 | CAIL2019 مسابقة مماثلة مطابقة القضية | 2019/6 | جامعة تسينغهوا ؛ شبكة وثائق الحكم الصينية | لكل بيانات ، يتم استخدام ثلاثة توائم (A ، B ، C) لتمثيل البيانات ، حيث A ، B ، C كلها تتوافق مع وثيقة معينة. يكون التشابه بين بيانات المستند A و B أكبر دائمًا من التشابه بين A و B ، أي SIM (A ، B)> SIM (A ، C) | الوثائق القانونية ؛ حالات مماثلة | مطابقة نص طويلة | |||
| 6 | CCKS 2018 Webank خدمة العملاء الذكية مسابقة مطابقة | 2018/4/5 | مركز هاربين للتكنولوجيا (شنتشن) مركز أبحاث الحوسبة الذكية ؛ Webank | أسئلة الخدمة المصرفية ؛ نية مطابقة | مطابقة نص قصيرة مطابقة أسئلة | ||||
| 7 | chinesetextualinference | 2018/12/15 | ليو هوانيونج ، معهد أبحاث البرمجيات ، الأكاديمية الصينية للعلوم | مشروع استدلال النص الصيني ، بما في ذلك ترجمة وبناء 880،000 مجموعة بيانات تحتوي على نصوص صينية تحتوي | الصينية NLI | استنتاج النص الصيني ؛ إدراج النص | |||
| 8 | NLPCC-DBQA | 2016/2017/2018 | NLPCC | سؤال - علامة الإجابة ، وما إذا كانت هذه الإجابة هي إحدى الإجابات على السؤال ، 1 تعني نعم ، 0 لا يعني لا | DBQA | سؤال وجواب | |||
| 9 | نموذج الحساب للعلاقة بين "المتطلبات الفنية" ومشاريع "الإنجازات الفنية" | 201/8/32 | CCF | المتطلبات الفنية والإنجازات التقنية في نموذج نص معين ، وكذلك ملصق الارتباط بين المتطلبات والنتائج ؛ تنقسم العلاقة بين المتطلبات التقنية والإنجازات التقنية إلى أربعة مستويات: ارتباط قوي ، ارتباط قوي ، ارتباط ضعيف ، ولا علاقة | نص طويل تتطابق المتطلبات نتائج | مطابقة نص طويلة | |||
| 10 | CNSD/clue-cmnli | 2019/12 | Zengjunjun | يتم إنشاء مجموعة بيانات استنتاج اللغة الطبيعية الصينية ، هذه البيانات ومجموعة البيانات الإنجليزية الأصلية عن طريق الترجمة وجزء من التصحيح اليدوي ، والتي يمكن أن تخفف من مشكلة عدم كفاية استنتاج اللغة الطبيعية الصينية ومجموعات بيانات التشابه الدلالي إلى حد ما. | الصينية NLI | استنتاج اللغة الطبيعية الصينية | ورق | ||
| 11 | CMEDQA V1.0 | 2017/4/5 | Xunyao Xunyi.com ومدرسة نظم المعلومات وإدارة جامعة الدفاع الوطنية | مجموعة البيانات هي السؤال والإجابات التي يتم طرحها في موقع Xunyi Xunpharma. تمت معالجة مجموعة البيانات بشكل مجهول وتوفر 50000 سؤال و 94،134 إجابة في مجموعة التدريب ، مع متوسط عدد الشخصيات لكل سؤال والإجابات هي 120 و 212 على التوالي ؛ تحتوي مجموعة التحقق من 2000 سؤال و 3،774 إجابة ، مع متوسط عدد الشخصيات لكل سؤال والإجابات هي 117 و 212 على التوالي ؛ تحتوي مجموعة الاختبار على 2000 سؤال و 3،835 إجابة ، مع متوسط عدد الأحرف لكل سؤال والإجابة كونها 119 و 211 على التوالي ؛ تحتوي مجموعة البيانات على 54000 سؤال و 101،743 إجابة ، مع متوسط عدد الأحرف لكل سؤال والإجابة كونها 119 و 212 على التوالي ؛ | سؤال وجواب طبي | سؤال وجواب | ورق | ||
| 12 | CMEDQA2 | 2018/11/8 | Xunyao Xunyi.com ومدرسة نظم المعلومات وإدارة جامعة الدفاع الوطنية | مصدر مجموعة البيانات هذه هو الأسئلة والإجابات التي يتم طرحها في موقع Xunyi Xunpharma. تمت معالجة مجموعة البيانات بشكل مجهول وتوفر مجموعة من 100000 سؤال و 188،490 إجابة في مجموعة التدريب ، مع متوسط عدد الشخصيات لكل سؤال والإجابات 48 و 101 على التوالي ؛ تحتوي مجموعة التحقق من 4000 سؤال و 7،527 إجابة ، مع متوسط عدد الأحرف لكل سؤال والإجابة كونها 49 و 101 على التوالي ؛ تحتوي مجموعة الاختبار على 4000 سؤال و 7552 إجابة ، مع متوسط عدد الشخصيات لكل سؤال والإجابة على التوالي 49 و 100 على التوالي ؛ إجمالي عدد الأحرف لكل سؤال والإجابة هو 108،000 سؤال و 203،569 إجابة ، مع متوسط عدد الأحرف لكل سؤال والإجابة كونها 49 و 101 على التوالي ؛ | سؤال وجواب طبي | سؤال وجواب | ورق | ||
| 13 | chinesests | 2017/9/21 | تانغ شانغ ، باي يونيوي ، ما فويو. جامعة شيان للعلوم والتكنولوجيا | توفر مجموعة البيانات هذه 12747 زوجًا من مجموعات البيانات الصينية المماثلة. بعد مجموعة البيانات ، يقدم المؤلفون درجات التشابه الخاصة بهم ، ويتألف المجموعة من جمل قصيرة. | مطابقة تشابه الجملة قصيرة | مطابقة التشابه | |||
| 14 | مجموعة البيانات من مسابقة قياس التشابه في القضايا الطبية التي عقدها مؤتمر معالجة المعلومات الصحية الصينية | 2018 | CHIP 2018-مؤتمر معالجة المعلومات الصحية الرابع في الصين (ChIP) | الهدف الرئيسي لمهمة التقييم هذه هو مطابقة نية جمل الأسئلة بناءً على مجموعة الاستشارة الصحية للمرضى الصينيين الحقيقيين. بالنظر إلى بيانين ، يلزم تحديد ما إذا كانت نوايا الاثنين متماثلة أو متشابهة. تأتي جميع Corpus من أسئلة حقيقية من المرضى على الإنترنت وتم فحصها وملصقات مطابقة النوايا الاصطناعية. تم تخفيض مجموعة البيانات ، وتتميز المشكلة بمجموعة التدريب على المؤشرات الرقمية تحتوي على حوالي 20.000 بيانات ملحوظة (غير حساس ، بما في ذلك علامات الترقيم) ، وتتضمن مجموعة الاختبار حوالي 10000 بيانات خالية من الملصقات (Descinitized ، بما في ذلك رموز علامات الترقيم). | تطابق التشابه للمشاكل الطبية | مطابقة التشابه | |||
| 15 | COS960: مجموعة بيانات تشابه الكلمات الصينية من 960 أزواج كلمة | 2019/6/6 | جامعة تسينغهوا | تحتوي مجموعة البيانات على 960 زوجًا من الكلمات ، ويتم قياس كل زوج من خلال 15 مكبرات صوت أصلية من خلال درجات التشابه. يتم تقسيم 960 زوجًا من الكلمة إلى ثلاث مجموعات وفقًا للعلامة ، بما في ذلك 480 زوجًا من الأسماء ، و 240 زوجًا من الأفعال و 240 زوجًا من الصفات. | التشابه بين الكلمات | المرادفات | ورق | ||
| 16 | Oppo Mobile Search Fort Surpe Query-Title Defaticing DataSet. (https://pan.baidu.com/s/1hg2hubsn3geuu4gubbhczw كلمة المرور 7p3n) | 2018/11/6 | oppo | تأتي مجموعة البيانات هذه من سيناريو البحث في الوقت الفعلي OPPO للهاتف المحمول. يعيد هذا السيناريو نتائج الاستعلام في الوقت الفعلي حيث يدخل المستخدم باستمرار. تم تبسيط مجموعة البيانات هذه وفقًا لذلك على هذا الأساس ، مما يوفر مطابقة دلالية للاستعلام ، أي مشكلة التنبؤ بنك نسبة النقر إلى الظهور. | مطابقة عنوان السؤال ، التنبؤ بنرويسة النواب | مطابقة التشابه | |||
| 17 | تقييم نتائج البحث على الويب (Sogoue) | 2012 | سوجو | اتفاقية ترخيص بيانات مختبر سوجو | تحتوي مجموعة البيانات هذه على مصطلحات الاستعلام وعناوين URL ذات الصلة وبيانات البحث لفئات الاستعلام. التنسيق هو كما يلي: شروط الاستعلام] urls tquery فئة حيث يتم ضمان وجود عناوين URL في مجموعة الإنترنت المقابلة ؛ "1" في فئة الاستعلام يمثل استعلام التنقل ؛ "2" يمثل استعلام المعلومات. | تقييم أداء محرك البحث التلقائي مع تحليل بيانات النقر إلى الظهور | نوع الاستعلام التنبؤ بمطابقة |
| بطاقة تعريف | عنوان | تاريخ التحديث | مزود مجموعة البيانات | رخصة | يوضح | الكلمات الرئيسية | فئة | عنوان الورق | ملاحظة |
|---|---|---|---|---|---|---|---|---|---|
| 1 | lcsts | 2015/8/6 | تشينغكاي تشن | مجموعة البيانات من Sina Weibo وتحتوي على حوالي مليوني نصية صينية حقيقية. تتضمن كل بيانات حقلين ، مجردة ونص شرحها من قبل المؤلف. هناك 10،666 بيانات تميزت يدويًا بالعلاقة بين النص القصير والملخص ، ويتم زيادة الارتباطات بدورها من 1 إلى 5. | ملخص نص واحد ؛ نص قصير ؛ صلة النص | ملخص النص | ورق | ||
| 2 | مجموعة بيانات ملخص النص الصيني القصير | 2018/6/20 | انه تشنغفانغ | تأتي البيانات من Weibo التي نشرتها Sina Weibo Meatream Media ، بما مجموعه 679،898 قطعة من البيانات. | ملخص نص واحد ؛ نص قصير | ملخص النص | |||
| 3 | صناعة التعليم والتدريب الملخص التلقائي التجريدي الصيني | 2018/6/5 | مجهول | تجمع Corpus مقالات تاريخية من وسائل الإعلام العمودية السائدة في صناعة التعليم والتدريب ، مع حوالي 24،500 قطعة من البيانات ، كل جزء من البيانات بما في ذلك حقلان شرح من قبل المؤلف والجسم. | ملخص نص واحد ؛ التعليم والتدريب | ملخص النص | |||
| 4 | NLPCC2017 Task3 | 2017/11/8 | NLPCC2017 منظم | مجموعة البيانات مشتقة من حقل الأخبار وهي بيانات مهمة مقدمة من NLPCC 2017 ويمكن استخدامها في ملخص النص الواحد. | ملخص نص واحد ؛ أخبار | ملخص النص | |||
| 5 | كأس SHENDE 2018 | 2018/10/11 | منظم مسابقة العاصمة | تأتي البيانات من نص الأخبار ويتم توفيرها من قبل منظم مسابقة DC. إنه يحاكي سيناريوهات العمل ويهدف إلى استخراج الكلمات الأساسية من نصوص الأخبار. والنتيجة النهائية هي تحسين تأثير التوصيات وصور المستخدم. | النصوص النصية ؛ أخبار | ملخص النص | |||
| 6 | كأس بايت 2018 مسابقة التعلم الآلي الدولي | 2018/12/4 | بانسانس | تأتي البيانات من Topbuzz في Bytedance ومقالات حقوق الطبع والنشر المفتوحة. تتضمن مجموعة التدريب حوالي 1.3 مليون معلومات نصية ، و 1000 مقالة في مجموعة التحقق ، و 800 مقالة في مجموعة الاختبار. يتم تصنيف بيانات كل مجموعة اختبار ومجموعة التحقق يدويًا بعناوين متعددة محتملة كبديل إجابة عبر التحرير اليدوي. | ملخص نص واحد ؛ فيديو؛ أخبار | ملخص النص | إنجليزي | ||
| 7 | غرفة الأخبار | 2018/6/1 | جروسكي | تم الحصول على البيانات من البحث والبيانات الوصفية الاجتماعية من عام 1998 إلى عام 2017 واستخدمت مجموعة من الاستراتيجيات التجريدية التي تجمع بين الاستخراج والتجريد ، بما في ذلك 1.3 مليون مقالة وملخصات كتبها المؤلف والمحرر في 38 قسم تحرير المنشور الرئيسي. | ملخص نص واحد ؛ البيانات الوصفية الاجتماعية يبحث | ملخص النص | ورق | إنجليزي | |
| 8 | [DUC/TAC] (https://duc.nist.gov/ https://tac.nist.gov//) | 2014/9/9 | نيست | الاسم الكامل هو مؤتمر مؤتمرات فهم الوثيقة/تحليل النص. مجموعة البيانات مشتقة من خطوط الأخبار ونصوص الويب في المجموعة المستخدمة في مسابقة TAC KBP (TAC Retailder Communy) السنوية. | نص واحد/ملخص نص متعدد ؛ أخبار | ملخص النص | إنجليزي | ||
| 9 | CNN/Daily Mail | 2017/7/31 | Standford | GNU V3 | مجموعة البيانات من CNN و Dailymail على الهواتف المحمولة حوالي مليون بيانات إخبارية كمجموعة لفهم قراءة الماكينة. | ملخص نص متعدد ؛ نص طويل أخبار | ملخص النص | ورق | إنجليزي |
| 10 | مراجعة الأمازون المفاجئة | 2013/3/1 | Standford | تأتي البيانات من مراجعات Amazon Website Shopping ، ويمكنك الحصول على بيانات في كل فئة رئيسية (مثل الطعام والأفلام ، وما إلى ذلك) ، أو يمكنك الحصول على جميع البيانات في وقت واحد. | ملخص نص متعدد ؛ مراجعات التسوق | ملخص النص | إنجليزي | ||
| 11 | Gigaword | 2003/1/28 | ديفيد غراف ، كريستوفر سيري | تتضمن مجموعة البيانات حوالي 950،000 مقالة إخبارية ، يتم استخلاصها حسب عنوان المقالة ، وتنتمي إلى مجموعة بيانات ملخص الجملة الفردية. | ملخص نص واحد ؛ أخبار | ملخص النص | إنجليزي | ||
| 12 | RA-MDS | 2017/9/11 | بيجي لي | الاسم الكامل هو تلخيص متعدد القارئ على دراية متعددة. مجموعة البيانات مشتقة من المقالات الإخبارية ويتم جمعها وتمييزها ومراجعتها من قبل الخبراء. يتم تغطية 45 موضوعًا ، ولكل منها 10 مستندات إخبارية و 4 ملخص نماذج ، تحتوي كل وثيقة إخبارية على 27 جملة ومتوسط 25 كلمة لكل جملة. | ملخص نص متعدد ؛ أخبار؛ وضع العلامات اليدوية | ملخص النص | ورق | إنجليزي | |
| 13 | Tipster Summac | 2003/5/21 | شركة ميتري وجامعة إدنبرة | تتكون البيانات من 183 وثيقة تتميز بمجموعة حساب ولغة (CMP-LG) ، وتُأخذ المستندات من الأوراق التي نشرتها مؤتمر ACL. | ملخص نص متعدد ؛ نص طويل | ملخص النص | إنجليزي | ||
| 14 | ويكيهو | 2018/10/18 | Mahnaz Koupaee | كل بيانات مقالة ، كل مقالة تتكون من فقرات متعددة ، تبدأ كل فقرة بجملة تلخصها. من خلال دمج الفقرات لتشكيل مقالات ومخططات الفقرة لتشكيل الملخصات ، تحتوي النسخة النهائية من مجموعة البيانات على أكثر من 200000 زوج متسلسل طويل. | ملخص نص متعدد ؛ نص طويل | ملخص النص | ورق | إنجليزي | |
| 15 | متعددة الأخبار | 2019/12/4 | أليكس فاببري | البيانات هي من مقالات الإدخال من أكثر من 1500 موقع ويب مختلف وملخص احترافي لـ 56،216 من هذه المقالات التي تم الحصول عليها من موقع Newser.com. | ملخص نص متعدد | ملخص النص | ورق | إنجليزي | |
| 16 | ملخصات ميد | 2018/8/17 | D.Potapov | يتم استخدام مجموعة البيانات لتقييم ملخص الفيديو الديناميكي وتحتوي على تعليقات توضيحية لـ 160 مقطع فيديو ، بما في ذلك 60 مجموعة التحقق من الصحة ، و 100 مجموعة اختبار ، و 10 فئات الأحداث في مجموعة الاختبار. | ملخص نص واحد ؛ تعليقات الفيديو | ملخص النص | ورق | إنجليزي | |
| 17 | bigpatent | 2019/7/27 | شارما | تتضمن مجموعة البيانات 1.3 مليون سجل وثائق براءة اختراع أمريكية وملخصات مكتوبة بشرية تحتوي على هياكل خطاب أكثر ثراءً والكيانات الأكثر شيوعًا. | ملخص نص واحد ؛ براءة اختراع؛ مكتوب | ملخص النص | ورق | إنجليزي | |
| 18 | [NYT] (https://catalog.ldc.upenn.edu/ldc2008t19) | 2008/10/17 | إيفان سانهاوس | الاسم الكامل هو The New York Times ، تحتوي مجموعة البيانات على 150 مقالة تجارية من صحيفة نيويورك تايمز ، وتلتقط جميع المقالات على موقع نيويورك تايمز من نوفمبر 2009 إلى يناير 2010. | ملخص نص واحد ؛ مقال تجاري | ملخص النص | إنجليزي | ||
| 19 | نص الإخبار الإنجليزي | 2002/9/26 | ديفيد غراف | تتكون مجموعة البيانات من بيانات نصية أخبار باللغة الإنجليزية من وكالة الأنباء من شينخوا (جمهورية الصين الشعبية) ، وخدمة الأخبار في نيويورك تايمز وخدمة أسوشيتد برس وورلد نيوز ، وتحتوي على حوالي 375 مليون كلمة. رسوم مجموعة البيانات. | ملخص نص واحد ؛ أخبار | ملخص النص | الصينية والإنجليزية | ||
| 20 | مجموعة بيانات تقارير الحالة القانونية | 2012/10/19 | فيليبو جالجاني | تأتي مجموعة البيانات من القضايا القانونية الأسترالية للمحكمة الفيدرالية لأستراليا (FCA) من 2006 إلى 2009 ، وتحتوي على ما يقرب من 4000 قضية قانونية وملخصها. | ملخص نص واحد ؛ القضية القانونية | ملخص النص | إنجليزي | ||
| واحد وعشرون | 17 الجداول الزمنية | 2015/5/29 | GB Tran | البيانات محتوى مستخرجة من صفحات الويب الخاصة بالمقالات الإخبارية ، بما في ذلك الأخبار من أربع دول: مصر وليبيا واليمن وسوريا. | ملخص نص واحد ؛ أخبار | ملخص النص | ورق | متعدد اللغات | |
| إثنان وعشرون | PTS Corpus | 2018/10/9 | فاي صن | الاسم الكامل هو مجموعة تلخيص عنوان المنتج ، تعرض البيانات ملخص أسماء المنتجات في تطبيقات التجارة الإلكترونية للأجهزة المحمولة | ملخص نص واحد ؛ نص قصير | ملخص النص | ورق | ||
| ثلاثة وعشرين | مجموعات بيانات التلخيص العلمي | 2019/10/26 | سانتوش غوبتا | تم أخذ مجموعة البيانات من Scalantic Scholar Corpus و Arxiv. العنوان/الزوج التجريدي من Scalantic Scholar Corpus ، تصفية جميع الأوراق في مجال الطب الحيوي ويحتوي على 5.8 مليون قطعة من البيانات. بيانات من ARXIV ، التي تحتوي على أزواج العنوان/المجردة من كل ورقة من 1991 إلى 5 يوليو 2019. تحتوي مجموعة البيانات على 10K من البيانات المالية ، و 26 كيلو من البيولوجيا ، و 417 كيلو بايت من الرياضيات ، و 1.57 مليون فيزياء ، و 221 كيلو بايت من CS. | ملخص نص واحد ؛ ورق | ملخص النص | إنجليزي | ||
| أربعة وعشرون | مجموعة تلخيص الوثيقة العلمية والتعليقات التعليقات التوضيحية من مجموعة الجناح NUS | 2019/3/19 | جيدكا | تتضمن مجموعة البيانات أوراقًا بحثية حول اللغويات الحسابية ACL ومعالجة اللغة الطبيعية ، وكذلك الأوراق التي يتم الاستشهاد بها وثلاثة ملخصات الإخراج: ملخص مؤلف تقليدي (ملخص) ، وهو ملخص للمجتمع (مجموعة من بيانات الاقتباس "الاستشهادات") وملخص إنساني كتبه شرح ملحق مدرب ، ومجموعة التدريب تحتوي على 40 مقالة ودعم. | ملخص نص واحد ؛ ورق | ملخص النص | ورق | إنجليزي |
| بطاقة تعريف | عنوان | تاريخ التحديث | مزود مجموعة البيانات | رخصة | يوضح | الكلمات الرئيسية | فئة | عنوان الورق | ملاحظة |
|---|---|---|---|---|---|---|---|---|---|
| 1 | WMT2017 | 2017/2/1 | ورشة عمل EMNLP 2017 حول الترجمة الآلية | تأتي البيانات بشكل أساسي من المؤسستين Europarl Corpus و UN Corpus ، وتأتي مع مقالات تم إعادة استخلاصها من مهمة Commentary Corpus في عام 2017. هذه مجموعة ترجمة مقدمة من مؤتمر EMNLP ، كمعيار للعديد من الآثار الورقية لاكتشافها | المعيار ، WMT2017 | مواد الترجمة الصينية-الإنجليزية | ورق | ||
| 2 | WMT2018 | 2018/11/1 | ورشة عمل EMNLP 2018 حول الترجمة الآلية | 数据主要来源于Europarl corpus和UN corpus两个机构, 附带2018年从News Commentary corpus 任务中重新抽取的文章。 这是由EMNLP会议提供的翻译语料, 作为很多论文效果的benchmark来检测 | Benchmark, WMT2018 | 中英翻译语料 | ورق | ||
| 3 | WMT2019 | 2019/1/31 | EMNLP 2019 Workshop on Machine Translation | 数据主要来源于Europarl corpus和UN corpus两个机构, 以及附加了news-commentary corpus and the ParaCrawl corpus中来得数据 | Benchmark, WMT2019 | 中英翻译语料 | ورق | ||
| 4 | UM-Corpus:A Large English-Chinese Parallel Corpus | 2014/5/26 | Department of Computer and Information Science, University of Macau, Macau | 由澳门大学发布的中英文对照的高质量翻译语料 | UM-Corpus;English; Chinese;large | 中英翻译语料 | ورق | ||
| 5 | [Ai challenger translation 2017](https://pan.baidu.com/s/1E5gD5QnZvNxT3ZLtxe_boA 提取码: stjf) | 2017/8/14 | 创新工场、搜狗和今日头条联合发起的AI科技竞赛 | 规模最大的口语领域英中双语对照数据集。 提供了超过1000万的英中对照的句子对作为数据集合。 所有双语句对经过人工检查, 数据集从规模、相关度、质量上都有保障。 训练集:10,000,000 句验证集(同声传译):934 句验证集(文本翻译):8000 句 | AI challenger 2017 | 中英翻译语料 | |||
| 6 | MultiUN | 2010 | Department of Linguistics and Philology Uppsala University, Uppsala/Sweden | 该数据集由德国人工智能研究中心提供, 除此数据集外,该网站还提供了很多的别的语言之间的翻译对照语料供下载 | MultiUN | 中英翻译语料 | MultiUN: A Multilingual corpus from United Nation Documents, Andreas Eisele and Yu Chen, LREC 2010 | ||
| 7 | NIST 2002 Open Machine Translation (OpenMT) Evaluation | 2010/5/14 | NIST Multimodal Information Group | LDC User Agreement for Non-Members | 数据来源于Xinhua 新闻服务包含70个新闻故事, 以及来自于Zaobao新闻服务的30个新闻故事,共100个从两个新闻集中选择出来的故事的长度都再212到707个中文字符之间,Xinhua部分共有有25247个字符, Zaobao有39256个字符 | NIST | 中英翻译语料 | ورق | 该系列有多年的数据, 该数据使用需要付费 |
| 8 | The Multitarget TED Talks Task (MTTT) | 2018 | Kevin Duh, JUH | 该数据集包含基于TED演讲的多种语言的平行语料,包含中英文等共计20种语言 | TED | 中英翻译语料 | The Multitarget TED Talks Task | ||
| 9 | ASPEC Chinese-Japanese | 2019 | Workshop on Asian Translation | 该数据集主要研究亚洲区域的语言,如中文和日语之间, 日语和英文之间的翻译任务翻译语料主要来自语科技论文(论文摘要;发明描述;专利等等) | Asian scientific patent Japanese | 中日翻译语料 | http://lotus.kuee.kyoto-u.ac.jp/WAT/ | ||
| 10 | casia2015 | 2015 | research group in Institute of Automation , Chinese Academy of Sciences | 语料库包含从网络自动收集的大约一百万个句子对 | casia CWMT 2015 | 中英翻译语料 | |||
| 11 | casict2011 | 2011 | research group in Institute of Computing Technology , Chinese Academy of Sciences | 语料库包含2个部分,每个部分包含从网络自动收集的大约1百万(总计2百万)个句子对。 句子级别的对齐精度约为90%。 | casict CWMT 2011 | 中英翻译语料 | |||
| 12 | casict2015 | 2015 | research group in Institute of Computing Technology , Chinese Academy of Sciences | 语料库包含大约200万个句子对,包括从网络(60%), 电影字幕(20%)和英语/汉语词库(20%)收集的句子。 句子水平对齐精度高于99%。 | casict CWMT 2015 | 中英翻译语料 | |||
| 13 | datum2015 | 2015 | Datum Data Co., Ltd. | 语料库包含一百万对句子,涵盖不同类型, 例如用于语言教育的教科书,双语书籍, 技术文档,双语新闻,政府白皮书, 政府文档,网络上的双语资源等。 请注意,数据中文部分的某些部分是按词段划分的。 | datum CWMT 2015 | 中英翻译语料 | |||
| 14 | datum2017 | 2017 | Datum Data Co., Ltd. | 语料库包含20个文件,涵盖不同类型,例如新闻,对话,法律文件,小说等。 每个文件有50,000个句子。 整个语料库包含一百万个句子。 前10个文件(Book1-Book10)的中文词均已分段。 | datum CWMT 2017 | 中英翻译语料 | |||
| 15 | neu2017 | 2017 | NLP lab of Northeastern University, China | 语料库包含从网络自动收集的200万个句子对,包括新闻,技术文档等。 句子级别的对齐精度约为90%。 | neu CWMT 2017 | 中英翻译语料 | |||
| 16 | 翻译语料(translation2019zh) | 2019 | 徐亮 | 可以用于训练中英文翻译系统,从中文翻译到英文,或从英文翻译到中文; 由于有上百万的中文句子,可以只抽取中文的句子,做为通用中文语料,训练词向量或做为预训练的语料。英文任务也可以类似操作; |
| بطاقة تعريف | عنوان | 更新日期 | 数据集提供者 | رخصة | يوضح | الكلمات الرئيسية | فئة | 论文地址 | ملاحظة |
|---|---|---|---|---|---|---|---|---|---|
| 1 | NLPIR微博关注关系语料库100万条 | 2017/12/2 | 北京理工大学网络搜索挖掘与安全实验室张华平博士 | NLPIR微博关注关系语料库说明1.NLPIR微博关注关系语料库由北京理工大学网络搜索挖掘与安全实验室张华平博士,通过公开采集与抽取从新浪微博、腾讯微博中获得。为了推进微博计算的研究,现通过自然语言处理与信息检索共享平台(127.0.0.1/wordpress)予以公开共享其中的1000万条数据(目前已有数据接近10亿,已经剔除了大量的冗余数据); 2.本语料库在公开过程中,已经最大限度地采用技术手段屏蔽了用户真实姓名和url,如果涉及到的用户需要全面保护个人隐私的,可以Email给张华平博士[email protected]予以删除,对给您造成的困扰表示抱歉,并希望谅解; 3.只适用于科研教学用途,不得作为商用;引用本语料库,恭请在软件或者论文等成果特定位置表明出处为:NLPIR微博语料库,出处为自然语言处理与信息检索共享平台(http://www.nlpir.org/)。 4.字段说明: person_id 人物的id guanzhu_id 所关注人的id |
| بطاقة تعريف | عنوان | 更新日期 | 数据集提供者 | رخصة | يوضح | الكلمات الرئيسية | فئة | 论文地址 | ملاحظة |
|---|---|---|---|---|---|---|---|---|---|
| 1 | NLPIR微博内容语料库-23万条 | 2017年12月 | 北京理工大学网络搜索挖掘与安全实验室张华平博士 | NLPIR微博内容语料库说明1.NLPIR微博内容语料库由北京理工大学网络搜索挖掘与安全实验室张华平博士,通过公开采集与抽取从新浪微博、腾讯微博中获得。为了推进微博计算的研究,现通过自然语言处理与信息检索共享平台(127.0.0.1/wordpress)予以公开共享其中的23万条数据(目前已有数据接近1000万,已经剔除了大量的冗余数据)。 2.本语料库在公开过程中,已经最大限度地采用技术手段屏蔽了用户真实姓名和url,如果涉及到的用户需要全面保护个人隐私的,可以Email给张华平博士[email protected]予以删除,对给您造成的困扰表示抱歉,并希望谅解; 3.只适用于科研教学用途,不得作为商用;引用本语料库,恭请在软件或者论文等成果特定位置表明出处为:NLPIR微博语料库,出处为自然语言处理与信息检索共享平台(http://www.nlpir.org/)。 4.字段说明: id 文章编号article 正文discuss 评论数目insertTime 正文插入时间origin 来源person_id 所属人物的id time 正文发布时间transmit 转发 | |||||
| 2 | 500万微博语料 | 2018年1月 | 北京理工大学网络搜索挖掘与安全实验室张华平博士 | 【500万微博语料】北理工搜索挖掘实验室主任@ICTCLAS张华平博士提供500万微博语料供大家使用,文件为sql文件,只能导入mysql数据库,内含建表语句,共500万数据。语料只适用于科研教学用途,不得作为商用;引用本语料库,请在软件或者论文等成果特定位置表明出处。 【看起来这份数据比上面那一份要杂糅一些,没有做过处理】 | |||||
| 3 | NLPIR新闻语料库-2400万字 | 2017年7月 | www.NLPIR.org | NLPIR新闻语料库说明1.解压缩后数据量为48MB,大约2400万字的新闻; 2.采集的新闻时间跨度为2009年10月12日至2009年12月14日。 3.文件名为新闻的时间;每个文件包括多个新闻正文内容(已经去除了新闻的垃圾信息); 4.新闻本身内容的版权属于原作者或者新闻机构; 5.整理后的语料库版权属于www.NLPIR.org; 6.可供新闻分析、自然语言处理、搜索等应用提供测试数据场景; 如需更大规模的语料库,可以联系NLPIR.org管理员。 | |||||
| 4 | NLPIR微博关注关系语料库100万条 | 2017年12月 | 北京理工大学网络搜索挖掘与安全实验室张华平博士 | NLPIR微博关注关系语料库说明1.NLPIR微博关注关系语料库由北京理工大学网络搜索挖掘与安全实验室张华平博士,通过公开采集与抽取从新浪微博、腾讯微博中获得。为了推进微博计算的研究,现通过自然语言处理与信息检索共享平台(127.0.0.1/wordpress)予以公开共享其中的1000万条数据(目前已有数据接近10亿,已经剔除了大量的冗余数据); 2.本语料库在公开过程中,已经最大限度地采用技术手段屏蔽了用户真实姓名和url,如果涉及到的用户需要全面保护个人隐私的,可以Email给张华平博士[email protected]予以删除,对给您造成的困扰表示抱歉,并希望谅解; 3.只适用于科研教学用途,不得作为商用;引用本语料库,恭请在软件或者论文等成果特定位置表明出处为:NLPIR微博语料库,出处为自然语言处理与信息检索共享平台(http://www.nlpir.org/)。 4.字段说明: person_id 人物的id guanzhu_id 所关注人的id | |||||
| 5 | NLPIR微博博主语料库100万条 | 2017年9月 | 北京理工大学网络搜索挖掘与安全实验室张华平博士 | NLPIR微博博主语料库说明1.NLPIR微博博主语料库由北京理工大学网络搜索挖掘与安全实验室张华平博士,通过公开采集与抽取从新浪微博、腾讯微博中获得。为了推进微博计算的研究,现通过自然语言处理与信息检索共享平台(127.0.0.1/wordpress)予以公开共享其中的100万条数据(目前已有数据接近1亿,已经剔除了大量的冗余与机器粉丝) 2.本语料库在公开过程中,已经最大限度地采用技术手段屏蔽了用户真实姓名和url,如果涉及到的用户需要全面保护个人隐私的,可以Email给张华平博士[email protected]予以删除,对给您造成的困扰表示抱歉,并希望谅解; 3.只适用于科研教学用途,不得作为商用;引用本语料库,恭请在软件或者论文等成果特定位置表明出处为:NLPIR微博语料库,出处为自然语言处理与信息检索共享平台(http://www.nlpir.org/)。 4.字段说明: id 内部id sex 性别address 家庭住址fansNum 粉丝数目summary 个人摘要wbNum 微博数量gzNum 关注数量blog 博客地址edu 教育情况work 工作情况renZh 是否认证brithday 生日; | |||||
| 6 | NLPIR短文本语料库-40万字 | 2017年8月 | 北京理工大学网络搜索挖掘与安全实验室(SMS@BIT) | NLPIR短文本语料库说明1.解压缩后数据量为48万字,大约8704篇短文本内容; 2.整理后的语料库版权属于www.NLPIR.org; 3.可供短文本自然语言处理、搜索、舆情分析等应用提供测试数据场景; | |||||
| 7 | 维基百科语料库 | 维基百科 | 维基百科会定期打包发布语料库 | ||||||
| 8 | 古诗词数据库 | 2020年 | github主爬虫,http://shici.store | ||||||
| 9 | 保险行业语料库 | 2017年 | 该语料库包含从网站Insurance Library 收集的问题和答案。 据我们所知,这是保险领域首个开放的QA语料库: 该语料库的内容由现实世界的用户提出,高质量的答案由具有深度领域知识的专业人士提供。 所以这是一个具有真正价值的语料,而不是玩具。 在上述论文中,语料库用于答复选择任务。 另一方面,这种语料库的其他用法也是可能的。 例如,通过阅读理解答案,观察学习等自主学习,使系统能够最终拿出自己的看不见的问题的答案。 数据集分为两个部分“问答语料”和“问答对语料”。问答语料是从原始英文数据翻译过来,未经其他处理的。问答对语料是基于问答语料,又做了分词和去标去停,添加label。所以,"问答对语料"可以直接对接机器学习任务。如果对于数据格式不满意或者对分词效果不满意,可以直接对"问答语料"使用其他方法进行处理,获得可以用于训练模型的数据。 | ||||||
| 10 | 汉语拆字字典 | 1905年7月 | 本倉庫含開放詞典網用以提供字旁和部件查詢的拆字字典數據庫,有便利使用者查難打漢字等用途。目前數據庫收錄17,803不同漢字的拆法,分為繁體字(chaizi-ft.txt)和簡體字(chaizi-jt.txt)兩個版本。 拆字法有別於固有的筆順字庫。拆字著重於儘量把每個字拆成兩個以上的組成部件,而不是拆成手寫字時所使用的筆畫。 | ||||||
| 11 | 新闻预料 | 2016年 | 徐亮 | 可以做为【通用中文语料】,训练【词向量】或做为【预训练】的语料; 也可以用于训练【标题生成】模型,或训练【关键词生成】模型(选关键词内容不同于标题的数据); 亦可以通过新闻渠道区分出新闻的类型。 | |||||
| 12 | 百科类问答json版(baike2018qa) | 2018年 | 徐亮 | 可以做为通用中文语料,训练词向量或做为预训练的语料;也可以用于构建百科类问答;其中类别信息比较有用,可以用于做监督训练,从而构建更好句子表示的模型、句子相似性任务等。 | |||||
| 13 | 社区问答json版(webtext2019zh) :大规模高质量数据集 | 2019 | 徐亮 | 1)构建百科类问答:输入一个问题,构建检索系统得到一个回复或生产一个回复;或根据相关关键词从,社区问答库中筛选出你相关的领域数据2)训练话题预测模型:输入一个问题(和或描述),预测属于话题。 3)训练社区问答(cQA)系统:针对一问多答的场景,输入一个问题,找到最相关的问题,在这个基础上基于不同答案回复的质量、 问题与答案的相关性,找到最好的答案。 4)做为通用中文语料,做大模型预训练的语料或训练词向量。其中类别信息也比较有用,可以用于做监督训练,从而构建更好句子表示的模型、句子相似性任务等。 5)结合点赞数量这一额外信息,预测回复的受欢迎程度或训练答案评分系统。 | |||||
| 14 | .维基百科json版(wiki2019zh) | 2019 | 徐亮 | 可以做为通用中文语料,做预训练的语料或构建词向量,也可以用于构建知识问答。【不同于wiki原始释放的数据集,这个处理过了】 |
| بطاقة تعريف | عنوان | 更新日期 | 数据集提供者 | رخصة | يوضح | الكلمات الرئيسية | فئة | 论文地址 | ملاحظة |
|---|---|---|---|---|---|---|---|---|---|
| 1 | 百度WebQA | 2016 | 百度 | 来自于百度知道;格式为一个问题多篇意思基本一致的文章,分为人为标注以及浏览器检索 | 阅读理解、百度知道真实问题 | 中文阅读理解 | ورق | ||
| 2 | DuReader 1.0 | 2018/3/1 | 百度 | Apache2.0 | 本次竞赛数据集来自搜索引擎真实应用场景,其中的问题为百度搜索用户的真实问题,每个问题对应5个候选文档文本及人工整理的优质答案。 | 阅读理解、百度搜索真实问题 | 中文阅读理解 | ورق | |
| 3 | SogouQA | 2018 | 搜狗 | CIPS-SOGOU问答比赛数据;来自于搜狗搜索引擎真实用户提交的查询请求;含有事实类与非事实类数据 | 阅读理解、搜狗搜索引擎真实问题 | 中文阅读理解 | |||
| 4 | 中文法律阅读理解数据集CJRC | 2019/8/17 | 哈工大讯飞联合实验室(HFL) | 数据集包含约10,000篇文档,主要涉及民事一审判决书和刑事一审判决书。通过抽取裁判文书的事实描述内容,针对事实描述内容标注问题,最终形成约50,000个问答对 | 阅读理解、中文法律领域 | 中文阅读理解 | ورق | ||
| 5 | 2019“讯飞杯”中文机器阅读理解数据集(CMRC ) | 2019年10月 | 哈工大讯飞联合实验室(HFL) | CC-BY-SA-4.0 | 本次阅读理解的任务是句子级填空型阅读理解。 根据给定的一个叙事篇章以及若干个从篇章中抽取出的句子,参赛者需要建立模型将候选句子精准的填回原篇章中,使之成为完整的一篇文章。 | 句子级填空型阅读理解 | 中文阅读理解 | 赛事官网:https://hfl-rc.github.io/cmrc2019/ | |
| 6 | 2018“讯飞杯”中文机器阅读理解数据集(CMRC ) | 2018/10/19 | 哈工大讯飞联合实验室(HFL) | CC-BY-SA-4.0 | CMRC 2018数据集包含了约20,000个在维基百科文本上人工标注的问题。同时,我们还标注了一个挑战集,其中包含了需要多句推理才能够正确解答的问题,更富有挑战性 | 阅读理解、基于篇章片段抽取 | 中文阅读理解 | ورق | 赛事官网:https://hfl-rc.github.io/cmrc2018/ |
| 7 | 2017“讯飞杯”中文机器阅读理解数据集(CMRC ) | 2017/10/14 | 哈工大讯飞联合实验室(HFL) | CC-BY-SA-4.0 | 首个中文填空型阅读理解数据集PD&CFT | 填空型阅读理解 | 中文阅读理解 | ورق | 赛事官网 |
| 8 | 莱斯杯:全国第二届“军事智能机器阅读”挑战赛 | 2019/9/3 | 中电莱斯信息系统有限公司 | 面向军事应用场景的大规模中文阅读理解数据集,围绕多文档机器阅读理解进行竞赛,涉及理解、推理等复杂技术。 | 多文档机器阅读理解 | 中文阅读理解 | 赛事官网 | ||
| 9 | ReCO | 2020 | 搜狗 | 来源于搜狗的浏览器用户输入;有多选和直接答案 | 阅读理解、搜狗搜索 | 中文阅读理解 | ورق | ||
| 10 | DuReader-checklist | 2021/3 | 百度 | Apache-2.0 | 建立了细粒度的、多维度的评测数据集,从词汇理解、短语理解、语义角色理解、逻辑推理等多个维度检测模型的不足之处,从而推动阅读理解评测进入“精细化“时代 | 细粒度阅读理解 | 中文阅读理解 | 赛事官网 | |
| 11 | DuReader-Robust | 2020/8 | 百度 | Apache-2.0 | 从过敏感性,过稳定性以及泛化性多个维度构建了测试阅读理解鲁棒性的数据 | 百度搜索、鲁棒性阅读理解 | 中文阅读理解 | ورق | 赛事官网 |
| 12 | DuReader-YesNo | 2020/8 | 百度 | Apache-2.0 | DuReader yesno是一个以观点极性判断为目标任务的数据集,可以弥补抽取类数据集评测指标的缺陷,从而更好地评价模型对观点极性的理解能力。 | 观点型阅读理解 | 中文阅读理解 | 赛事官网 | |
| 13 | DuReader2.0 | 2021 | 百度 | Apache-2.0 | DuReader2.0是全新的大规模中文阅读理解数据,来源于用户真实输入,真实场景 | القراءة الفهم | 中文阅读理解 | ورق | 赛事官网 |
| 14 | CAIL2020 | 2020 | 哈工大讯飞联合实验室(HFL) | 中文司法阅读理解任务,今年我们将提出升级版,不仅文书种类由民事、刑事扩展为民事、刑事、行政,问题类型也由单步预测扩展为多步推理,难度有所升级。 | 法律阅读理解 | 中文阅读理解 | 赛事官网 | ||
| 15 | CAIL2021 | 2021 | 哈工大讯飞联合实验室(HFL) | 中文法律阅读理解比赛引入多片段回答的问题类型,即部分问题需要抽取文章中的多个片段组合成最终答案。希望多片段问题类型的引入,能够扩大中文机器阅读理解的场景适用性。本次比赛依旧保留单片段、是否类和拒答类的问题类型。 | 法律阅读理解 | 中文阅读理解 | 赛事官网 | ||
| 16 | CoQA | 2018/9 | 斯坦福大学 | CC BY-SA 4.0、Apache等 | CoQA是面向建立对话式问答系统的大型数据集,挑战的目标是衡量机器对文本的理解能力,以及机器面向对话中出现的彼此相关的问题的回答能力的高低 | 对话问答 | 英文阅读理解 | ورق | 官方网站 |
| 17 | SQuAD2.0 | 2018/1/11 | 斯坦福大学 | 行业内公认的机器阅读理解领域的顶级水平测试;它构建了一个包含十万个问题的大规模机器阅读理解数据集,选取超过500 篇的维基百科文章。数据集中每一个阅读理解问题的答案是来自给定的阅读文章的一小段文本—— 以及,现在在SQuAD 2.0 中还要判断这个问题是否能够根据当前的阅读文本作答 | 问答、包含未知答案 | 英文阅读理解 | ورق | ||
| 18 | SQuAD1.0 | 2016 | 斯坦福大学 | 斯坦福大学于2016年推出的阅读理解数据集,给定一篇文章和相应问题,需要算法给出问题的答案。此数据集所有文章选自维基百科,一共有107,785问题,以及配套的536 篇文章 | 问答、基于篇章片段抽取 | 英文阅读理解 | ورق | ||
| 19 | MCTest | 2013 | 微软 | 100,000个必应Bing问题和人工生成的答案。从那时起,相继发布了1,000,000个问题数据集,自然语言生成数据集,段落排名数据集,关键词提取数据集,爬网数据集和会话搜索。 | 问答、搜索 | 英文阅读理解 | ورق | ||
| 20 | CNN/Dailymail | 2015 | DeepMind | Apache-2.0 | 填空型大规模英文机器理解数据集,答案是原文中的某一个词。 CNN数据集包含美国有线电视新闻网的新闻文章和相关问题。大约有90k文章和380k问题。 Dailymail数据集包含每日新闻的文章和相关问题。大约有197k文章和879k问题。 | 问答对、填空型阅读理解 | 英文阅读理解 | ورق | |
| واحد وعشرون | سباق | 2017 | 卡耐基梅隆大学 | / | 数据集为中国中学生英语阅读理解题目,给定一篇文章和5 道4 选1 的题目,包括了28000+ passages 和100,000 问题。 | 选择题形式 | 英文阅读理解 | ورق | 下载需邮件申请 |
| إثنان وعشرون | HEAD-QA | 2019 | aghie | MIT | 一个面向复杂推理的医疗保健、多选问答数据集。提供英语、西班牙语两种形式的数据 | 医疗领域、选择题形式 | 英文阅读理解西班牙语阅读理解 | ورق | |
| ثلاثة وعشرين | Consensus Attention-based Neural Networks for Chinese Reading Comprehension | 2018 | 哈工大讯飞联合实验室 | / | 中文完形填空型阅读理解 | 填空型阅读理解 | 中文阅读理解 | ورق | |
| أربعة وعشرون | WikiQA | 2015 | 微软 | / | WikiQA语料库是一个新的公开的问题和句子对集,收集并注释用于开放域问答研究 | 片段抽取阅读理解 | 英文阅读理解 | ورق | |
| 25 | Children's Book Test (CBT) | 2016 | فيسبوك | / | 测试语言模型如何在儿童书籍中捕捉意义。与标准语言建模基准不同,它将预测句法功能词的任务与预测语义内容更丰富的低频词的任务区分开来 | 填空型阅读理解 | 英文阅读理解 | ورق | |
| 26 | NewsQA | 2017 | Maluuba Research | / | 一个具有挑战性的机器理解数据集,包含超过100000个人工生成的问答对,根据CNN的10000多篇新闻文章提供问题和答案,答案由相应文章的文本跨度组成。 | 片段抽取阅读理解 | 英文阅读理解 | ورق | |
| 27 | Frames dataset | 2017 | 微软 | / | 介绍了一个由1369个人类对话组成的框架数据集,平均每个对话15轮。开发这个数据集是为了研究记忆在目标导向对话系统中的作用。 | 阅读理解、对话 | 英文阅读理解 | ورق | |
| 28 | Quasar | 2017 | 卡内基梅隆大学 | BSD-2-Clause | 提出了两个大规模数据集。Quasar-S数据集由37000个完形填空式查询组成,这些查询是根据流行网站Stack overflow 上的软件实体标记的定义构造的。网站上的帖子和评论是回答完形填空问题的背景语料库。Quasar-T数据集包含43000个开放域琐事问题及其从各种互联网来源获得的答案。 | 片段抽取阅读理解 | 英文阅读理解 | ورق | |
| 29 | MS MARCO | 2018 | 微软 | / | 微软基于搜索引擎BING 构建的大规模英文阅读理解数据集,包含10万个问题和20万篇不重复的文档。MARCO 数据集中的问题全部来自于BING 的搜索日志,根据用户在BING 中输入的真实问题模拟搜索引擎中的真实应用场景,是该领域最有应用价值的数据集之一。 | 多文档 | 英文阅读理解 | ورق | |
| 30 | 中文完形填空 | 2016年 | 崔一鸣 | 首个中文填空型阅读理解数据集PD&CFT, 全称People Daily and Children's Fairy Tale, 数据来源于人民日报和儿童故事。 | 填空型阅读理解 | 中文完形填空 | ورق | ||
| 31 | NLPCC ICCPOL2016 | 2016.12.2 | NLPCC主办方 | 基于文档中的句子人工合成14659个问题,包括14K中文篇章。 | 问答对阅读理解 | 中文阅读理解 |
感谢以下同学的贡献(排名不分先后)
郑少棉、李明磊、李露、叶琛、薛司悦、章锦川、李小昌、李俊毅
يمكنك المساهمة في قوتك عن طريق تحميل معلومات مجموعة البيانات. بعد تحميل خمس مجموعات بيانات أو أكثر ومراجعتها ، يمكن استخدام الطالب كمساهم في المشروع وعرضها.
Share your data set with community or make a contribution today! Just send email to chineseGLUE#163.com,
or join QQ group: 836811304