Китайский и английский набор данных NLP. Вы можете нажать, чтобы искать.
Вы можете внести свой вклад, загрузив информацию набора данных. После загрузки пять или более наборов данных и просмотра их, студент может использоваться в качестве автора проекта и отобразить их.
Clueai Toolkit: три минуты и три строки кода для завершения разработки NLP (нулевое обучение образца)

Если есть какие -либо проблемы с набором данных, отправьте проблему.
Все наборы данных взяты из Интернета и организованы только для легкой извлечения. Если есть какие -либо нарушения или другие проблемы, пожалуйста, свяжитесь с нами вовремя, чтобы удалить их.
| ИДЕНТИФИКАТОР | заголовок | Обновление даты | Поставщик наборов данных | лицензия | иллюстрировать | Ключевые слова | категория | Бумажный адрес | Примечание |
|---|---|---|---|---|---|---|---|---|---|
| 1 | CCKS2017 Китайский электронный корпус именование сущностей | Май 2017 года | Пекин Jimuyun Health Technology Co., Ltd. | Данные поступают из реальных данных электронных медицинских карт платформы облачных больниц, в общей сложности 800 пунктов (отчет о одиночном посещении одного пациента), и их лечили десенсибилизацией. | Электронная медицинская карта | Названное признание сущности | китайский | ||
| 2 | CCKS2018 Китайский электронный корпус именование сущностей | 2018 | Yidu Cloud (Пекин) Technology Co., Ltd. | Задача оценки Electronic Medical Record Antysing Entity Complysing Entity Discovers составляет 600 отмеченными текстами электронных медицинских карт, которые требуют в общей сложности пять организаций, включая анатомические детали, независимые симптомы, описания симптомов, хирургическое вмешательство и лекарства. | Электронная медицинская карта | Названное признание сущности | китайский | ||
| 3 | Набор данных идентификации MSRA в MSRA в Microsoft Asia Research Institute | MSRA | Данные поступают из MSRA, форма маркировки - биография, а в общей сложности 46 365 записей - | MSRA | Названное признание сущности | китайский | |||
| 4 | 1998 г. Набор аннотаций идентификации организации. | Январь 1998 | Люди ежедневно | Источник данных - это ежедневно в 1998 году, а форма маркировки - биография, в общей сложности 23 061 записи. | 98 человек ежедневно | Названное признание сущности | китайский | ||
| 5 | Бозон | Bosen Data | Источником данных является бозон, форма маркировки - BMEO, и в общей сложности есть 2000 записей | Бозон | Названное признание сущности | китайский | |||
| 6 | Подсказка мелкозернистая | 2020 | ЗАЦЕПКА | Набор данных CLUENER2020 основан на наборе данных Text Classification Thuctc Университета Цинхуа, который выбирает некоторые данные для мелкозернистого аннотации сущности именования. Первоначальные данные поступают из Sina News RSS. Данные содержит 10 категорий метки, учебный набор составляет 10 748 корпусов, а набор проверки составляет 1 343 корпуса. | Мелкозернистый; Куле | Названное признание сущности | китайский | ||
| 7 | Conll-2003 | 2003 | УНТ - Группа языковых технологий | Данные поступают из задачи CONLL-2003, которая аннотирует четыре категории, в том числе PER, LOC, ORG и MISC | Conll-2003 | Названное признание сущности | бумага | Английский | |
| 8 | Признание сущности Вейбо | 2015 | https://github.com/hltcoe/golden-horse | EMNLP-2015 | Названное признание сущности | ||||
| 9 | Sighan Bakeoff 2005 | 2005 | MSR/PKU | Bakeoff-2005 | Названное признание сущности |
| ИДЕНТИФИКАТОР | заголовок | Обновление даты | Поставщик наборов данных | лицензия | иллюстрировать | Ключевые слова | категория | Бумажный адрес | Примечание |
|---|---|---|---|---|---|---|---|---|---|
| 1 | Newsqa | 2019/9/13 | Microsoft Research Institute | Цель набора данных Maluuba Newsqa состоит в том, чтобы помочь исследовательским сообществам создавать алгоритмы, которые могут ответить на вопросы, которые требуют понимания человека и навыков рассуждения. Он содержит более 12 000 новостных статей и 120 000 ответов, в среднем 616 слов за статью и от 2 до 3 ответов за вопрос. | Английский | QA | бумага | ||
| 2 | Отряд | Стэнфорд | Стэнфордский набор данных вопросов и ответов (Squad) - это набор данных по пониманию прочитанного, состоящий из вопросов, поднятых на наборе статей о Википедии, где ответ на каждый вопрос - это абзац текста, который может исходить из соответствующего параграфа для чтения, или вопрос может быть без ответа. | Английский | QA | бумага | |||
| 3 | Простые вопросы | Масштабная система простых вопросов и ответов, основанная на сетях хранения, набор данных предоставляет многозадачный набор данных и ответов на 100 тыс. Ответ на простые вопросы. | Английский | QA | бумага | ||||
| 4 | Викика | 2016/7/14 | Microsoft Research Institute | Чтобы отразить реальные информационные потребности обычных пользователей, Wikiqa использует журналы Bing запросов в качестве источника проблемы. Каждый вопрос ссылается на страницу в Википедии, на которой могут быть ответы. Поскольку в разделе «Сводка» на странице Википедии содержится основная и часто самая важная информация по этой теме, предложения в этом разделе используются в качестве ответов кандидатов. С помощью краудсорсинга набор данных включает в себя 3047 вопросов и 29258 предложений, из которых 1473 предложения помечены как предложения ответа для соответствующего вопроса. | Английский | QA | бумага | ||
| 5 | CMEDQA | 2019/2/25 | Чжан Шэн | Данные с медицинского онлайн -форума содержат 54 000 вопросов и соответствующие приблизительно 100 000 ответов. | китайский | QA | бумага | ||
| 6 | CMEDQA2 | 2019/1/9 | Чжан Шэн | Расширенная версия CMEDQA содержит около 100 000 вопросов, связанных с медицинской помощью, и соответствует около 200 000 ответов. | китайский | QA | бумага | ||
| 7 | webmedqa | 2019/3/10 | Он Junqing | Медицинский онлайн -набор вопросов и ответов, содержащий 60 000 вопросов и 310 000 ответов, и содержит категории вопросов. | китайский | QA | бумага | ||
| 8 | Xqa | 2019/7/29 | Университет Цингхуа | В этой статье в основном создается открытый набор вопросов и ответов на межязык для открытого вопроса и ответа. Набор данных (обучающий набор, набор тестов) в основном включает в себя девять языков и более 90 000 вопросов и ответов. | Многоязычный | QA | бумага | ||
| 9 | Amazonqa | 2019/9/29 | Амазонка | Университет Карнеги-Меллона предложил задачу модели QA на основе комментариев в ответ на болевые точки повторяющихся ответов на вопросы на платформе Amazon, то есть использование предыдущих вопросов и ответов для ответа на определенный продукт, система QA автоматически суммирует ответ клиентам. | Английский | QA | бумага | ||
| 9 | Amazonqa | 2019/9/29 | Амазонка | Университет Карнеги-Меллона предложил задачу модели QA на основе комментариев в ответ на болевые точки повторяющихся ответов на вопросы на платформе Amazon, то есть использование предыдущих вопросов и ответов для ответа на определенный продукт, система QA автоматически суммирует ответ клиентам. | Английский | QA | бумага |
| ИДЕНТИФИКАТОР | заголовок | Обновление даты | Поставщик наборов данных | лицензия | иллюстрировать | Ключевые слова | категория | Бумажный адрес | Примечание |
|---|---|---|---|---|---|---|---|---|---|
| 1 | NLPCC2013 | 2013 | CCF | Weibo Corpus, отмеченный 7 эмоциями: как, отвращение, счастье, грусть, гнев, удивление, страх. Размер: 14 000 постов Weibo, 45 431 предложения | NLPCC2013, эмоция | Анализ настроений | бумага | ||
| 2 | NLPCC2014 TASK1 | 2014 | CCF | Weibo Corpus, отмеченный 7 эмоциями: как, отвращение, счастье, грусть, гнев, удивление, страх. Размер: 20 000 постов Weibo | NLPCC2014, эмоция | Анализ настроений | |||
| 3 | NLPCC2014 Task2 | 2014 | CCF | Корпус Weibo, отмеченный положительным и отрицательным | NLPCC2014, настроение | Анализ настроений | |||
| 4 | Weibo Emotion Corpus | 2016 | Гонконгский политехнический университет | Weibo Corpus, отмеченный 7 эмоциями: как, отвращение, счастье, грусть, гнев, удивление, страх. Размер: более 40 000 постов Weibo | Weibo Emotion Corpus | Анализ настроений | Эмоциональный корпус строительство на основе отбора из шумных естественных лейблов | ||
| 5 | [Rencecps] (Fuji Ren можно связаться ([email protected]) для лицензионного соглашения.) | 2009 | Fuji Ren | Аннотированный корпус блога, отмеченный эмоциями и настроениями на уровне документов, уровнем абзаца и уровнем предложения. Он содержит 1500 блогов, 11000 абзацев и 35000 предложений. | Rencecps, эмоции, чувства | Анализ настроений | Строительство блога эмоционального корпуса для китайского анализа эмоционального выражения | ||
| 6 | weibo_senti_100k | Неизвестный | Неизвестный | Пометьте Sina Weibo эмоциями, и есть около 50 000 положительных и негативных комментариев каждый | Weibo Senti, настроение | Анализ настроений | |||
| 7 | BDCI2018-автомобильная индустрия мнения и эмоциональное признание | 2018 | CCF | Комментарии к автомобилям на автомобильном форуме отмечают темы поэзии автомобиля: мощность, цена, интерьер, конфигурация, безопасность, внешний вид, обработку, расход топлива, пространство и комфорт. Каждая тема отмечена эмоциональными этикетками, а эмоции разделены на 3 категории, с числами 0, 1 и -1, соответственно, представляют собой нейтральный, положительный и отрицательный. | АНТИБОРЫ АНТИЗА АНТИБОЛЮТ АНАЛИЗ ТЕМЫ ТЕМЫ | Анализ настроений | |||
| 8 | Анализ настроений пользователей AI Challenger Comments | 2O18 | Meituan | Обзоры общественного питания, 6 атрибутов первого уровня, 20 атрибутов второго уровня, каждый атрибут помечен положительным, отрицательным, нейтральным и не упомянутым. | Анализ настроений атрибута | Анализ настроений | |||
| 9 | BDCI2019 Финансовая информация негативная и определение предмета | 2019 | Центральный банк | Финансовые полевые новости, каждый образец помечает список организаций, а также список негативных организаций. Задача состоит в том, чтобы определить, является ли выборка отрицательной и соответствующей отрицательной сущностью. | Анализ настроений сущности | Анализ настроений | |||
| 10 | Обзор электронной коммерции Кубка Чжиджян и соревнование по копанию мнений | 2019 | Жицзян Лаборатория | Задача изучения мнений обзоров брендов состоит в том, чтобы извлечь характеристики атрибутов продукта и мнения потребителей из обзоров продуктов, а также подтвердить их эмоциональную полярность и типы атрибутов. Для определенной особенности атрибута продукта есть серия слов мнения, которые описывают его, которые представляют взгляды потребителей на функцию атрибута. Каждый набор характеристик атрибута продукта, мнение потребителя} имеет соответствующую эмоциональную полярность (отрицательную, нейтральную, положительную), представляющая удовлетворение потребителя этим атрибутом. Кроме того, несколько функций атрибута могут быть классифицированы в определенный тип атрибута, такие как внешний вид, поле и другие функции атрибута, могут быть классифицированы в тип атрибута упаковки. Участвующие команды в конечном итоге представит извлеченную информацию о прогнозировании данных тестовых данных, включая четыре поля: характеристика атрибута, слово мнения, полярность мнения и тип атрибутов. | Анализ настроений атрибута | Анализ настроений | |||
| 11 | Соревнование по алгоритму кампуса в 2019 году | 2019 | Соху | Учитывая несколько статей, цель состоит в том, чтобы судить основную сущность статьи и ее эмоциональное отношение к основной сущности. Каждая статья идентифицирует до трех основных сущностей и определяет эмоциональные тенденции статьи по отношению к вышеуказанным основным объектам (положительно, нейтрально и отрицательно). Сущность: люди, объекты, регионы, учреждения, группы, предприятия, отрасли, определенные конкретные события и т. Д. Используются и могут использоваться в качестве слова сущности для предмета статьи. Основная сущность: слово сущности, которое в основном описывает или действует как основная роль статьи. | Анализ настроений сущности | Анализ настроений |
| ИДЕНТИФИКАТОР | заголовок | Обновление даты | Поставщик наборов данных | лицензия | иллюстрировать | Ключевые слова | категория | Бумажный адрес | Примечание |
|---|---|---|---|---|---|---|---|---|---|
| 1 | [2018 "Daguan Cup" Text Intelligent Resecking Challenge] (https://www.pkbigdata.com/common/cmpt/ "Daguan Cup" Текст интеллектуальная обработка задачи задач и data.html) | Июль 2018 года | Оптимистичные данные | Набор данных поступает из оптимистичных данных и представляет собой длинную задачу классификации текста. В основном он включает в себя четыре поля: ID, статья, Word_seg и класс. Данные содержат 19 категорий, на общую сумму 102 275 образцов. | Длинный текст; десенсибилизация | Текстовая классификация | китайский | ||
| 2 | Сегодняшняя заголовок китайских новостей (текст) | Май 2018 года | Сегодняшние заголовки | Набор данных поступает сегодня от Toutiao и является задачей классификации короткого текста. Данные содержат 15 категорий, на общую сумму 382 688 образцов. | короткий текст; новости | Текстовая классификация | китайский | ||
| 3 | Классификация текста Thucnews китайского текста | 2016 | Университет Цингхуа | Thucnews генерируется на основе исторической фильтрации данных и фильтрации канала подписки Sina News RSS в период с 2005 по 2011 год, и все в формате простого текста UTF-8. Основываясь на оригинальной системе классификации Sina News, мы реинтегрировали и разделили 14 категорий классификации кандидатов: финансы, лотерея, недвижимость, акции, дом, образование, технологии, общество, мода, текущие дела, спорт, знаки зодиака, игры и развлечения, с общим количеством 740 000 новостных документов (2,19 ГБ). | Документация; Новости | Текстовая классификация | китайский | ||
| 4 | Классификация текста китайского университета Фудана Китая | Группа обработки естественного языка, Департамент компьютерной информации и технологий, Университет Фудана, Международный центр баз данных | Набор данных из Университета Фудана и является задачей классификации короткого текста. Данные содержат 20 категорий, в общей сложности 9 804 документа. | Документация; Новости | Текстовая классификация | китайский | |||
| 5 | Название новостей Классификация короткого текста | Декабрь 2019 года | Chenfengshf | CC0 общедоступный доход | Набор данных получен из платформы KESCI и является задачей классификации короткой текстовой классификации для поле заголовка новостей. Большая часть контента - это название короткого текста (длина <50), данные содержат 15 категорий, в общей сложности 38 Вт образцы | Короткий текст; Название новостей | Текстовая классификация | китайский | |
| 6 | 2017 Zhihu Kanshan Cup Cup Machine Learning Challenge | Июнь 2017 года | Китайское общество искусственного интеллекта; Жиху | Набор данных поступает из Zhihu, который представляет собой аннотированные данные для связывания между вопросом и темами. Каждый вопрос имеет 1 или более тегов, в общей сложности 1 999 метров, содержащих в общей сложности 3 миллиона вопросов. | Вопрос; короткий текст | Текстовая классификация | китайский | ||
| 7 | 2019 Кубок Чжиджян - Обзор электронной коммерции. | Август 2019 | Жицзян Лаборатория | Задача изучения мнений обзоров брендов состоит в том, чтобы извлечь характеристики атрибутов продукта и мнения потребителей из обзоров продуктов, а также подтвердить их эмоциональную полярность и типы атрибутов. Для определенной особенности атрибута продукта есть серия слов мнения, которые описывают его, которые представляют взгляды потребителей на функцию атрибута. Каждая группа характеристик атрибута продукта, мнение потребителя} имеет соответствующую эмоциональную полярность (отрицательную, нейтральную, положительную), которая представляет степень удовлетворенности потребителей этим атрибутом. | Комментарии; короткий текст | Текстовая классификация | китайский | ||
| 8 | Классификация длинной текста Iflytek ' | iflytek | Этот набор данных имеет более 17 000 длинных текстов, помеченных данных об описаниях приложений приложений, включая различные темы приложений, связанные с повседневной жизнью, в общей сложности 119 категорий | Длинный текст | Текстовая классификация | китайский | |||
| 9 | Данные классификации новостей по всей сети (Sogouca) | 16 августа 2012 года | Согу | Эти данные поступают из данных новостей из 18 каналов, включая внутренние, международные, спортивные, социальные, развлечения и т. Д. С июня по июль 2012 года. | новости | Текстовая классификация | китайский | ||
| 10 | Sohu News Data (Sogoucs) | Август 2012 | Согу | Источником данных является Sohu News из 18 каналов, включая внутренние, международные, спортивные, социальные, развлечения и т. Д. С июня по июль 2012 года. | новости | Текстовая классификация | китайский | ||
| 11 | Университет науки и технологии Классификация новостей Корпус | Ноябрь 2017 года | Институт автоматизации Лю Ю, Китайская академия наук Комплексный информационный центр | Не могу скачать на данный момент, я связался с автором, ожидая отзывов | новости | ||||
| 12 | Chnsenticorp_htl_all | Март 2018 года | https://github.com/sophonplus/chinesenlpcorpus | Более 7000 данных обзора отелей, более 5000 положительных обзоров, более 2000 отрицательных отзывов | |||||
| 13 | waimai_10k | Март 2018 года | https://github.com/sophonplus/chinesenlpcorpus | Отзывы пользователей, собранные определенной платформой вынос, 4000 положительных и около 8000 отрицательных. | |||||
| 14 | Online_shopping_10_CATS | Март 2018 года | https://github.com/sophonplus/chinesenlpcorpus | Существует 10 категорий, в общей сложности более 60 000 комментариев и около 30 000 положительных и негативных комментариев, включая книги, планшеты, мобильные телефоны, фрукты, шампунь, водонагреватель, Mengniu, одежда, компьютеры, отели | |||||
| 15 | weibo_senti_100k | Март 2018 года | https://github.com/sophonplus/chinesenlpcorpus | Более 100 000 пьес, отмеченные эмоциями на Sina Weibo, и около 50 000 положительных и негативных комментариев каждая | |||||
| 16 | Упростить weabo_4_moods | Март 2018 года | https://github.com/sophonplus/chinesenlpcorpus | Более 360 000 штук, отмеченные эмоциями на Sina Weibo, содержит 4 вида эмоций, в том числе около 200 000 кусочков радости, около 50 000 кусочков гнева, отвращения и депрессии. | |||||
| 17 | DMSC_V2 | Март 2018 года | https://github.com/sophonplus/chinesenlpcorpus | 28 фильмов, более 700 000 пользователей, более 2 миллионов данных о рейтингах/комментариях | |||||
| 18 | yf_dianping | Март 2018 года | https://github.com/sophonplus/chinesenlpcorpus | 240 000 ресторанов, 540 000 пользователей, 4,4 миллиона комментариев/данных о рейтинге | |||||
| 19 | yf_amazon | Март 2018 года | https://github.com/sophonplus/chinesenlpcorpus | 520 000 пунктов, более 1100 категорий, 1,42 миллиона пользователей, 7,2 миллиона комментариев/рейтинговые данные |
| ИДЕНТИФИКАТОР | заголовок | Обновление даты | Поставщик наборов данных | лицензия | иллюстрировать | Ключевые слова | категория | Бумажный адрес | Примечание |
|---|---|---|---|---|---|---|---|---|---|
| 1 | LCQMC | 2018/6/6 | Институт технологий Харбина (Шэньчжэнь) Интеллектуальные вычислительные исследовательские исследования | Creative Commons Attribution 4.0 Международная лицензия | Этот набор данных содержит 260,068 китайских паров вопросов из нескольких полей. Предложение сочетается с тем же запросом намерения, отмеченные 1, иначе они 0; И они сегментированы на обучающий набор: 238 766 пар, набор валидации: 8802 пары, набор тестов: 12 500 пар. | Крупномасштабное сопоставление вопросов; намерение соответствовать | Короткое сопоставление текста; Сопоставление вопросов | бумага | |
| 2 | BQ Corpus | 2018/9/4 | Институт технологического института Харбина (Шэньчжэнь) Интеллектуальные компьютерные исследования; Webank | В этом наборе данных есть 120 000 пар предложений, из журнала консалтинговых услуг банка в течение одного года; Пары предложений содержат различные намерения, отмеченные соотношением 1: 1 положительных и отрицательных образцов. | Банковские вопросы; намерение соответствовать | Короткое сопоставление текста; Обнаружение согласованности вопроса | бумага | ||
| 3 | AFQMC Ant Financial Semantic Semantice сходство | 2018/4/25 | Муравей финансовый | Предоставьте 100 000 пар маркированных данных (обновленные партиями, обновленные) в качестве учебных данных, включая синонимичные пары и различные пар | Финансовые вопросы | Короткое сопоставление текста; Сопоставление вопросов | |||
| 4 | Третий соревнование Paipaidai "Magic Mirror Cup" | 2018/6/10 | Paipaidai Smart Finance Research Institute | Файл Train.csv содержит 3 столбца, а именно этикетку (метка, что означает, что вопрос 1 и вопрос 2 означает то же самое, 1 означает то же самое, а 0 означает разницу), количество вопроса 1 (Q1) и количество вопроса 2 (Q2). Все номера проблем, которые появляются в этом файле, появились в вопросе. | Финансовые продукты | Короткое сопоставление текста; Сопоставление вопросов | |||
| 5 | CAIL2019 Аналогичная конкуренция по сопоставлению дела | 2019/6 | Университет Цинхуа; Китайская диплома документирует сеть | Для каждой данные триплеты (A, B, C) используются для представления данных, где A, B, C все соответствуют определенному документу. Сходство между данными документов A и B всегда больше, чем сходство между A и B, то есть SIM (A, B)> SIM (A, C) | Юридические документы; Подобные случаи | Длинное совпадение текста | |||
| 6 | CCKS 2018 Webank Intelligent Mervice Service Match Matching конкуренция | 2018/4/5 | Институт технологического института Харбина (Шэньчжэнь) Интеллектуальные компьютерные исследования; Webank | Банковские вопросы; намерение соответствовать | Короткое сопоставление текста; Сопоставление вопросов | ||||
| 7 | Chinesetextualinference | 2018/12/15 | Лю Хуанен, Институт программных исследований, Китайская академия наук | Китайский текстовый вывод, в том числе перевод и строительство 880 000 текстосодержащих китайские наборы данных, а также создание текстосодержащей модели суждения на основе глубокого обучения | Китайский NLI | Китайский текстовый вывод; текстовое включение | |||
| 8 | NLPCC-DBQA | 2016/2017/2018 | NLPCC | Приведен вопрос - знак ответа и является ли этот ответ одним из ответов на вопрос, 1 означает «да», 0 означает нет | DBQA | Матч вопросов и ответов | |||
| 9 | Модель расчета для корреляции между «техническими требованиями» и проектами «технические достижения» | 201/8/32 | CCF | Технические требования и технические достижения в данной форме текста, а также корреляционная метка между требованиями и результатами; Корреляция между техническими требованиями и техническими достижениями разделена на четыре уровня: сильная корреляция, сильная корреляция, слабая корреляция и отсутствие корреляции | Длинный текст; требования соответствуют результатам | Длинное совпадение текста | |||
| 10 | CNSD/Clue-Cmnli | 2019/12 | Цзенджунджун | Набор данных с выводом естественного языка в китайском языке, эти данные и исходный набор данных английского языка генерируются путем перевода и частью ручной коррекции, что может в определенной степени облегчить проблему недостаточного вывода из естественного языка китайского языка и семантического расчета сходства. | Китайский NLI | Вывод о естественном языке китайского языка | бумага | ||
| 11 | CMEDQA V1.0 | 2017/4/5 | Xunyao xunyi.com и Школа информационных систем и управление Национальным университетом оборонной технологии | Набор данных - это вопрос и ответы, заданные на веб -сайте Xunpharma. Набор данных был анонимно обработан и содержит 50 000 вопросов и 94 134 ответов в учебном наборе, причем среднее количество символов на вопрос и ответы составляет 120 и 212 соответственно; Набор проверки имеет 2000 вопросов и 3774 ответов, причем среднее количество символов на вопрос и ответы составляет 117 и 212 соответственно; Испытательный набор имеет 2000 вопросов и 3835 ответов, причем среднее количество символов на вопрос и ответ составляет 119 и 211 соответственно; Набор данных имеет 54 000 вопросов и 101 743 ответа, со средним количеством символов на вопрос, а ответ составляет 119 и 212 соответственно; | Медицинский матч вопросов и ответов | Матч вопросов и ответов | бумага | ||
| 12 | CMEDQA2 | 2018/11/8 | Xunyao xunyi.com и Школа информационных систем и управление Национальным университетом оборонной технологии | Источником этого набора данных являются вопросы и ответы, заданные на веб -сайте Xunyi Xunpharma. Набор данных был анонимно обработан и содержит набор из 100 000 вопросов и 188 490 ответов в учебном наборе, причем среднее количество символов на вопрос и ответы составлял 48 и 101 соответственно; Набор проверки имеет 4000 вопросов и 7527 ответов, причем среднее количество символов на вопрос и ответ составляют 49 и 101 соответственно; Испытательный набор имеет 4000 вопросов и 7552 ответов, причем среднее количество символов на вопрос и ответ составляет 49 и 100 соответственно; Общее количество символов на вопрос и ответ составляет 108 000 вопросов и 203 569 ответов, причем среднее количество символов на вопрос и ответ составляют 49 и 101 соответственно; | Медицинский матч вопросов и ответов | Матч вопросов и ответов | бумага | ||
| 13 | Chinesests | 2017/9/21 | Тан Шерхенг, Бай Юни, Ма Фую. Университет науки и техники Xi'an | Этот набор данных предоставляет 12747 пар китайских аналогичных наборов данных. После набора данных авторы дают свои оценки сходства, и корпус состоит из коротких предложений. | Сходство сходства коротких предложений | Соответствие сходства | |||
| 14 | Набор данных медицинских вопросов Конкуренция измерения сходства, проводимая конференция по обработке информации о здравоохранении Китая | 2018 | CHIP 2018-4-я конференция по обработке информации о здоровье Китая (CHIP) | Основная цель выполнения этой оценки - соответствовать намерению вопросов, основанных на корпусе здравоохранения реальных китайских пациентов. Учитывая два утверждения, необходимо определить, являются ли намерения двух одинаковыми или похожими. Весь корпус исходит от реальных вопросов пациентов в Интернете и был проверен и был проверен и искусственным намерением. Набор данных был десенсибилизирован, и проблема отмечена учебным набором цифровых индикатов содержит около 20 000 отмеченных данных (десенсибилизированные, включая знаки препинания), а тестовый набор содержит около 10 000 данных без меток (десенсибилизированные, включая знаки препинания> символы). | Матч сходства для медицинских проблем | Соответствие сходства | |||
| 15 | COS960: китайский набор данных сходства слов 960 пар слов | 2019/6/6 | Университет Цингхуа | Набор данных содержит 960 пар слов, и каждая пара измеряется 15 нативными динамиками по оценкам сходства. 960 пар слов делятся на три группы в соответствии с этикеткой, включая 480 пар существительных, 240 пар глаголов и 240 пар прилагательных. | Сходство между словами | Синонимы | бумага | ||
| 16 | SOPPO Mobile Search Sort Sort-Title Semantic Matching Dataet. (https://pan.baidu.com/s/1hg2hubsn3geuu4gubbhczw пароль 7p3n) | 2018/11/6 | Противоположный | Этот набор данных поступает из сценария поиска в реальном времени OPPO мобильного телефона. Этот сценарий возвращает запрос в реальном времени, поскольку пользователь непрерывно входит. Этот набор данных был упрощен соответственно на этой основе, обеспечивая семантическое сопоставление за запрос, то есть проблема прогнозирования CTR. | Сопоставление заголовка вопросов, предсказание CTR | Соответствие сходства | |||
| 17 | Оценка результатов веб -поиска (Sogoue) | 2012 | Согу | СОГУ ЛАБОРАТОРИЧЕСКОЕ ДАННЫЕ ДАННЫЕ СОГЛАШЕНИЕ | Этот набор данных содержит термины запросов, связанные URL -адреса и данные поиска для категорий запросов. Формат заключается в следующем: Условия запроса] Трелитные URL -адреса tquery, где URL -адреса гарантированно существуют в соответствующем интернет -корпусе; «1» в категории запросов представляет навигационный запрос; «2» представляет информационный запрос. | Автоматическая оценка производительности поисковой системы с анализом данных об клике. | Прогноз соответствия типа запросов |
| ИДЕНТИФИКАТОР | заголовок | Обновление даты | Поставщик наборов данных | лицензия | иллюстрировать | Ключевые слова | категория | Бумажный адрес | Примечание |
|---|---|---|---|---|---|---|---|---|---|
| 1 | LCSTS | 2015/8/6 | Цингай Чен | Набор данных от Sina Weibo и содержит около двух миллионов настоящих коротких текстов китайцев. Каждое данные включают в себя две поля, абстрактные и текстовые, аннотированные автором. Существует 10 666 данных вручную отмеченную корреляцию между коротким текстом и резюме, и корреляции увеличиваются по очереди с 1 до 5. | Одно текстовое резюме; короткий текст; актуальность текста | Текстовое резюме | бумага | ||
| 2 | Китайский краткий текстовый набор данных | 2018/6/20 | Он Чжэнфанг | Данные поступают из Weibo, опубликованного Sina Weibo Mainstream Media, в общей сложности 679 898 элементов данных. | Одно текстовое резюме; короткий текст | Текстовое резюме | |||
| 3 | Образование и обучение индустрии абстрактное автоматическое абстрактное китайское корпус | 2018/6/5 | анонимный | Корпус собирает исторические статьи из основных вертикальных средств массовой информации в образовательной и учебной индустрии, с примерно 24 500 фрагментов данных, каждая часть данных, включая два поля, аннотированные автором и органом. | Одно текстовое резюме; образование и обучение | Текстовое резюме | |||
| 4 | NLPCC2017 TASK3 | 2017/11/8 | NLPCC2017 Организатор | Набор данных получен из поля новостей и является данными задачи, предоставленных NLPCC 2017, и может использоваться для одно текстовой резюме. | Одно текстовое резюме; новости | Текстовое резюме | |||
| 5 | Shence Cup 2018 | 2018/10/11 | Организатор конкурса DC | Данные поступают из текста новостей и предоставляются организатором конкурса DC. Он имитирует бизнес -сценарии и стремится извлечь основные слова из новостей. Окончательным результатом является улучшение эффекта рекомендаций и пользовательских портретов. | Текстовые ключевые слова; новости | Текстовое резюме | |||
| 6 | Byte Cup 2018 Международный конкурс машинного обучения | 2018/12/4 | Бабочка | Данные поступают из Topbuzz и открытых авторских прав. Учебный набор включает в себя около 1,3 миллиона текстовых информации, 1000 статей в наборе проверки и 800 статей в тестовом наборе. Данные для каждого набора тестирования и набора проверки вручную помечены несколькими возможными названиями в качестве альтернативы ответа с помощью ручного редактирования. | Одно текстовое резюме; видео; новости | Текстовое резюме | Английский | ||
| 7 | Отдел новостей | 2018/6/1 | Грусский | Данные были получены из поисковых и социальных метаданных с 1998 по 2017 год и использовали комбинацию абстрактных стратегий, которые сочетают в себе добычу и абстракцию, в том числе 1,3 миллиона статей и рефератов, написанных автором и редактором в 38 крупных редакционных отделениях публикации. | Одно текстовое резюме; социальные метаданные; поиск | Текстовое резюме | бумага | Английский | |
| 8 | [Duc/tac] (https://duc.nist.gov/ https://tac.nist.gov//) | 2014/9/9 | Нист | Полное имя - конференция по пониманию документов/конференция по анализу текста. Набор данных получен из новостных линий и веб -текстов в корпусе, используемом в ежегодной конкуренции TAC KBP (база знаний TAC). | Одиночный текстовый/многоклеточный резюме; новости | Текстовое резюме | Английский | ||
| 9 | CNN/Daily Mail | 2017/7/31 | Стэндфорд | GNU v3 | Набор данных от CNN и Dailymail на мобильных телефонах около миллиона новостных данных в качестве корпуса понимания прочитанного машины. | Многоклеточное резюме; длинный текст; новости | Текстовое резюме | бумага | Английский |
| 10 | Amazon Snap Review | 2013/3/1 | Стэндфорд | Данные поступают из обзоров покупок на веб -сайте Amazon, и вы можете получить данные в каждой основной категории (например, еда, фильмы и т. Д.), Или вы можете получить все данные одновременно. | Многоклеточное резюме; Обзоры покупок | Текстовое резюме | Английский | ||
| 11 | Гигаворд | 2003/1/28 | Дэвид Графф, Кристофер Сиери | Набор данных включает в себя около 950 000 новостных статей, которые абстрагируются по названию статьи и принадлежат к сводному набору данных об одном предложении. | Одно текстовое резюме; новости | Текстовое резюме | Английский | ||
| 12 | RA-MDS | 2017/9/11 | Пиджи Ли | Полное имя-многодокументирование с читателем. Набор данных получен из новостных статей и собирается, отмечается и рассмотрен экспертами. 45 тем, каждая из которых с 10 новостными документами и 4 модельными резюме, каждый новостной документ содержит в среднем 27 предложений и в среднем 25 слов на предложение. | Многоклеточное резюме; новости; Ручная маркировка | Текстовое резюме | бумага | Английский | |
| 13 | Tipster Summac | 2003/5/21 | Корпорация MITER и Университет Эдинбурга | Данные состоит из 183 документов, отмеченных сбором вычислений и языка (CMP-LG), и документы взяты из документов, опубликованных конференцией ACL. | Многоклеточное резюме; длинный текст | Текстовое резюме | Английский | ||
| 14 | Викихоу | 2018/10/18 | Махназ Купаи | Каждое данные - это статья, каждая статья состоит из нескольких абзацев, каждый абзац начинается с предложения, которое суммирует его. Объединяя абзацы, чтобы сформировать статьи и параграфы для формирования рефератов, окончательная версия набора данных содержит более 200 000 пар длинных последовательностей. | Многоклеточное резюме; длинный текст | Текстовое резюме | бумага | Английский | |
| 15 | Мульти-новые | 2019/12/4 | Алекс Фаббри | Данные взяты из входных статей из более чем 1500 различных веб -сайтов и профессиональной резюме из 56 216 из этих статей, полученных с сайта Newser.com. | Многоэтажное резюме | Текстовое резюме | бумага | Английский | |
| 16 | МЕДЕ С РАЗРЕШЕНИЯ | 2018/8/17 | Д.потапов | Набор данных используется для динамической оценки видео -резюме и содержит аннотации для 160 видео, включая 60 наборов проверки, 100 тестовых наборов и 10 категорий событий в тестовом наборе. | Одно текстовое резюме; видео комментариев | Текстовое резюме | бумага | Английский | |
| 17 | Биг -патент | 2019/7/27 | Шарма | Набор данных включает в себя 1,3 миллиона записей патентных документов США и письменные рефераты человека, которые содержат более богатые дискурсивные структуры и более часто используемые объекты. | Одно текстовое резюме; патент; написано | Текстовое резюме | бумага | Английский | |
| 18 | [NYT] (https://catalog.ldc.upenn.edu/ldc2008t19) | 2008/10/17 | Эван Сандхаус | Полное название - «Нью -Йорк Таймс», набор данных содержит 150 коммерческих статей из New York Times и запечатлевает все статьи на веб -сайте New York Times с ноября 2009 года по январь 2010 года. | Одно текстовое резюме; деловая статья | Текстовое резюме | Английский | ||
| 19 | Корпус акваустого текста английских новостей | 2002/9/26 | Дэвид Графф | Набор данных состоит из английских новостных текстовых данных от агентства по новостям Xinhua (Народная Республика Китая), New York Times News Service и Service Associated Press World News, а также содержит около 375 миллионов слов. Заряды набора данных. | Одно текстовое резюме; новости | Текстовое резюме | Китайский и английский | ||
| 20 | Юридический набор данных сообщает | 2012/10/19 | Филиппо Галгани | Набор данных поступает из австралийских юридических дел Федерального суда Австралии (FCA) с 2006 по 2009 год и содержит приблизительно 4000 юридических дел и их резюме. | Одно текстовое резюме; юридическое дело | Текстовое резюме | Английский | ||
| двадцать один | 17 сроков | 2015/5/29 | ГБ Тран | Данные являются контентом, извлеченным из веб -страниц новостей, включая новости из четырех стран: Египет, Ливия, Йемен и Сирия. | Одно текстовое резюме; новости | Текстовое резюме | бумага | Многоязычный | |
| двадцать два | PTS Corpus | 2018/10/9 | Фей Сан | Полное имя-это корпус обобщения продукта, данные отображают сводку имен продуктов в приложениях электронной коммерции для мобильных устройств | Одно текстовое резюме; короткий текст | Текстовое резюме | бумага | ||
| двадцать три | Наборы данных научного суммирования | 2019/10/26 | Сантош Гупта | Набор данных был взят из Semantic Scholar Corpus и Arxiv. Название/абстрактная пара из Semantic Scholar Corpus, отфильтровав все документы в области биомедицинского и содержит 5,8 миллиона данных. Данные из ARXIV, содержащие пары заголовка/абстрактный каждую статью с 1991 по 5 июля 2019 года. Набор данных содержит 10 тыс. Финансовых данных, 26 тыс. Биологии, 417K математики, 1,57 миллиона физики и 221 тыс. CS. | Одно текстовое резюме; бумага | Текстовое резюме | Английский | ||
| двадцать четыре | Корпус и аннотации научных документов и аннотации из группы Wing NUS | 2019/3/19 | Jaidka | Набор данных включает в себя исследовательские работы по вычислительной лингвистике ACL и обработке естественного языка, а также их соответствующие цитируемые статьи и три тезисы вывода: традиционная статья автора (Abstract), реферат сообщества (сборник цитирования «Цитаты») и человеческий реферат, написанный подготовленным аннотатором, а обучающий набор содержит 40 статей и цитируемые документы. | Одно текстовое резюме; бумага | Текстовое резюме | бумага | Английский |
| ИДЕНТИФИКАТОР | заголовок | Обновление даты | Поставщик наборов данных | лицензия | иллюстрировать | Ключевые слова | категория | Бумажный адрес | Примечание |
|---|---|---|---|---|---|---|---|---|---|
| 1 | WMT2017 | 2017/2/1 | EMNLP 2017 Семинар по машинному переводу | 数据主要来源于Europarl corpus和UN corpus两个机构, 附带2017年从News Commentary corpus 任务中重新抽取的文章。 这是由EMNLP会议提供的翻译语料, 作为很多论文效果的benchmark来检测 | Benchmark, WMT2017 | 中英翻译语料 | бумага | ||
| 2 | WMT2018 | 2018/11/1 | EMNLP 2018 Workshop on Machine Translation | 数据主要来源于Europarl corpus和UN corpus两个机构, 附带2018年从News Commentary corpus 任务中重新抽取的文章。 这是由EMNLP会议提供的翻译语料, 作为很多论文效果的benchmark来检测 | Benchmark, WMT2018 | 中英翻译语料 | бумага | ||
| 3 | WMT2019 | 2019/1/31 | EMNLP 2019 Workshop on Machine Translation | 数据主要来源于Europarl corpus和UN corpus两个机构, 以及附加了news-commentary corpus and the ParaCrawl corpus中来得数据 | Benchmark, WMT2019 | 中英翻译语料 | бумага | ||
| 4 | UM-Corpus:A Large English-Chinese Parallel Corpus | 2014/5/26 | Department of Computer and Information Science, University of Macau, Macau | 由澳门大学发布的中英文对照的高质量翻译语料 | UM-Corpus;English; Chinese;large | 中英翻译语料 | бумага | ||
| 5 | [Ai challenger translation 2017](https://pan.baidu.com/s/1E5gD5QnZvNxT3ZLtxe_boA 提取码: stjf) | 2017/8/14 | 创新工场、搜狗和今日头条联合发起的AI科技竞赛 | 规模最大的口语领域英中双语对照数据集。 提供了超过1000万的英中对照的句子对作为数据集合。 所有双语句对经过人工检查, 数据集从规模、相关度、质量上都有保障。 训练集:10,000,000 句验证集(同声传译):934 句验证集(文本翻译):8000 句 | AI challenger 2017 | 中英翻译语料 | |||
| 6 | MultiUN | 2010 | Department of Linguistics and Philology Uppsala University, Uppsala/Sweden | 该数据集由德国人工智能研究中心提供, 除此数据集外,该网站还提供了很多的别的语言之间的翻译对照语料供下载 | MultiUN | 中英翻译语料 | MultiUN: A Multilingual corpus from United Nation Documents, Andreas Eisele and Yu Chen, LREC 2010 | ||
| 7 | NIST 2002 Open Machine Translation (OpenMT) Evaluation | 2010/5/14 | NIST Multimodal Information Group | LDC User Agreement for Non-Members | 数据来源于Xinhua 新闻服务包含70个新闻故事, 以及来自于Zaobao新闻服务的30个新闻故事,共100个从两个新闻集中选择出来的故事的长度都再212到707个中文字符之间,Xinhua部分共有有25247个字符, Zaobao有39256个字符 | NIST | 中英翻译语料 | бумага | 该系列有多年的数据, 该数据使用需要付费 |
| 8 | The Multitarget TED Talks Task (MTTT) | 2018 | Kevin Duh, JUH | 该数据集包含基于TED演讲的多种语言的平行语料,包含中英文等共计20种语言 | ТЕД | 中英翻译语料 | The Multitarget TED Talks Task | ||
| 9 | ASPEC Chinese-Japanese | 2019 | Workshop on Asian Translation | 该数据集主要研究亚洲区域的语言,如中文和日语之间, 日语和英文之间的翻译任务翻译语料主要来自语科技论文(论文摘要;发明描述;专利等等) | Asian scientific patent Japanese | 中日翻译语料 | http://lotus.kuee.kyoto-u.ac.jp/WAT/ | ||
| 10 | casia2015 | 2015 | research group in Institute of Automation , Chinese Academy of Sciences | 语料库包含从网络自动收集的大约一百万个句子对 | casia CWMT 2015 | 中英翻译语料 | |||
| 11 | casict2011 | 2011 | research group in Institute of Computing Technology , Chinese Academy of Sciences | 语料库包含2个部分,每个部分包含从网络自动收集的大约1百万(总计2百万)个句子对。 句子级别的对齐精度约为90%。 | casict CWMT 2011 | 中英翻译语料 | |||
| 12 | casict2015 | 2015 | research group in Institute of Computing Technology , Chinese Academy of Sciences | 语料库包含大约200万个句子对,包括从网络(60%), 电影字幕(20%)和英语/汉语词库(20%)收集的句子。 句子水平对齐精度高于99%。 | casict CWMT 2015 | 中英翻译语料 | |||
| 13 | datum2015 | 2015 | Datum Data Co., Ltd. | 语料库包含一百万对句子,涵盖不同类型, 例如用于语言教育的教科书,双语书籍, 技术文档,双语新闻,政府白皮书, 政府文档,网络上的双语资源等。 请注意,数据中文部分的某些部分是按词段划分的。 | datum CWMT 2015 | 中英翻译语料 | |||
| 14 | datum2017 | 2017 | Datum Data Co., Ltd. | 语料库包含20个文件,涵盖不同类型,例如新闻,对话,法律文件,小说等。 每个文件有50,000个句子。 整个语料库包含一百万个句子。 前10个文件(Book1-Book10)的中文词均已分段。 | datum CWMT 2017 | 中英翻译语料 | |||
| 15 | neu2017 | 2017 | NLP lab of Northeastern University, China | 语料库包含从网络自动收集的200万个句子对,包括新闻,技术文档等。 句子级别的对齐精度约为90%。 | neu CWMT 2017 | 中英翻译语料 | |||
| 16 | 翻译语料(translation2019zh) | 2019 | 徐亮 | 可以用于训练中英文翻译系统,从中文翻译到英文,或从英文翻译到中文; 由于有上百万的中文句子,可以只抽取中文的句子,做为通用中文语料,训练词向量或做为预训练的语料。英文任务也可以类似操作; |
| ИДЕНТИФИКАТОР | заголовок | 更新日期 | 数据集提供者 | лицензия | иллюстрировать | Ключевые слова | категория | 论文地址 | Примечание |
|---|---|---|---|---|---|---|---|---|---|
| 1 | NLPIR微博关注关系语料库100万条 | 2017/12/2 | 北京理工大学网络搜索挖掘与安全实验室张华平博士 | NLPIR微博关注关系语料库说明1.NLPIR微博关注关系语料库由北京理工大学网络搜索挖掘与安全实验室张华平博士,通过公开采集与抽取从新浪微博、腾讯微博中获得。为了推进微博计算的研究,现通过自然语言处理与信息检索共享平台(127.0.0.1/wordpress)予以公开共享其中的1000万条数据(目前已有数据接近10亿,已经剔除了大量的冗余数据); 2.本语料库在公开过程中,已经最大限度地采用技术手段屏蔽了用户真实姓名和url,如果涉及到的用户需要全面保护个人隐私的,可以Email给张华平博士[email protected]予以删除,对给您造成的困扰表示抱歉,并希望谅解; 3.只适用于科研教学用途,不得作为商用;引用本语料库,恭请在软件或者论文等成果特定位置表明出处为:NLPIR微博语料库,出处为自然语言处理与信息检索共享平台(http://www.nlpir.org/)。 4.字段说明: person_id 人物的id guanzhu_id 所关注人的id |
| ИДЕНТИФИКАТОР | заголовок | 更新日期 | 数据集提供者 | лицензия | иллюстрировать | Ключевые слова | категория | 论文地址 | Примечание |
|---|---|---|---|---|---|---|---|---|---|
| 1 | NLPIR微博内容语料库-23万条 | 2017年12月 | 北京理工大学网络搜索挖掘与安全实验室张华平博士 | NLPIR微博内容语料库说明1.NLPIR微博内容语料库由北京理工大学网络搜索挖掘与安全实验室张华平博士,通过公开采集与抽取从新浪微博、腾讯微博中获得。为了推进微博计算的研究,现通过自然语言处理与信息检索共享平台(127.0.0.1/wordpress)予以公开共享其中的23万条数据(目前已有数据接近1000万,已经剔除了大量的冗余数据)。 2.本语料库在公开过程中,已经最大限度地采用技术手段屏蔽了用户真实姓名和url,如果涉及到的用户需要全面保护个人隐私的,可以Email给张华平博士[email protected]予以删除,对给您造成的困扰表示抱歉,并希望谅解; 3.只适用于科研教学用途,不得作为商用;引用本语料库,恭请在软件或者论文等成果特定位置表明出处为:NLPIR微博语料库,出处为自然语言处理与信息检索共享平台(http://www.nlpir.org/)。 4.字段说明: id 文章编号article 正文discuss 评论数目insertTime 正文插入时间origin 来源person_id 所属人物的id time 正文发布时间transmit 转发 | |||||
| 2 | 500万微博语料 | 2018年1月 | 北京理工大学网络搜索挖掘与安全实验室张华平博士 | 【500万微博语料】北理工搜索挖掘实验室主任@ICTCLAS张华平博士提供500万微博语料供大家使用,文件为sql文件,只能导入mysql数据库,内含建表语句,共500万数据。语料只适用于科研教学用途,不得作为商用;引用本语料库,请在软件或者论文等成果特定位置表明出处。 【看起来这份数据比上面那一份要杂糅一些,没有做过处理】 | |||||
| 3 | NLPIR新闻语料库-2400万字 | 2017年7月 | www.NLPIR.org | NLPIR新闻语料库说明1.解压缩后数据量为48MB,大约2400万字的新闻; 2.采集的新闻时间跨度为2009年10月12日至2009年12月14日。 3.文件名为新闻的时间;每个文件包括多个新闻正文内容(已经去除了新闻的垃圾信息); 4.新闻本身内容的版权属于原作者或者新闻机构; 5.整理后的语料库版权属于www.NLPIR.org; 6.可供新闻分析、自然语言处理、搜索等应用提供测试数据场景; 如需更大规模的语料库,可以联系NLPIR.org管理员。 | |||||
| 4 | NLPIR微博关注关系语料库100万条 | 2017年12月 | 北京理工大学网络搜索挖掘与安全实验室张华平博士 | NLPIR微博关注关系语料库说明1.NLPIR微博关注关系语料库由北京理工大学网络搜索挖掘与安全实验室张华平博士,通过公开采集与抽取从新浪微博、腾讯微博中获得。为了推进微博计算的研究,现通过自然语言处理与信息检索共享平台(127.0.0.1/wordpress)予以公开共享其中的1000万条数据(目前已有数据接近10亿,已经剔除了大量的冗余数据); 2.本语料库在公开过程中,已经最大限度地采用技术手段屏蔽了用户真实姓名和url,如果涉及到的用户需要全面保护个人隐私的,可以Email给张华平博士[email protected]予以删除,对给您造成的困扰表示抱歉,并希望谅解; 3.只适用于科研教学用途,不得作为商用;引用本语料库,恭请在软件或者论文等成果特定位置表明出处为:NLPIR微博语料库,出处为自然语言处理与信息检索共享平台(http://www.nlpir.org/)。 4.字段说明: person_id 人物的id guanzhu_id 所关注人的id | |||||
| 5 | NLPIR微博博主语料库100万条 | 2017年9月 | 北京理工大学网络搜索挖掘与安全实验室张华平博士 | NLPIR微博博主语料库说明1.NLPIR微博博主语料库由北京理工大学网络搜索挖掘与安全实验室张华平博士,通过公开采集与抽取从新浪微博、腾讯微博中获得。为了推进微博计算的研究,现通过自然语言处理与信息检索共享平台(127.0.0.1/wordpress)予以公开共享其中的100万条数据(目前已有数据接近1亿,已经剔除了大量的冗余与机器粉丝) 2.本语料库在公开过程中,已经最大限度地采用技术手段屏蔽了用户真实姓名和url,如果涉及到的用户需要全面保护个人隐私的,可以Email给张华平博士[email protected]予以删除,对给您造成的困扰表示抱歉,并希望谅解; 3.只适用于科研教学用途,不得作为商用;引用本语料库,恭请在软件或者论文等成果特定位置表明出处为:NLPIR微博语料库,出处为自然语言处理与信息检索共享平台(http://www.nlpir.org/)。 4.字段说明: id 内部id sex 性别address 家庭住址fansNum 粉丝数目summary 个人摘要wbNum 微博数量gzNum 关注数量blog 博客地址edu 教育情况work 工作情况renZh 是否认证brithday 生日; | |||||
| 6 | NLPIR短文本语料库-40万字 | 2017年8月 | 北京理工大学网络搜索挖掘与安全实验室(SMS@BIT) | NLPIR短文本语料库说明1.解压缩后数据量为48万字,大约8704篇短文本内容; 2.整理后的语料库版权属于www.NLPIR.org; 3.可供短文本自然语言处理、搜索、舆情分析等应用提供测试数据场景; | |||||
| 7 | 维基百科语料库 | 维基百科 | 维基百科会定期打包发布语料库 | ||||||
| 8 | 古诗词数据库 | 2020 | github主爬虫,http://shici.store | ||||||
| 9 | 保险行业语料库 | 2017年 | 该语料库包含从网站Insurance Library 收集的问题和答案。 据我们所知,这是保险领域首个开放的QA语料库: 该语料库的内容由现实世界的用户提出,高质量的答案由具有深度领域知识的专业人士提供。 所以这是一个具有真正价值的语料,而不是玩具。 在上述论文中,语料库用于答复选择任务。 另一方面,这种语料库的其他用法也是可能的。 例如,通过阅读理解答案,观察学习等自主学习,使系统能够最终拿出自己的看不见的问题的答案。 数据集分为两个部分“问答语料”和“问答对语料”。问答语料是从原始英文数据翻译过来,未经其他处理的。问答对语料是基于问答语料,又做了分词和去标去停,添加label。所以,"问答对语料"可以直接对接机器学习任务。如果对于数据格式不满意或者对分词效果不满意,可以直接对"问答语料"使用其他方法进行处理,获得可以用于训练模型的数据。 | ||||||
| 10 | 汉语拆字字典 | 1905年7月 | 本倉庫含開放詞典網用以提供字旁和部件查詢的拆字字典數據庫,有便利使用者查難打漢字等用途。目前數據庫收錄17,803不同漢字的拆法,分為繁體字(chaizi-ft.txt)和簡體字(chaizi-jt.txt)兩個版本。 拆字法有別於固有的筆順字庫。拆字著重於儘量把每個字拆成兩個以上的組成部件,而不是拆成手寫字時所使用的筆畫。 | ||||||
| 11 | 新闻预料 | 2016年 | 徐亮 | 可以做为【通用中文语料】,训练【词向量】或做为【预训练】的语料; 也可以用于训练【标题生成】模型,或训练【关键词生成】模型(选关键词内容不同于标题的数据); 亦可以通过新闻渠道区分出新闻的类型。 | |||||
| 12 | 百科类问答json版(baike2018qa) | 2018年 | 徐亮 | 可以做为通用中文语料,训练词向量或做为预训练的语料;也可以用于构建百科类问答;其中类别信息比较有用,可以用于做监督训练,从而构建更好句子表示的模型、句子相似性任务等。 | |||||
| 13 | 社区问答json版(webtext2019zh) :大规模高质量数据集 | 2019年 | 徐亮 | 1)构建百科类问答:输入一个问题,构建检索系统得到一个回复或生产一个回复;或根据相关关键词从,社区问答库中筛选出你相关的领域数据2)训练话题预测模型:输入一个问题(和或描述),预测属于话题。 3)训练社区问答(cQA)系统:针对一问多答的场景,输入一个问题,找到最相关的问题,在这个基础上基于不同答案回复的质量、 问题与答案的相关性,找到最好的答案。 4)做为通用中文语料,做大模型预训练的语料或训练词向量。其中类别信息也比较有用,可以用于做监督训练,从而构建更好句子表示的模型、句子相似性任务等。 5)结合点赞数量这一额外信息,预测回复的受欢迎程度或训练答案评分系统。 | |||||
| 14 | .维基百科json版(wiki2019zh) | 2019年 | 徐亮 | 可以做为通用中文语料,做预训练的语料或构建词向量,也可以用于构建知识问答。【不同于wiki原始释放的数据集,这个处理过了】 |
| ИДЕНТИФИКАТОР | заголовок | 更新日期 | 数据集提供者 | лицензия | иллюстрировать | Ключевые слова | категория | 论文地址 | Примечание |
|---|---|---|---|---|---|---|---|---|---|
| 1 | 百度WebQA | 2016 | Байду | 来自于百度知道;格式为一个问题多篇意思基本一致的文章,分为人为标注以及浏览器检索 | 阅读理解、百度知道真实问题 | 中文阅读理解 | бумага | ||
| 2 | DuReader 1.0 | 2018/3/1 | Байду | Apache2.0 | 本次竞赛数据集来自搜索引擎真实应用场景,其中的问题为百度搜索用户的真实问题,每个问题对应5个候选文档文本及人工整理的优质答案。 | 阅读理解、百度搜索真实问题 | 中文阅读理解 | бумага | |
| 3 | SogouQA | 2018 | 搜狗 | CIPS-SOGOU问答比赛数据;来自于搜狗搜索引擎真实用户提交的查询请求;含有事实类与非事实类数据 | 阅读理解、搜狗搜索引擎真实问题 | 中文阅读理解 | |||
| 4 | 中文法律阅读理解数据集CJRC | 2019/8/17 | 哈工大讯飞联合实验室(HFL) | 数据集包含约10,000篇文档,主要涉及民事一审判决书和刑事一审判决书。通过抽取裁判文书的事实描述内容,针对事实描述内容标注问题,最终形成约50,000个问答对 | 阅读理解、中文法律领域 | 中文阅读理解 | бумага | ||
| 5 | 2019“讯飞杯”中文机器阅读理解数据集(CMRC ) | 2019年10月 | 哈工大讯飞联合实验室(HFL) | CC-BY-SA-4.0 | 本次阅读理解的任务是句子级填空型阅读理解。 根据给定的一个叙事篇章以及若干个从篇章中抽取出的句子,参赛者需要建立模型将候选句子精准的填回原篇章中,使之成为完整的一篇文章。 | 句子级填空型阅读理解 | 中文阅读理解 | 赛事官网:https://hfl-rc.github.io/cmrc2019/ | |
| 6 | 2018“讯飞杯”中文机器阅读理解数据集(CMRC ) | 2018/10/19 | 哈工大讯飞联合实验室(HFL) | CC-BY-SA-4.0 | CMRC 2018数据集包含了约20,000个在维基百科文本上人工标注的问题。同时,我们还标注了一个挑战集,其中包含了需要多句推理才能够正确解答的问题,更富有挑战性 | 阅读理解、基于篇章片段抽取 | 中文阅读理解 | бумага | 赛事官网:https://hfl-rc.github.io/cmrc2018/ |
| 7 | 2017“讯飞杯”中文机器阅读理解数据集(CMRC ) | 2017/10/14 | 哈工大讯飞联合实验室(HFL) | CC-BY-SA-4.0 | 首个中文填空型阅读理解数据集PD&CFT | 填空型阅读理解 | 中文阅读理解 | бумага | 赛事官网 |
| 8 | 莱斯杯:全国第二届“军事智能机器阅读”挑战赛 | 2019/9/3 | 中电莱斯信息系统有限公司 | 面向军事应用场景的大规模中文阅读理解数据集,围绕多文档机器阅读理解进行竞赛,涉及理解、推理等复杂技术。 | 多文档机器阅读理解 | 中文阅读理解 | 赛事官网 | ||
| 9 | ReCO | 2020 | 搜狗 | 来源于搜狗的浏览器用户输入;有多选和直接答案 | 阅读理解、搜狗搜索 | 中文阅读理解 | бумага | ||
| 10 | DuReader-checklist | 2021/3 | Байду | Apache-2.0 | 建立了细粒度的、多维度的评测数据集,从词汇理解、短语理解、语义角色理解、逻辑推理等多个维度检测模型的不足之处,从而推动阅读理解评测进入“精细化“时代 | 细粒度阅读理解 | 中文阅读理解 | 赛事官网 | |
| 11 | DuReader-Robust | 2020/8 | Байду | Apache-2.0 | 从过敏感性,过稳定性以及泛化性多个维度构建了测试阅读理解鲁棒性的数据 | 百度搜索、鲁棒性阅读理解 | 中文阅读理解 | бумага | 赛事官网 |
| 12 | DuReader-YesNo | 2020/8 | Байду | Apache-2.0 | DuReader yesno是一个以观点极性判断为目标任务的数据集,可以弥补抽取类数据集评测指标的缺陷,从而更好地评价模型对观点极性的理解能力。 | 观点型阅读理解 | 中文阅读理解 | 赛事官网 | |
| 13 | DuReader2.0 | 2021 | Байду | Apache-2.0 | DuReader2.0是全新的大规模中文阅读理解数据,来源于用户真实输入,真实场景 | 阅读理解 | 中文阅读理解 | бумага | 赛事官网 |
| 14 | CAIL2020 | 2020 | 哈工大讯飞联合实验室(HFL) | 中文司法阅读理解任务,今年我们将提出升级版,不仅文书种类由民事、刑事扩展为民事、刑事、行政,问题类型也由单步预测扩展为多步推理,难度有所升级。 | 法律阅读理解 | 中文阅读理解 | 赛事官网 | ||
| 15 | CAIL2021 | 2021 | 哈工大讯飞联合实验室(HFL) | 中文法律阅读理解比赛引入多片段回答的问题类型,即部分问题需要抽取文章中的多个片段组合成最终答案。希望多片段问题类型的引入,能够扩大中文机器阅读理解的场景适用性。本次比赛依旧保留单片段、是否类和拒答类的问题类型。 | 法律阅读理解 | 中文阅读理解 | 赛事官网 | ||
| 16 | CoQA | 2018/9 | 斯坦福大学 | CC BY-SA 4.0、Apache等 | CoQA是面向建立对话式问答系统的大型数据集,挑战的目标是衡量机器对文本的理解能力,以及机器面向对话中出现的彼此相关的问题的回答能力的高低 | 对话问答 | 英文阅读理解 | бумага | Официальный сайт |
| 17 | SQuAD2.0 | 2018/1/11 | 斯坦福大学 | 行业内公认的机器阅读理解领域的顶级水平测试;它构建了一个包含十万个问题的大规模机器阅读理解数据集,选取超过500 篇的维基百科文章。数据集中每一个阅读理解问题的答案是来自给定的阅读文章的一小段文本—— 以及,现在在SQuAD 2.0 中还要判断这个问题是否能够根据当前的阅读文本作答 | 问答、包含未知答案 | 英文阅读理解 | бумага | ||
| 18 | SQuAD1.0 | 2016 | 斯坦福大学 | 斯坦福大学于2016年推出的阅读理解数据集,给定一篇文章和相应问题,需要算法给出问题的答案。此数据集所有文章选自维基百科,一共有107,785问题,以及配套的536 篇文章 | 问答、基于篇章片段抽取 | 英文阅读理解 | бумага | ||
| 19 | MCTest | 2013 | 微软 | 100,000个必应Bing问题和人工生成的答案。从那时起,相继发布了1,000,000个问题数据集,自然语言生成数据集,段落排名数据集,关键词提取数据集,爬网数据集和会话搜索。 | 问答、搜索 | 英文阅读理解 | бумага | ||
| 20 | CNN/Dailymail | 2015 | DeepMind | Apache-2.0 | 填空型大规模英文机器理解数据集,答案是原文中的某一个词。 CNN数据集包含美国有线电视新闻网的新闻文章和相关问题。大约有90k文章和380k问题。 Dailymail数据集包含每日新闻的文章和相关问题。大约有197k文章和879k问题。 | 问答对、填空型阅读理解 | 英文阅读理解 | бумага | |
| двадцать один | RACE | 2017 | 卡耐基梅隆大学 | / | 数据集为中国中学生英语阅读理解题目,给定一篇文章和5 道4 选1 的题目,包括了28000+ passages 和100,000 问题。 | 选择题形式 | 英文阅读理解 | бумага | 下载需邮件申请 |
| двадцать два | HEAD-QA | 2019 | aghie | Грань | 一个面向复杂推理的医疗保健、多选问答数据集。提供英语、西班牙语两种形式的数据 | 医疗领域、选择题形式 | 英文阅读理解西班牙语阅读理解 | бумага | |
| двадцать три | Consensus Attention-based Neural Networks for Chinese Reading Comprehension | 2018 | 哈工大讯飞联合实验室 | / | 中文完形填空型阅读理解 | 填空型阅读理解 | 中文阅读理解 | бумага | |
| двадцать четыре | WikiQA | 2015 | 微软 | / | WikiQA语料库是一个新的公开的问题和句子对集,收集并注释用于开放域问答研究 | 片段抽取阅读理解 | 英文阅读理解 | бумага | |
| 25 | Children's Book Test (CBT) | 2016 | / | 测试语言模型如何在儿童书籍中捕捉意义。与标准语言建模基准不同,它将预测句法功能词的任务与预测语义内容更丰富的低频词的任务区分开来 | 填空型阅读理解 | 英文阅读理解 | бумага | ||
| 26 | NewsQA | 2017 | Maluuba Research | / | 一个具有挑战性的机器理解数据集,包含超过100000个人工生成的问答对,根据CNN的10000多篇新闻文章提供问题和答案,答案由相应文章的文本跨度组成。 | 片段抽取阅读理解 | 英文阅读理解 | бумага | |
| 27 | Frames dataset | 2017 | 微软 | / | 介绍了一个由1369个人类对话组成的框架数据集,平均每个对话15轮。开发这个数据集是为了研究记忆在目标导向对话系统中的作用。 | 阅读理解、对话 | 英文阅读理解 | бумага | |
| 28 | Quasar | 2017 | 卡内基梅隆大学 | BSD-2-Clause | 提出了两个大规模数据集。Quasar-S数据集由37000个完形填空式查询组成,这些查询是根据流行网站Stack overflow 上的软件实体标记的定义构造的。网站上的帖子和评论是回答完形填空问题的背景语料库。Quasar-T数据集包含43000个开放域琐事问题及其从各种互联网来源获得的答案。 | 片段抽取阅读理解 | 英文阅读理解 | бумага | |
| 29 | MS MARCO | 2018 | 微软 | / | 微软基于搜索引擎BING 构建的大规模英文阅读理解数据集,包含10万个问题和20万篇不重复的文档。MARCO 数据集中的问题全部来自于BING 的搜索日志,根据用户在BING 中输入的真实问题模拟搜索引擎中的真实应用场景,是该领域最有应用价值的数据集之一。 | 多文档 | 英文阅读理解 | бумага | |
| 30 | 中文完形填空 | 2016年 | 崔一鸣 | 首个中文填空型阅读理解数据集PD&CFT, 全称People Daily and Children's Fairy Tale, 数据来源于人民日报和儿童故事。 | 填空型阅读理解 | 中文完形填空 | бумага | ||
| 31 | NLPCC ICCPOL2016 | 2016.12.2 | NLPCC主办方 | 基于文档中的句子人工合成14659个问题,包括14K中文篇章。 | 问答对阅读理解 | 中文阅读理解 |
感谢以下同学的贡献(排名不分先后)
郑少棉、李明磊、李露、叶琛、薛司悦、章锦川、李小昌、李俊毅
Вы можете внести свой вклад, загрузив информацию набора данных. После загрузки пять или более наборов данных и просмотра их, студент может использоваться в качестве автора проекта и отобразить их.
Share your data set with community or make a contribution today! Just send email to chineseGLUE#163.com,
or join QQ group: 836811304