Conjunto de datos NLP chino e inglés. Puede hacer clic para buscar.
Puede contribuir con su poder cargando información del conjunto de datos. Después de cargar cinco o más conjuntos de datos y revisarlos, el estudiante puede usarse como contribuyente del proyecto y mostrarlos.
CLUEAI Toolkit: tres minutos y tres líneas de código para completar el desarrollo de PNL (aprendizaje de muestra cero)

Si hay algún problema con el conjunto de datos, envíe un problema.
Todos los conjuntos de datos son de Internet y solo están organizados para una fácil extracción. Si hay alguna infracción u otros problemas, contáctenos a tiempo para eliminarlos.
| IDENTIFICACIÓN | título | Fecha de actualización | Proveedor de datos | licencia | ilustrar | Palabras clave | categoría | Dirección en papel | Observación |
|---|---|---|---|---|---|---|---|---|---|
| 1 | CCKS2017 Identificación de entidad de nombres de casos electrónicos chinos | Mayo de 2017 | Beijing Jimuyun Health Technology Co., Ltd. | Los datos provienen de los datos de registros médicos electrónicos reales de la plataforma del hospital en la nube, con un total de 800 elementos (registro de una sola visita de un solo paciente), y fue tratado con desensibilización. | Registro médico electrónico | Reconocimiento de entidad nombrado | Chino | ||
| 2 | CCKS2018 Identificación de entidad de nombres de casos electrónicos chinos | 2018 | Yidu Cloud (Beijing) Technology Co., Ltd. | La tarea de evaluación del reconocimiento de entidad de nombres de registros médicos electrónicos de CCKS2018 proporciona 600 textos marcados de registros médicos electrónicos, lo que requiere un total de cinco entidades, incluidas piezas anatómicas, síntomas independientes, descripciones de síntomas, cirugía y medicamentos. | Registro médico electrónico | Reconocimiento de entidad nombrado | Chino | ||
| 3 | Conjunto de datos de identificación de entidades con nombres de MSRA en el Instituto de Investigación de Microsoft Asia | MSRA | Los datos provienen de MSRA, el formulario de etiquetado es bio y hay 46,365 entradas en total | MSRA | Reconocimiento de entidad nombrado | Chino | |||
| 4 | 1998 Conjunto de anotación de identificación de entidad de set de la entidad del corpus de 1998 | Enero de 1998 | People's Daily | La fuente de datos es People's Daily en 1998, y el formulario de etiquetado es Bio, con un total de 23,061 entradas. | 98 personas diarias | Reconocimiento de entidad nombrado | Chino | ||
| 5 | Bosón | Datos bosados | La fuente de datos es bosón, el formulario de etiquetado es BMeo y hay 2.000 entradas en total | Bosón | Reconocimiento de entidad nombrado | Chino | |||
| 6 | Pista ner de grano fino | 2020 | CLAVE | El conjunto de datos de CLUEREN2020 se basa en el conjunto de datos de clasificación de texto THUCTC de la Universidad Tsinghua, que selecciona algunos datos para la anotación de entidades de nombres de grano fino. Los datos originales provienen de SINA News RSS. Los datos contienen 10 categorías de etiquetas, el conjunto de capacitación tiene un total de 10,748 corpuses y el conjunto de verificación tiene un total de 1.343 corpuses. | De grano fino; Culo | Reconocimiento de entidad nombrado | Chino | ||
| 7 | Conll-2003 | 2003 | CNTS - Grupo de tecnología de idiomas | Los datos provienen de la tarea Conll-2003, que anota cuatro categorías, incluidas PER, LOC, Org y Misc. | Conll-2003 | Reconocimiento de entidad nombrado | papel | Inglés | |
| 8 | Reconocimiento de la entidad de Weibo | 2015 | https://github.com/hltcoe/golden-horse | EMNLP-2015 | Reconocimiento de entidad nombrado | ||||
| 9 | Sighan Bakeoff 2005 | 2005 | MSR/PKU | BAKEOFF-2005 | Reconocimiento de entidad nombrado |
| IDENTIFICACIÓN | título | Fecha de actualización | Proveedor de datos | licencia | ilustrar | Palabras clave | categoría | Dirección en papel | Observación |
|---|---|---|---|---|---|---|---|---|---|
| 1 | Newsqa | 2019/9/13 | Instituto de Investigación de Microsoft | El propósito del conjunto de datos Maluuba NewsQA es ayudar a las comunidades de investigación a construir algoritmos que puedan responder preguntas que requieran habilidades de comprensión y razonamiento a nivel humano. Contiene más de 12,000 artículos de noticias y 120,000 respuestas, con un promedio de 616 palabras por artículo y 2 a 3 respuestas por pregunta. | Inglés | QA | papel | ||
| 2 | Equipo | Stanford | El conjunto de datos de preguntas y respuestas de Stanford (Escuadrón) es un conjunto de datos de comprensión de lectura compuesta por preguntas planteadas en un conjunto de artículos sobre Wikipedia, donde la respuesta a cada pregunta es un párrafo de texto, que puede provenir del párrafo de lectura correspondiente, o la pregunta puede ser sin respuesta. | Inglés | QA | papel | |||
| 3 | Simplequestions | Un sistema de preguntas y respuestas simples a gran escala basado en redes de almacenamiento, el conjunto de datos proporciona un conjunto de datos de preguntas y respuestas de varias tareas con 100k respuestas a preguntas simples. | Inglés | QA | papel | ||||
| 4 | Wikiqa | 2016/7/14 | Instituto de Investigación de Microsoft | Para reflejar las necesidades de información real de los usuarios comunes, Wikiqa utiliza registros de consultas Bing como fuente del problema. Cada pregunta vincula a una página de Wikipedia que puede tener respuestas. Debido a que la sección de resumen de la página Wikipedia proporciona información básica y, a menudo, más importante sobre este tema, las oraciones en esta sección se utilizan como respuestas candidatas. Con la ayuda del crowdsourcing, el conjunto de datos incluye 3047 preguntas y 29258 oraciones, de las cuales 1473 oraciones están marcadas como oraciones de respuesta para la pregunta correspondiente. | Inglés | QA | papel | ||
| 5 | cmedqa | 2019/2/25 | Zhang Sheng | Los datos del foro en línea médico contienen 54,000 preguntas y las correspondientes aproximadamente 100,000 respuestas. | Chino | QA | papel | ||
| 6 | CMEDQA2 | 2019/1/9 | Zhang Sheng | La versión extendida de CMEDQA contiene alrededor de 100,000 preguntas relacionadas con la médica y correspondientes a aproximadamente 200,000 respuestas. | Chino | QA | papel | ||
| 7 | webmedqa | 2019/3/10 | El junking | Un conjunto de datos de preguntas y respuestas médicas en línea que contiene 60,000 preguntas y 310,000 respuestas, y contiene las categorías de preguntas. | Chino | QA | papel | ||
| 8 | XQA | 2019/7/29 | Universidad de Tsinghua | Este artículo construye principalmente un conjunto de datos de preguntas abiertas y respuestas de respuesta cruzada para preguntas y respuesta abiertas. El conjunto de datos (conjunto de capacitación, conjunto de pruebas) incluye principalmente nueve idiomas y más de 90,000 preguntas y respuestas. | Plurilingüe | QA | papel | ||
| 9 | Amazonqa | 2019/9/29 | Amazonas | La Universidad de Carnegie Mellon propuso una tarea de modelo de control de calidad basada en comentarios en respuesta a los puntos débiles de las respuestas repetidas a las preguntas en la plataforma de Amazon, es decir, utilizando preguntas y respuestas anteriores para responder a un determinado producto, el sistema de control de calidad resumirá automáticamente una respuesta a los clientes. | Inglés | QA | papel | ||
| 9 | Amazonqa | 2019/9/29 | Amazonas | La Universidad de Carnegie Mellon propuso una tarea de modelo de control de calidad basada en comentarios en respuesta a los puntos débiles de las respuestas repetidas a las preguntas en la plataforma de Amazon, es decir, utilizando preguntas y respuestas anteriores para responder a un determinado producto, el sistema de control de calidad resumirá automáticamente una respuesta a los clientes. | Inglés | QA | papel |
| IDENTIFICACIÓN | título | Fecha de actualización | Proveedor de datos | licencia | ilustrar | Palabras clave | categoría | Dirección en papel | Observación |
|---|---|---|---|---|---|---|---|---|---|
| 1 | NLPCC2013 | 2013 | CCF | Weibo Corpus, marcado con 7 emociones: como, asco, felicidad, tristeza, ira, sorpresa, miedo. Tamaño: 14 000 publicaciones de Weibo, 45 431 oraciones | NLPCC2013, emoción | Análisis de sentimientos | papel | ||
| 2 | NLPCC2014 Tarea1 | 2014 | CCF | Weibo Corpus, marcado con 7 emociones: como, asco, felicidad, tristeza, ira, sorpresa, miedo. Tamaño: 20,000 publicaciones de Weibo | NLPCC2014, emoción | Análisis de sentimientos | |||
| 3 | NLPCC2014 Tarea2 | 2014 | CCF | Weibo Corpus marcado con positivo y negativo | Nlpcc2014, sentimiento | Análisis de sentimientos | |||
| 4 | Corpus de Weibo Emotion | 2016 | La Universidad Politécnica de Hong Kong | Weibo Corpus, marcado con 7 emociones: como, asco, felicidad, tristeza, ira, sorpresa, miedo. Tamaño: más de 40,000 publicaciones de Weibo | Corpus de Weibo Emotion | Análisis de sentimientos | Construcción del cuerpo de emociones basada en la selección de etiquetas naturales ruidosas | ||
| 5 | [Rencecps] (Fuji Ren puede ser contactado ([email protected]) para un acuerdo de licencia). | 2009 | Fuji Ren | El Corpus de blog anotado marcado con emoción y sentimiento a nivel de documento, nivel de párrafo y nivel de oración. Contiene 1500 blogs, 11000 párrafos y 35000 oraciones. | Rencecps, emoción, sentimiento | Análisis de sentimientos | Construcción de un blog Corpus de emoción para el análisis de expresión emocional china | ||
| 6 | weibo_senti_100k | Desconocido | Desconocido | Etiqueta el sina weibo con emoción, y hay alrededor de 50,000 comentarios positivos y negativos cada uno | Weibo Senti, sentimiento | Análisis de sentimientos | |||
| 7 | BDCI2018-Automóvil de las opiniones de los usuarios de la industria y reconocimiento emocional | 2018 | CCF | Los comentarios sobre automóviles en el foro automotriz marcan los temas de la poesía del automóvil: potencia, precio, interior, configuración, seguridad, apariencia, manejo, consumo de combustible, espacio y comodidad. Cada tema está marcado con etiquetas emocionales, y las emociones se dividen en 3 categorías, con los números 0, 1 y -1 que representan respectivamente neutros, positivos y negativos. | Análisis de análisis de análisis de sentimientos atributos Análisis de sentimientos | Análisis de sentimientos | |||
| 8 | AI Challenger Análisis de sentimientos de comentarios de los usuarios de grano fino | 2O18 | Meituan | Revisiones de catering, 6 atributos de primer nivel, 20 atributos de segundo nivel, cada atributo está marcado positivo, negativo, neutral y no mencionado. | Análisis de sentimientos de atributo | Análisis de sentimientos | |||
| 9 | BDCI2019 Información financiera negativa y determinación del sujeto | 2019 | Banco central | Noticias de campo financiero, cada muestra etiqueta la lista de entidades, así como la lista de entidades negativas. La tarea es determinar si una muestra es negativa y la entidad negativa correspondiente. | Análisis de sentimientos de entidad | Análisis de sentimientos | |||
| 10 | Competencia de revisión de comercio electrónico de Zhijiang Cup and Opinion Digging Competition | 2019 | Laboratorio de Zhijiang | La tarea de explorar las opiniones de las revisiones de marca es extraer las características de los atributos del producto y las opiniones de los consumidores de las revisiones de productos, y confirmar su polaridad emocional y sus tipos de atributos. Para una cierta característica de atributos de un producto, hay una serie de palabras de opinión que lo describen, que representan las opiniones de los consumidores sobre la función de atributo. Cada conjunto de {características del atributo del producto, la opinión del consumidor} tiene la polaridad emocional correspondiente (negativa, neutral, positiva), que representa la satisfacción del consumidor con este atributo. Además, se pueden clasificar múltiples características de atributos en un cierto tipo de atributo, como la apariencia, el cuadro y otras características de atributos se pueden clasificar en el tipo de atributo de empaque. Los equipos participantes eventualmente enviarán la información de predicción extraída de los datos de la prueba, incluidos cuatro campos: palabra característica de atributo, palabra de opinión, polaridad de opinión y tipo de atributo. | Análisis de sentimientos de atributo | Análisis de sentimientos | |||
| 11 | Competencia de algoritmo del campus Sohu 2019 | 2019 | Sohu | Dados varios artículos, el objetivo es juzgar la entidad central del artículo y su actitud emocional hacia la entidad central. Cada artículo identifica hasta tres entidades centrales y determina las tendencias emocionales del artículo hacia las entidades centrales anteriores (positivas, neutrales y negativas). Entidad: las personas, objetos, regiones, instituciones, grupos, empresas, industrias, ciertos eventos específicos, etc. son fijos y pueden usarse como la palabra de entidad para el tema del artículo. Entidad central: la palabra de entidad que describe o actúa principalmente como el papel principal del artículo. | Análisis de sentimientos de entidad | Análisis de sentimientos |
| IDENTIFICACIÓN | título | Fecha de actualización | Proveedor de datos | licencia | ilustrar | Palabras clave | categoría | Dirección en papel | Observación |
|---|---|---|---|---|---|---|---|---|---|
| 1 | [2018 Desafío de procesamiento inteligente de texto "Copa Daguan" (https://www.pkbigdata.com/common/cmpt/ "Daguan Cup" Texto de texto INTECTIVO DE PROCESAMIENTO INTELIGENTE_SHITI Y DATA.HTML) | Julio de 2018 | Datos optimistas | El conjunto de datos proviene de datos optimistas y es una tarea de clasificación de texto larga. Incluye principalmente cuatro campos: ID, artículo, Word_seg y clase. Los datos contienen 19 categorías, con un total de 102,275 muestras. | Texto largo; desensibilización | Clasificación de texto | Chino | ||
| 2 | Categoría de noticias chinas (texto) de hoy | Mayo de 2018 | Los titulares de hoy | El conjunto de datos proviene de Toutiao hoy y es una tarea de clasificación de texto corta. Los datos contienen 15 categorías, por un total de 382,688 muestras. | texto corto; noticias | Clasificación de texto | Chino | ||
| 3 | Tucnews Clasificación de texto chino | 2016 | Universidad de Tsinghua | Thucnews se genera en función del filtrado y filtrado de datos históricos del canal de suscripción SINA News RSS entre 2005 y 2011, y está todo en formato de texto plano UTF-8. Basado en el sistema original de clasificación de noticias SINA, reintegramos y dividimos 14 categorías de clasificación de candidatos: finanzas, lotería, bienes raíces, acciones, hogar, educación, tecnología, sociedad, moda, asuntos actuales, deportes, letreros de zodiaco, juegos y entretenimiento, con un total de 740,000 documentos de noticias (2.19 GB) | Documentación; Noticias | Clasificación de texto | Chino | ||
| 4 | Clasificación de texto chino de la Universidad de Fudan | Grupo de procesamiento del lenguaje natural, Departamento de Información y Tecnología de la Computadora, Universidad de Fudan, Centro de Base de Datos Internacional | El conjunto de datos es de la Universidad de Fudan y es una tarea de clasificación de texto corta. Los datos contienen 20 categorías, con un total de 9,804 documentos. | Documentación; Noticias | Clasificación de texto | Chino | |||
| 5 | Título de noticias Clasificación de texto corto | Diciembre de 2019 | chenfengshf | Intercambio de dominios público CC0 | El conjunto de datos se deriva de la plataforma Kesci y es una tarea de clasificación de texto corta para el campo de título de noticias. La mayor parte del contenido es un título de texto corto (longitud <50), los datos contienen 15 categorías, un total de 38 V de muestras | Texto corto; título de noticias | Clasificación de texto | Chino | |
| 6 | 2017 Desafío de aprendizaje automático de la Copa Zhihu Kanshan | Junio de 2017 | Sociedad de Inteligencia Artificial China; Zhihu | El conjunto de datos proviene de Zhihu, que son datos anotados para la relación vinculante entre la pregunta y las etiquetas de temas. Cada pregunta tiene 1 o más etiquetas, con un total de 1,999 etiquetas, que contienen un total de 3 millones de preguntas. | Pregunta; texto corto | Clasificación de texto | Chino | ||
| 7 | 2019 Zhijiang Cup - Competencia de minería de opinión de revisión electrónica de comercio electrónico | Agosto de 2019 | Laboratorio de Zhijiang | La tarea de explorar las opiniones de las revisiones de marca es extraer las características de los atributos del producto y las opiniones de los consumidores de las revisiones de productos, y confirmar su polaridad emocional y sus tipos de atributos. Para una cierta característica de atributos de un producto, hay una serie de palabras de opinión que lo describen, que representan las opiniones de los consumidores sobre la función de atributo. Cada grupo de {características del atributo del producto, opinión del consumidor} tiene la polaridad emocional correspondiente (negativa, neutral, positiva), lo que representa el grado de satisfacción de los consumidores con este atributo. | Comentarios; texto corto | Clasificación de texto | Chino | ||
| 8 | Iflytek 'clasificación de texto largo | iflytek | Este conjunto de datos tiene más de 17,000 datos etiquetados por texto largo sobre descripciones de aplicaciones de aplicaciones, incluidos varios temas de aplicación relacionados con la vida diaria, con un total de 119 categorías | Texto largo | Clasificación de texto | Chino | |||
| 9 | Datos de clasificación de noticias en toda la red (Sogouca) | 16 de agosto de 2012 | Saltador | Estos datos provienen de datos de noticias de 18 canales, incluidos nacionales, internacionales, deportivos, sociales, entretenimiento, etc. de junio a julio de 2012, 2012. | noticias | Clasificación de texto | Chino | ||
| 10 | Datos de noticias SOHU (SoGoucs) | Agosto de 2012 | Saltador | La fuente de datos es Sohu News de 18 canales, incluidos nacionales, internacionales, deportivos, sociales, entretenimiento, etc. de junio a julio de 2012. | noticias | Clasificación de texto | Chino | ||
| 11 | Corpus de clasificación de noticias de la Universidad de Ciencia y Tecnología | Noviembre de 2017 | Instituto de Automatización de Liu Yu, Centro de Información Integral de la Academia de Ciencias de China | No puedo descargar por el momento, me he puesto en contacto con el autor, esperando comentarios | noticias | ||||
| 12 | Chnsenticorp_htl_all | Marzo de 2018 | https://github.com/sophonplus/chinesenlpcorpus | Más de 7000 datos de revisión del hotel, más de 5000 revisiones positivas, más de 2000 revisiones negativas | |||||
| 13 | waimai_10k | Marzo de 2018 | https://github.com/sophonplus/chinesenlpcorpus | Las revisiones de los usuarios recopiladas por una determinada plataforma de comida para llevar son 4,000 positivas y aproximadamente 8,000 negativas. | |||||
| 14 | en línea_shopping_10_cats | Marzo de 2018 | https://github.com/sophonplus/chinesenlpcorpus | Hay 10 categorías, con un total de más de 60,000 comentarios, y alrededor de 30,000 comentarios positivos y negativos, incluidos libros, tabletas, teléfonos móviles, frutas, champú, calentador de agua, Mengniu, ropa, computadoras, hoteles. | |||||
| 15 | weibo_senti_100k | Marzo de 2018 | https://github.com/sophonplus/chinesenlpcorpus | Más de 100,000 piezas, marcadas con emoción en Sina Weibo, y alrededor de 50,000 comentarios positivos y negativos son cada una | |||||
| 16 | Simplifyweibo_4_moods | Marzo de 2018 | https://github.com/sophonplus/chinesenlpcorpus | Más de 360,000 piezas, marcadas con emociones en Sina Weibo, contienen 4 tipos de emociones, incluidas alrededor de 200,000 piezas de alegría, alrededor de 50,000 piezas de ira, asco y depresión. | |||||
| 17 | dmsc_v2 | Marzo de 2018 | https://github.com/sophonplus/chinesenlpcorpus | 28 películas, más de 700,000 usuarios, más de 2 millones de calificaciones/datos de comentarios | |||||
| 18 | yf_dianping | Marzo de 2018 | https://github.com/sophonplus/chinesenlpcorpus | 240,000 restaurantes, 540,000 usuarios, 4.4 millones de comentarios/datos de calificación | |||||
| 19 | yf_amazon | Marzo de 2018 | https://github.com/sophonplus/chinesenlpcorpus | 520,000 elementos, más de 1,100 categorías, 1.42 millones de usuarios, 7.2 millones de comentarios/datos de calificación |
| IDENTIFICACIÓN | título | Fecha de actualización | Proveedor de datos | licencia | ilustrar | Palabras clave | categoría | Dirección en papel | Observación |
|---|---|---|---|---|---|---|---|---|---|
| 1 | LCQMC | 2018/6/6 | Centro de Investigación de Computación Inteligente del Instituto Harbin (Shenzhen) | Creative Commons Attribution 4.0 Licencia internacional | Este conjunto de datos contiene 260,068 pares de preguntas chinas de múltiples campos. Los pares de oraciones con la misma intención de consulta se marcan como 1, de lo contrario son 0; y están segmentados en el conjunto de entrenamiento: 238,766 pares, conjunto de validación: 8802 pares, conjunto de pruebas: 12,500 pares. | Matriota de pregunta a gran escala; coincidencia de intención | Matriota de texto corto; Magaz de preguntas | papel | |
| 2 | El corpus BQ | 2018/9/4 | Centro de Investigación de Computación Inteligente del Instituto Harbin de Tecnología (Shenzhen); Webank | Hay 120,000 pares de oraciones en este conjunto de datos, del registro de servicio de consultoría del banco durante un año; Los pares de oraciones contienen diferentes intenciones, marcadas con una relación de muestras positivas y negativas 1: 1. | Preguntas de servicio bancario; coincidencia de intención | Matriota de texto corto; Detección de consistencia de la pregunta | papel | ||
| 3 | AFQMC Ant Similitud semántica financiera | 2018/4/25 | Hormigas financieras | Proporcione 100,000 pares de datos etiquetados (actualizados en lotes, actualizados) como datos de capacitación, incluidos pares sinónimos y diferentes pares | Preguntas financieras | Matriota de texto corto; Magaz de preguntas | |||
| 4 | La tercera competencia de Paipaidai "Magic Mirror Cup" | 2018/6/10 | Instituto de Investigación de Finanzas Smart de Paipaidai | El archivo TREN.CSV contiene 3 columnas, a saber, la etiqueta (etiqueta, lo que significa si la pregunta 1 y la pregunta 2 significan lo mismo, 1 significa lo mismo y 0 significa la diferencia), el número de la pregunta 1 (Q1) y el número de la pregunta 2 (Q2). Todos los números de problemas que aparecen en este archivo han aparecido en preguntas.csv | Productos financieros | Matriota de texto corto; Magaz de preguntas | |||
| 5 | Cail2019 Competencia de coincidencia de casos similares | 2019/6 | Universidad Tsinghua; Red de documentos de juicio de China | Para cada datos, se utilizan trillizos (A, B, C) para representar los datos, donde A, B, C corresponden a un determinado documento. La similitud entre los datos del documento A y B siempre es mayor que la similitud entre A y B, es decir, SIM (A, B)> SIM (A, C) | Documentos legales; casos similares | Emparejamiento de texto largo | |||
| 6 | CCKS 2018 Webank Inteligente Servicio al Cliente Pregunta Competencia de coincidencia | 2018/4/5 | Centro de Investigación de Computación Inteligente del Instituto Harbin de Tecnología (Shenzhen); Webank | Preguntas de servicio bancario; coincidencia de intención | Matriota de texto corto; Magaz de preguntas | ||||
| 7 | Chinesetextualinferencia | 2018/12/15 | Liu Huanyong, Instituto de Investigación de Software, Academia de Ciencias de China | Proyecto de inferencia de texto chino, incluida la traducción y construcción de 880,000 conjuntos de datos de texto chinos que contienen texto que contienen texto, y la construcción del modelo de juicio que contiene texto basado en el aprendizaje profundo | NLI chino | Inferencia de texto chino; inclusión de texto | |||
| 8 | Nlpcc-dbqa | 2016/2017/2018 | NLPCC | Pregunta dada: la marca de la respuesta, y si esa respuesta es una de las respuestas a la pregunta, 1 significa que sí, 0 significa no | Dbqa | Preguntas y respuestas | |||
| 9 | Modelo de cálculo para la correlación entre los proyectos de "requisitos técnicos" y "logros técnicos" | 201/8/32 | CCF | Los requisitos técnicos y los logros técnicos en un formulario de texto dado, así como la etiqueta de correlación entre los requisitos y los resultados; La correlación entre los requisitos técnicos y los logros técnicos se divide en cuatro niveles: correlación fuerte, correlación fuerte, correlación débil y sin correlación sin correlación | Texto largo; Los requisitos coinciden con los resultados | Emparejamiento de texto largo | |||
| 10 | CNSD/CLUE-CMNLI | 2019/12 | Zengjunjun | Conjunto de datos de inferencia de lenguaje natural chino, estos datos y el conjunto de datos de inglés original se generan mediante la traducción y parte de la corrección manual, lo que puede aliviar el problema de la inferencia insuficiente del lenguaje natural chino y los conjuntos de datos de cálculo de similitud semántica en cierta medida. | NLI chino | Inferencia del lenguaje natural chino | papel | ||
| 11 | CMEDQA V1.0 | 2017/4/5 | Xunyao Xunyi.com y la Escuela de Sistemas de Información y Gestión de la Universidad Nacional de Tecnología de Defensa | El conjunto de datos es la pregunta y las respuestas formuladas en el sitio web de Xunyi Xunpharma. El conjunto de datos se ha procesado de forma anónima y proporciona 50,000 preguntas y 94,134 respuestas en el conjunto de capacitación, con un número promedio de caracteres por pregunta y respuestas que son 120 y 212 respectivamente; El conjunto de verificación tiene 2,000 preguntas y 3,774 respuestas, con un número promedio de caracteres por pregunta y respuestas que son 117 y 212 respectivamente; El conjunto de pruebas tiene 2,000 preguntas y 3,835 respuestas, con un número promedio de caracteres por pregunta y respuesta que son 119 y 211 respectivamente; El conjunto de datos tiene 54,000 preguntas y 101,743 respuestas, con un número promedio de caracteres por pregunta y respuesta que son 119 y 212 respectivamente; | Preguntas y respuestas médicas | Preguntas y respuestas | papel | ||
| 12 | CMEDQA2 | 2018/11/8 | Xunyao Xunyi.com y la Escuela de Sistemas de Información y Gestión de la Universidad Nacional de Tecnología de Defensa | La fuente de este conjunto de datos son las preguntas y respuestas formuladas en el sitio web Xunyi Xunpharma. El conjunto de datos ha sido procesado de forma anónima y proporciona una colección de 100,000 preguntas y 188,490 respuestas en el conjunto de capacitación, con un número promedio de caracteres por pregunta y respuestas 48 y 101 respectivamente; El conjunto de verificación tiene 4.000 preguntas y 7,527 respuestas, con un número promedio de caracteres por pregunta y respuesta que son 49 y 101 respectivamente; El conjunto de pruebas tiene 4.000 preguntas y 7,552 respuestas, con un número promedio de caracteres por pregunta y respuesta que son 49 y 100 respectivamente; El número total de caracteres por pregunta y respuesta son 108,000 preguntas y 203,569 respuestas, con un número promedio de caracteres por pregunta y respuesta que son 49 y 101 respectivamente; | Preguntas y respuestas médicas | Preguntas y respuestas | papel | ||
| 13 | Chinesests | 2017/9/21 | Tang Shancheng, Bai Yunyue, Ma Fuyu. Universidad de Ciencia y Tecnología de Xi'an | Este conjunto de datos proporciona 12747 pares de conjuntos de datos similares chinos. Después del conjunto de datos, los autores dan sus puntajes de similitud, y el corpus está compuesto por oraciones cortas. | Similitud de oración corta coincidencia | Coincidencia de similitud | |||
| 14 | DataSet de los problemas médicos Competencia de medición de similitud en poder de China Health Information Processing Conference | 2018 | ChIP 2018-La 4ta Conferencia de Procesamiento de Información de Salud de China (ChIP) | El objetivo principal de esta tarea de evaluación es coincidir con la intención de oraciones de preguntas basadas en el Corpus de consulta de salud de los pacientes chinos reales. Dadas dos declaraciones, se requiere determinar si las intenciones de los dos son las mismas o similares. Todo el corpus proviene de cuestiones reales de los pacientes en Internet y ha sido examinado y las etiquetas de coincidencia de intenciones artificiales. El conjunto de datos ha sido desensibilizado, y el problema está marcado por el conjunto de capacitación de indicación digital contiene aproximadamente 20,000 datos marcados (desensibilizados, incluidos los signos de puntuación), y el conjunto de pruebas contiene aproximadamente 10,000 datos sin etiquetas (desensibilizados, incluidos marcos de puntuación> símbolos). | Mataje de similitud para problemas médicos | Coincidencia de similitud | |||
| 15 | Cos960: un conjunto de datos de similitud de palabras chino de 960 pares de palabras | 2019/6/6 | Universidad de Tsinghua | El conjunto de datos contiene 960 pares de palabras, y cada par se mide por 15 hablantes nativos por puntajes de similitud. Los 960 pares de palabras se dividen en tres grupos según la etiqueta, incluidos 480 pares de sustantivos, 240 pares de verbos y 240 pares de adjetivos. | Similitud entre palabras | Sinónimos | papel | ||
| 16 | Oppo Mobile Search Sorte-Title-Title Semantic Matching DataSet. (https://pan.baidu.com/s/1hg2hubsn3geuu4gubbhczw contraseña 7p3n) | 2018/11/6 | Opto | Este conjunto de datos proviene del escenario de búsqueda de optimización de la clasificación de la búsqueda del teléfono móvil OPPO. Este escenario devuelve el resultado de la consulta en tiempo real a medida que el usuario entra continuamente. Este conjunto de datos se ha simplificado en consecuencia sobre esta base, proporcionando una coincidencia semántica de título de consulta, es decir, el problema de la predicción de CTR. | Madaz del título de la pregunta, predicción de CTR | Coincidencia de similitud | |||
| 17 | Evaluación de resultados de búsqueda web (Sogoue) | 2012 | Saltador | Acuerdo de licencia de datos de laboratorio de Sogou | Este conjunto de datos contiene términos de consulta, URL relacionadas y datos de búsqueda para categorías de consultas. El formato es el siguiente: Términos de consulta] Telation URL tQuery Categoría donde se garantiza que las URL existen en el Corpus de Internet correspondiente; "1" en la categoría de consulta representa la consulta de navegación; "2" representa la consulta de información. | Evaluación de rendimiento automático del motor de búsqueda con análisis de datos de clics | Predicción de coincidencia de tipo de consulta |
| IDENTIFICACIÓN | título | Fecha de actualización | Proveedor de datos | licencia | ilustrar | Palabras clave | categoría | Dirección en papel | Observación |
|---|---|---|---|---|---|---|---|---|---|
| 1 | LCSTS | 2015/8/6 | Qingcai Chen | El conjunto de datos es de Sina Weibo y contiene alrededor de dos millones de textos cortos chinos reales. Cada datos incluye dos campos, resumen y texto anotado por el autor. Hay 10,666 datos marcados manualmente la correlación entre el texto corto y el resumen, y las correlaciones aumentan a su vez de 1 a 5. | Resumen de texto único; texto corto; relevancia del texto | Resumen de texto | papel | ||
| 2 | Conjunto de datos de resumen de texto corto chino | 2018/6/20 | El zhengfang | Los datos provienen de Weibo publicados por Sina Weibo Mainstream Media, con un total de 679,898 datos. | Resumen de texto único; texto corto | Resumen de texto | |||
| 3 | Educación y capacitación Industria Resumen Abstracto automático Corpus chino | 2018/6/5 | anónimo | El corpus recopila artículos históricos de los principales medios verticales en la industria de la educación y la capacitación, con aproximadamente 24,500 datos, cada datos, incluidos dos campos anotados por el autor y el cuerpo. | Resumen de texto único; Educación y capacitación | Resumen de texto | |||
| 4 | NLPCC2017 Tarea3 | 2017/11/8 | Organizador de NLPCC2017 | El conjunto de datos se deriva del campo de noticias y es un datos de tareas proporcionados por NLPCC 2017 y se pueden utilizar para un resumen de texto único. | Resumen de texto único; noticias | Resumen de texto | |||
| 5 | Shence Cup 2018 | 2018/10/11 | Organizador de concursos de DC | Los datos provienen del texto de noticias y es proporcionado por el organizador de la competencia de DC. Simula escenarios comerciales y tiene como objetivo extraer palabras centrales de textos de noticias. El resultado final es mejorar el efecto de las recomendaciones y los retratos del usuario. | Palabras clave de texto; noticias | Resumen de texto | |||
| 6 | Byte Cup 2018 Competencia internacional de aprendizaje automático | 2018/12/4 | Byte | Los datos provienen de los artículos Topbuzz y de derechos de autor de Open Bytedance. El conjunto de capacitación incluye aproximadamente 1.3 millones de información de texto, 1,000 artículos en el conjunto de verificación y 800 artículos en el conjunto de pruebas. Los datos para cada conjunto de pruebas y conjunto de validación se etiquetan manualmente con múltiples títulos posibles como una alternativa de respuesta mediante edición manual. | Resumen de texto único; video; noticias | Resumen de texto | Inglés | ||
| 7 | Salón | 2018/6/1 | Aro | Los datos se obtuvieron de los metadatos sociales y de búsqueda de 1998 a 2017 y utilizaron una combinación de estrategias abstractas que combinan extracción y abstracción, incluidos 1.3 millones de artículos y resúmenes escritos por el autor y editor en 38 departamentos editoriales de publicaciones principales. | Resumen de texto único; metadatos sociales; buscar | Resumen de texto | papel | Inglés | |
| 8 | [Duc/tac] (https://duc.nist.gov/ https://tac.nist.gov//) | 2014/9/9 | Nist | El nombre completo es la conferencia de comprensión de documentos/análisis de texto. El conjunto de datos se deriva de las líneas de noticias y textos web en el corpus utilizado en la competencia anual de TAC KBP (Población de la base de conocimiento de TAC). | Texto único/resumen de texto múltiple; noticias | Resumen de texto | Inglés | ||
| 9 | CNN/Daily Mail | 2017/7/31 | Standford | GNU V3 | El conjunto de datos proviene de CNN y DailyMail en teléfonos móviles alrededor de un millón de datos de noticias como un corpus de comprensión de lectura a máquina. | Resumen de texto múltiple; texto largo; noticias | Resumen de texto | papel | Inglés |
| 10 | Reseña de Amazon Snap | 2013/3/1 | Standford | Los datos provienen de revisiones de compras de sitios web de Amazon, y puede obtener datos en cada categoría principal (como alimentos, películas, etc.), o puede obtener todos los datos a la vez. | Resumen de texto múltiple; reseñas de compras | Resumen de texto | Inglés | ||
| 11 | Gigaword | 2003/1/28 | David Graff, Christopher Cieri | El conjunto de datos incluye alrededor de 950,000 artículos de noticias, que se abstraen por el título del artículo, y pertenecen al conjunto de datos de resumen de oraciones individuales. | Resumen de texto único; noticias | Resumen de texto | Inglés | ||
| 12 | RA-MDS | 2017/9/11 | Piji Li | El nombre completo es el resumen de documentos múltiples conscientes del lector. El conjunto de datos se deriva de artículos de noticias y es recopilado, marcado y revisado por expertos. Se cubren 45 temas, cada uno con 10 documentos de noticias y 4 resumen del modelo, cada documento de noticias contiene un promedio de 27 oraciones y un promedio de 25 palabras por oración. | Resumen de texto múltiple; noticias; etiquetado manual | Resumen de texto | papel | Inglés | |
| 13 | Sumidero de tipster | 2003/5/21 | La Corporación Mitre y la Universidad de Edimburgo | Los datos consisten en 183 documentos marcados por la recopilación de computación y lenguaje (CMP-LG), y los documentos se toman de los documentos publicados por la Conferencia de ACL. | Resumen de texto múltiple; texto largo | Resumen de texto | Inglés | ||
| 14 | Wikihow | 2018/10/18 | Mahnaz Koupaee | Cada datos es un artículo, cada artículo consta de múltiples párrafos, cada párrafo comienza con una oración que lo resume. Al fusionar párrafos para formar artículos y esquemas de párrafos para formar resúmenes, la versión final del conjunto de datos contiene más de 200,000 pares de secuencias largas. | Resumen de texto múltiple; texto largo | Resumen de texto | papel | Inglés | |
| 15 | Múltiples | 2019/12/4 | Alex Fabbri | Los datos provienen de artículos de entrada de más de 1500 sitios web diferentes y un resumen profesional de 56,216 de estos artículos obtenidos del sitio web Newser.com. | Resumen de texto múltiple | Resumen de texto | papel | Inglés | |
| 16 | Resúmenes médicos | 2018/8/17 | D. Potapov | El conjunto de datos se utiliza para la evaluación de resumen de video dinámico y contiene anotaciones para 160 videos, incluidos 60 conjuntos de validación, 100 conjuntos de pruebas y 10 categorías de eventos en el conjunto de pruebas. | Resumen de texto único; Comentarios de video | Resumen de texto | papel | Inglés | |
| 17 | Bigpatent | 2019/7/27 | Sharma | El conjunto de datos incluye 1.3 millones de registros de documentos de patentes de EE. UU. Y resúmenes de resúmenes escritos humanos que contienen estructuras de discurso más ricas y entidades más utilizadas. | Resumen de texto único; patentar; escrito | Resumen de texto | papel | Inglés | |
| 18 | [NYT] (https://catalog.ldc.upenn.edu/ldc2008t19) | 2008/10/17 | Evan Sandhaus | El nombre completo es The New York Times, el conjunto de datos contiene 150 artículos comerciales del New York Times, y captura todos los artículos en el sitio web del New York Times de noviembre de 2009 a enero de 2010. | Resumen de texto único; artículo comercial | Resumen de texto | Inglés | ||
| 19 | El texto del Corpus de Aquaint de English News | 2002/9/26 | David Graff | El conjunto de datos consta de datos de texto de noticias en inglés de la Agencia de Noticias Xinhua (República Popular de China), el Servicio de Noticias del New York Times y el Servicio de Noticias Mundiales de Associated Press, y contiene aproximadamente 375 millones de palabras. Cargos de conjunto de datos. | Resumen de texto único; noticias | Resumen de texto | Chino e inglés | ||
| 20 | Conjunto de datos de informes de casos legales | 2012/10/19 | Filippo Galgani | El conjunto de datos proviene de los casos legales australianos del Tribunal Federal de Australia (FCA) de 2006 a 2009, y contiene aproximadamente 4.000 casos legales y su resumen. | Resumen de texto único; caso legal | Resumen de texto | Inglés | ||
| veintiuno | 17 líneas de tiempo | 2015/5/29 | GB Tran | Los datos son contenido extraído de las páginas web de artículos de noticias, incluidas noticias de cuatro países: Egipto, Libia, Yemen y Siria. | Resumen de texto único; noticias | Resumen de texto | papel | Plurilingüe | |
| Veintidós | Corpus PTS | 2018/10/9 | Fei Sun | El nombre completo es el Corpus de resumen del título del producto, los datos muestran el resumen de los nombres de productos en aplicaciones de comercio electrónico para dispositivos móviles | Resumen de texto único; texto corto | Resumen de texto | papel | ||
| veintitrés | Conjuntos de datos de resumen científico | 2019/10/26 | Santosh Gupta | El conjunto de datos fue tomado de Semantic Scholar Corpus y Arxiv. Título/par de resúmenes de Semantic Scholar Corpus, filtrando todos los documentos en el campo de la biomédica y contiene 5,8 millones de datos. Datos de ARXIV, que contienen títulos/pares de abstractos de cada artículo desde 1991 hasta 5 de julio de 2019. El conjunto de datos contiene 10k de datos financieros, 26k de biología, 417k de matemáticas, 1.57 millones de física y 221k de CS. | Resumen de texto único; papel | Resumen de texto | Inglés | ||
| veinticuatro | Corpus de resumen de documentos científicos y anotaciones del grupo NUS Wing NUS | 2019/3/19 | Jaidka | El conjunto de datos incluye trabajos de investigación sobre lingüística computacional de LCA y procesamiento del lenguaje natural, así como sus respectivos documentos citados y tres resúmenes de salida: un documento de autor tradicional Resumen (Resumen), un resumen comunitario (una colección de "citas" de citas ") y un resumen humano escrito por un anotador capacitado, y el conjunto de capacitación contiene 40 artículos y documentos citados. | Resumen de texto único; papel | Resumen de texto | papel | Inglés |
| IDENTIFICACIÓN | título | Fecha de actualización | Proveedor de datos | licencia | ilustrar | Palabras clave | categoría | Dirección en papel | Observación |
|---|---|---|---|---|---|---|---|---|---|
| 1 | WMT2017 | 2017/2/1 | Taller EMNLP 2017 sobre traducción automática | Los datos provienen principalmente de las dos instituciones Europarl Corpus y la Corpus de la ONU, y vienen con artículos reextracidos de la tarea del Corpus de comentarios de noticias en 2017. Este es un corpus de traducción proporcionado por la Conferencia EMNLP, como un punto de referencia para muchos efectos en papel para detectar | Benchmark, WMT2017 | Materiales de traducción chino-inglés | papel | ||
| 2 | WMT2018 | 2018/11/1 | Taller de EMNLP 2018 sobre traducción automática | Los datos provienen principalmente de las dos instituciones Europarl Corpus y la Corpus de la ONU, y vienen con artículos reextracidos de la tarea del Corpus de Comentarios de News en 2018. Este es un corpus de traducción proporcionado por la Conferencia EMNLP, como un punto de referencia para muchos efectos en papel para detectar | Benchmark, WMT2018 | Materiales de traducción chino-inglés | papel | ||
| 3 | WMT2019 | 2019/1/31 | Taller de EMNLP 2019 sobre traducción automática | 数据主要来源于Europarl corpus和UN corpus两个机构, 以及附加了news-commentary corpus and the ParaCrawl corpus中来得数据 | Benchmark, WMT2019 | 中英翻译语料 | papel | ||
| 4 | UM-Corpus:A Large English-Chinese Parallel Corpus | 2014/5/26 | Department of Computer and Information Science, University of Macau, Macau | 由澳门大学发布的中英文对照的高质量翻译语料 | UM-Corpus;English; Chinese;large | 中英翻译语料 | papel | ||
| 5 | [Ai challenger translation 2017](https://pan.baidu.com/s/1E5gD5QnZvNxT3ZLtxe_boA 提取码: stjf) | 2017/8/14 | 创新工场、搜狗和今日头条联合发起的AI科技竞赛 | 规模最大的口语领域英中双语对照数据集。 提供了超过1000万的英中对照的句子对作为数据集合。 所有双语句对经过人工检查, 数据集从规模、相关度、质量上都有保障。 训练集:10,000,000 句验证集(同声传译):934 句验证集(文本翻译):8000 句 | AI challenger 2017 | 中英翻译语料 | |||
| 6 | MultiUN | 2010 | Department of Linguistics and Philology Uppsala University, Uppsala/Sweden | 该数据集由德国人工智能研究中心提供, 除此数据集外,该网站还提供了很多的别的语言之间的翻译对照语料供下载 | MultiUN | 中英翻译语料 | MultiUN: A Multilingual corpus from United Nation Documents, Andreas Eisele and Yu Chen, LREC 2010 | ||
| 7 | NIST 2002 Open Machine Translation (OpenMT) Evaluation | 2010/5/14 | NIST Multimodal Information Group | LDC User Agreement for Non-Members | 数据来源于Xinhua 新闻服务包含70个新闻故事, 以及来自于Zaobao新闻服务的30个新闻故事,共100个从两个新闻集中选择出来的故事的长度都再212到707个中文字符之间,Xinhua部分共有有25247个字符, Zaobao有39256个字符 | NIST | 中英翻译语料 | papel | 该系列有多年的数据, 该数据使用需要付费 |
| 8 | The Multitarget TED Talks Task (MTTT) | 2018 | Kevin Duh, JUH | 该数据集包含基于TED演讲的多种语言的平行语料,包含中英文等共计20种语言 | Ted | 中英翻译语料 | The Multitarget TED Talks Task | ||
| 9 | ASPEC Chinese-Japanese | 2019 | Workshop on Asian Translation | 该数据集主要研究亚洲区域的语言,如中文和日语之间, 日语和英文之间的翻译任务翻译语料主要来自语科技论文(论文摘要;发明描述;专利等等) | Asian scientific patent Japanese | 中日翻译语料 | http://lotus.kuee.kyoto-u.ac.jp/WAT/ | ||
| 10 | casia2015 | 2015 | research group in Institute of Automation , Chinese Academy of Sciences | 语料库包含从网络自动收集的大约一百万个句子对 | casia CWMT 2015 | 中英翻译语料 | |||
| 11 | casict2011 | 2011 | research group in Institute of Computing Technology , Chinese Academy of Sciences | 语料库包含2个部分,每个部分包含从网络自动收集的大约1百万(总计2百万)个句子对。 句子级别的对齐精度约为90%。 | casict CWMT 2011 | 中英翻译语料 | |||
| 12 | casict2015 | 2015 | research group in Institute of Computing Technology , Chinese Academy of Sciences | 语料库包含大约200万个句子对,包括从网络(60%), 电影字幕(20%)和英语/汉语词库(20%)收集的句子。 句子水平对齐精度高于99%。 | casict CWMT 2015 | 中英翻译语料 | |||
| 13 | datum2015 | 2015 | Datum Data Co., Ltd. | 语料库包含一百万对句子,涵盖不同类型, 例如用于语言教育的教科书,双语书籍, 技术文档,双语新闻,政府白皮书, 政府文档,网络上的双语资源等。 请注意,数据中文部分的某些部分是按词段划分的。 | datum CWMT 2015 | 中英翻译语料 | |||
| 14 | datum2017 | 2017 | Datum Data Co., Ltd. | 语料库包含20个文件,涵盖不同类型,例如新闻,对话,法律文件,小说等。 每个文件有50,000个句子。 整个语料库包含一百万个句子。 前10个文件(Book1-Book10)的中文词均已分段。 | datum CWMT 2017 | 中英翻译语料 | |||
| 15 | neu2017 | 2017 | NLP lab of Northeastern University, China | 语料库包含从网络自动收集的200万个句子对,包括新闻,技术文档等。 句子级别的对齐精度约为90%。 | neu CWMT 2017 | 中英翻译语料 | |||
| 16 | 翻译语料(translation2019zh) | 2019 | 徐亮 | 可以用于训练中英文翻译系统,从中文翻译到英文,或从英文翻译到中文; 由于有上百万的中文句子,可以只抽取中文的句子,做为通用中文语料,训练词向量或做为预训练的语料。英文任务也可以类似操作; |
| IDENTIFICACIÓN | título | Fecha de actualización | 数据集提供者 | licencia | ilustrar | Palabras clave | categoría | 论文地址 | Observación |
|---|---|---|---|---|---|---|---|---|---|
| 1 | NLPIR微博关注关系语料库100万条 | 2017/12/2 | 北京理工大学网络搜索挖掘与安全实验室张华平博士 | NLPIR微博关注关系语料库说明1.NLPIR微博关注关系语料库由北京理工大学网络搜索挖掘与安全实验室张华平博士,通过公开采集与抽取从新浪微博、腾讯微博中获得。为了推进微博计算的研究,现通过自然语言处理与信息检索共享平台(127.0.0.1/wordpress)予以公开共享其中的1000万条数据(目前已有数据接近10亿,已经剔除了大量的冗余数据); 2.本语料库在公开过程中,已经最大限度地采用技术手段屏蔽了用户真实姓名和url,如果涉及到的用户需要全面保护个人隐私的,可以Email给张华平博士[email protected]予以删除,对给您造成的困扰表示抱歉,并希望谅解; 3.只适用于科研教学用途,不得作为商用;引用本语料库,恭请在软件或者论文等成果特定位置表明出处为:NLPIR微博语料库,出处为自然语言处理与信息检索共享平台(http://www.nlpir.org/)。 4.字段说明: person_id 人物的id guanzhu_id 所关注人的id |
| IDENTIFICACIÓN | título | Fecha de actualización | 数据集提供者 | licencia | ilustrar | Palabras clave | categoría | 论文地址 | Observación |
|---|---|---|---|---|---|---|---|---|---|
| 1 | NLPIR微博内容语料库-23万条 | 2017年12月 | 北京理工大学网络搜索挖掘与安全实验室张华平博士 | NLPIR微博内容语料库说明1.NLPIR微博内容语料库由北京理工大学网络搜索挖掘与安全实验室张华平博士,通过公开采集与抽取从新浪微博、腾讯微博中获得。为了推进微博计算的研究,现通过自然语言处理与信息检索共享平台(127.0.0.1/wordpress)予以公开共享其中的23万条数据(目前已有数据接近1000万,已经剔除了大量的冗余数据)。 2.本语料库在公开过程中,已经最大限度地采用技术手段屏蔽了用户真实姓名和url,如果涉及到的用户需要全面保护个人隐私的,可以Email给张华平博士[email protected]予以删除,对给您造成的困扰表示抱歉,并希望谅解; 3.只适用于科研教学用途,不得作为商用;引用本语料库,恭请在软件或者论文等成果特定位置表明出处为:NLPIR微博语料库,出处为自然语言处理与信息检索共享平台(http://www.nlpir.org/)。 4.字段说明: id 文章编号article 正文discuss 评论数目insertTime 正文插入时间origin 来源person_id 所属人物的id time 正文发布时间transmit 转发 | |||||
| 2 | 500万微博语料 | 2018年1月 | 北京理工大学网络搜索挖掘与安全实验室张华平博士 | 【500万微博语料】北理工搜索挖掘实验室主任@ICTCLAS张华平博士提供500万微博语料供大家使用,文件为sql文件,只能导入mysql数据库,内含建表语句,共500万数据。语料只适用于科研教学用途,不得作为商用;引用本语料库,请在软件或者论文等成果特定位置表明出处。 【看起来这份数据比上面那一份要杂糅一些,没有做过处理】 | |||||
| 3 | NLPIR新闻语料库-2400万字 | Julio de 2017 | www.NLPIR.org | NLPIR新闻语料库说明1.解压缩后数据量为48MB,大约2400万字的新闻; 2.采集的新闻时间跨度为2009年10月12日至2009年12月14日。 3.文件名为新闻的时间;每个文件包括多个新闻正文内容(已经去除了新闻的垃圾信息); 4.新闻本身内容的版权属于原作者或者新闻机构; 5.整理后的语料库版权属于www.NLPIR.org; 6.可供新闻分析、自然语言处理、搜索等应用提供测试数据场景; 如需更大规模的语料库,可以联系NLPIR.org管理员。 | |||||
| 4 | NLPIR微博关注关系语料库100万条 | 2017年12月 | 北京理工大学网络搜索挖掘与安全实验室张华平博士 | NLPIR微博关注关系语料库说明1.NLPIR微博关注关系语料库由北京理工大学网络搜索挖掘与安全实验室张华平博士,通过公开采集与抽取从新浪微博、腾讯微博中获得。为了推进微博计算的研究,现通过自然语言处理与信息检索共享平台(127.0.0.1/wordpress)予以公开共享其中的1000万条数据(目前已有数据接近10亿,已经剔除了大量的冗余数据); 2.本语料库在公开过程中,已经最大限度地采用技术手段屏蔽了用户真实姓名和url,如果涉及到的用户需要全面保护个人隐私的,可以Email给张华平博士[email protected]予以删除,对给您造成的困扰表示抱歉,并希望谅解; 3.只适用于科研教学用途,不得作为商用;引用本语料库,恭请在软件或者论文等成果特定位置表明出处为:NLPIR微博语料库,出处为自然语言处理与信息检索共享平台(http://www.nlpir.org/)。 4.字段说明: person_id 人物的id guanzhu_id 所关注人的id | |||||
| 5 | NLPIR微博博主语料库100万条 | 2017年9月 | 北京理工大学网络搜索挖掘与安全实验室张华平博士 | NLPIR微博博主语料库说明1.NLPIR微博博主语料库由北京理工大学网络搜索挖掘与安全实验室张华平博士,通过公开采集与抽取从新浪微博、腾讯微博中获得。为了推进微博计算的研究,现通过自然语言处理与信息检索共享平台(127.0.0.1/wordpress)予以公开共享其中的100万条数据(目前已有数据接近1亿,已经剔除了大量的冗余与机器粉丝) 2.本语料库在公开过程中,已经最大限度地采用技术手段屏蔽了用户真实姓名和url,如果涉及到的用户需要全面保护个人隐私的,可以Email给张华平博士[email protected]予以删除,对给您造成的困扰表示抱歉,并希望谅解; 3.只适用于科研教学用途,不得作为商用;引用本语料库,恭请在软件或者论文等成果特定位置表明出处为:NLPIR微博语料库,出处为自然语言处理与信息检索共享平台(http://www.nlpir.org/)。 4.字段说明: id 内部id sex 性别address 家庭住址fansNum 粉丝数目summary 个人摘要wbNum 微博数量gzNum 关注数量blog 博客地址edu 教育情况work 工作情况renZh 是否认证brithday 生日; | |||||
| 6 | NLPIR短文本语料库-40万字 | 2017年8月 | 北京理工大学网络搜索挖掘与安全实验室(SMS@BIT) | NLPIR短文本语料库说明1.解压缩后数据量为48万字,大约8704篇短文本内容; 2.整理后的语料库版权属于www.NLPIR.org; 3.可供短文本自然语言处理、搜索、舆情分析等应用提供测试数据场景; | |||||
| 7 | 维基百科语料库 | Wikipedia | 维基百科会定期打包发布语料库 | ||||||
| 8 | 古诗词数据库 | 2020 | github主爬虫,http://shici.store | ||||||
| 9 | 保险行业语料库 | 2017年 | 该语料库包含从网站Insurance Library 收集的问题和答案。 据我们所知,这是保险领域首个开放的QA语料库: 该语料库的内容由现实世界的用户提出,高质量的答案由具有深度领域知识的专业人士提供。 所以这是一个具有真正价值的语料,而不是玩具。 在上述论文中,语料库用于答复选择任务。 另一方面,这种语料库的其他用法也是可能的。 例如,通过阅读理解答案,观察学习等自主学习,使系统能够最终拿出自己的看不见的问题的答案。 数据集分为两个部分“问答语料”和“问答对语料”。问答语料是从原始英文数据翻译过来,未经其他处理的。问答对语料是基于问答语料,又做了分词和去标去停,添加label。所以,"问答对语料"可以直接对接机器学习任务。如果对于数据格式不满意或者对分词效果不满意,可以直接对"问答语料"使用其他方法进行处理,获得可以用于训练模型的数据。 | ||||||
| 10 | 汉语拆字字典 | 1905年7月 | 本倉庫含開放詞典網用以提供字旁和部件查詢的拆字字典數據庫,有便利使用者查難打漢字等用途。目前數據庫收錄17,803不同漢字的拆法,分為繁體字(chaizi-ft.txt)和簡體字(chaizi-jt.txt)兩個版本。 拆字法有別於固有的筆順字庫。拆字著重於儘量把每個字拆成兩個以上的組成部件,而不是拆成手寫字時所使用的筆畫。 | ||||||
| 11 | 新闻预料 | 2016年 | 徐亮 | 可以做为【通用中文语料】,训练【词向量】或做为【预训练】的语料; 也可以用于训练【标题生成】模型,或训练【关键词生成】模型(选关键词内容不同于标题的数据); 亦可以通过新闻渠道区分出新闻的类型。 | |||||
| 12 | 百科类问答json版(baike2018qa) | 2018 | 徐亮 | 可以做为通用中文语料,训练词向量或做为预训练的语料;也可以用于构建百科类问答;其中类别信息比较有用,可以用于做监督训练,从而构建更好句子表示的模型、句子相似性任务等。 | |||||
| 13 | 社区问答json版(webtext2019zh) :大规模高质量数据集 | 2019 | 徐亮 | 1)构建百科类问答:输入一个问题,构建检索系统得到一个回复或生产一个回复;或根据相关关键词从,社区问答库中筛选出你相关的领域数据2)训练话题预测模型:输入一个问题(和或描述),预测属于话题。 3)训练社区问答(cQA)系统:针对一问多答的场景,输入一个问题,找到最相关的问题,在这个基础上基于不同答案回复的质量、 问题与答案的相关性,找到最好的答案。 4)做为通用中文语料,做大模型预训练的语料或训练词向量。其中类别信息也比较有用,可以用于做监督训练,从而构建更好句子表示的模型、句子相似性任务等。 5)结合点赞数量这一额外信息,预测回复的受欢迎程度或训练答案评分系统。 | |||||
| 14 | .维基百科json版(wiki2019zh) | 2019 | 徐亮 | 可以做为通用中文语料,做预训练的语料或构建词向量,也可以用于构建知识问答。【不同于wiki原始释放的数据集,这个处理过了】 |
| IDENTIFICACIÓN | título | Fecha de actualización | 数据集提供者 | licencia | ilustrar | Palabras clave | categoría | 论文地址 | Observación |
|---|---|---|---|---|---|---|---|---|---|
| 1 | 百度WebQA | 2016 | Baidu | 来自于百度知道;格式为一个问题多篇意思基本一致的文章,分为人为标注以及浏览器检索 | 阅读理解、百度知道真实问题 | 中文阅读理解 | papel | ||
| 2 | DuReader 1.0 | 2018/3/1 | Baidu | Apache2.0 | 本次竞赛数据集来自搜索引擎真实应用场景,其中的问题为百度搜索用户的真实问题,每个问题对应5个候选文档文本及人工整理的优质答案。 | 阅读理解、百度搜索真实问题 | 中文阅读理解 | papel | |
| 3 | SogouQA | 2018 | 搜狗 | CIPS-SOGOU问答比赛数据;来自于搜狗搜索引擎真实用户提交的查询请求;含有事实类与非事实类数据 | 阅读理解、搜狗搜索引擎真实问题 | 中文阅读理解 | |||
| 4 | 中文法律阅读理解数据集CJRC | 2019/8/17 | 哈工大讯飞联合实验室(HFL) | 数据集包含约10,000篇文档,主要涉及民事一审判决书和刑事一审判决书。通过抽取裁判文书的事实描述内容,针对事实描述内容标注问题,最终形成约50,000个问答对 | 阅读理解、中文法律领域 | 中文阅读理解 | papel | ||
| 5 | 2019“讯飞杯”中文机器阅读理解数据集(CMRC ) | 2019年10月 | 哈工大讯飞联合实验室(HFL) | CC-BY-SA-4.0 | 本次阅读理解的任务是句子级填空型阅读理解。 根据给定的一个叙事篇章以及若干个从篇章中抽取出的句子,参赛者需要建立模型将候选句子精准的填回原篇章中,使之成为完整的一篇文章。 | 句子级填空型阅读理解 | 中文阅读理解 | 赛事官网:https://hfl-rc.github.io/cmrc2019/ | |
| 6 | 2018“讯飞杯”中文机器阅读理解数据集(CMRC ) | 2018/10/19 | 哈工大讯飞联合实验室(HFL) | CC-BY-SA-4.0 | CMRC 2018数据集包含了约20,000个在维基百科文本上人工标注的问题。同时,我们还标注了一个挑战集,其中包含了需要多句推理才能够正确解答的问题,更富有挑战性 | 阅读理解、基于篇章片段抽取 | 中文阅读理解 | papel | 赛事官网:https://hfl-rc.github.io/cmrc2018/ |
| 7 | 2017“讯飞杯”中文机器阅读理解数据集(CMRC ) | 2017/10/14 | 哈工大讯飞联合实验室(HFL) | CC-BY-SA-4.0 | 首个中文填空型阅读理解数据集PD&CFT | 填空型阅读理解 | 中文阅读理解 | papel | 赛事官网 |
| 8 | 莱斯杯:全国第二届“军事智能机器阅读”挑战赛 | 2019/9/3 | 中电莱斯信息系统有限公司 | 面向军事应用场景的大规模中文阅读理解数据集,围绕多文档机器阅读理解进行竞赛,涉及理解、推理等复杂技术。 | 多文档机器阅读理解 | 中文阅读理解 | 赛事官网 | ||
| 9 | ReCO | 2020 | 搜狗 | 来源于搜狗的浏览器用户输入;有多选和直接答案 | 阅读理解、搜狗搜索 | 中文阅读理解 | papel | ||
| 10 | DuReader-checklist | 2021/3 | Baidu | Apache-2.0 | 建立了细粒度的、多维度的评测数据集,从词汇理解、短语理解、语义角色理解、逻辑推理等多个维度检测模型的不足之处,从而推动阅读理解评测进入“精细化“时代 | 细粒度阅读理解 | 中文阅读理解 | 赛事官网 | |
| 11 | DuReader-Robust | 2020/8 | Baidu | Apache-2.0 | 从过敏感性,过稳定性以及泛化性多个维度构建了测试阅读理解鲁棒性的数据 | 百度搜索、鲁棒性阅读理解 | 中文阅读理解 | papel | 赛事官网 |
| 12 | DuReader-YesNo | 2020/8 | Baidu | Apache-2.0 | DuReader yesno是一个以观点极性判断为目标任务的数据集,可以弥补抽取类数据集评测指标的缺陷,从而更好地评价模型对观点极性的理解能力。 | 观点型阅读理解 | 中文阅读理解 | 赛事官网 | |
| 13 | DuReader2.0 | 2021 | Baidu | Apache-2.0 | DuReader2.0是全新的大规模中文阅读理解数据,来源于用户真实输入,真实场景 | 阅读理解 | 中文阅读理解 | papel | 赛事官网 |
| 14 | CAIL2020 | 2020 | 哈工大讯飞联合实验室(HFL) | 中文司法阅读理解任务,今年我们将提出升级版,不仅文书种类由民事、刑事扩展为民事、刑事、行政,问题类型也由单步预测扩展为多步推理,难度有所升级。 | 法律阅读理解 | 中文阅读理解 | 赛事官网 | ||
| 15 | CAIL2021 | 2021 | 哈工大讯飞联合实验室(HFL) | 中文法律阅读理解比赛引入多片段回答的问题类型,即部分问题需要抽取文章中的多个片段组合成最终答案。希望多片段问题类型的引入,能够扩大中文机器阅读理解的场景适用性。本次比赛依旧保留单片段、是否类和拒答类的问题类型。 | 法律阅读理解 | 中文阅读理解 | 赛事官网 | ||
| 16 | CoQA | 2018/9 | 斯坦福大学 | CC BY-SA 4.0、Apache等 | CoQA是面向建立对话式问答系统的大型数据集,挑战的目标是衡量机器对文本的理解能力,以及机器面向对话中出现的彼此相关的问题的回答能力的高低 | 对话问答 | 英文阅读理解 | papel | Sitio web oficial |
| 17 | SQuAD2.0 | 2018/1/11 | 斯坦福大学 | 行业内公认的机器阅读理解领域的顶级水平测试;它构建了一个包含十万个问题的大规模机器阅读理解数据集,选取超过500 篇的维基百科文章。数据集中每一个阅读理解问题的答案是来自给定的阅读文章的一小段文本—— 以及,现在在SQuAD 2.0 中还要判断这个问题是否能够根据当前的阅读文本作答 | 问答、包含未知答案 | 英文阅读理解 | papel | ||
| 18 | SQuAD1.0 | 2016 | 斯坦福大学 | 斯坦福大学于2016年推出的阅读理解数据集,给定一篇文章和相应问题,需要算法给出问题的答案。此数据集所有文章选自维基百科,一共有107,785问题,以及配套的536 篇文章 | 问答、基于篇章片段抽取 | 英文阅读理解 | papel | ||
| 19 | MCTest | 2013 | Microsoft | 100,000个必应Bing问题和人工生成的答案。从那时起,相继发布了1,000,000个问题数据集,自然语言生成数据集,段落排名数据集,关键词提取数据集,爬网数据集和会话搜索。 | 问答、搜索 | 英文阅读理解 | papel | ||
| 20 | CNN/Dailymail | 2015 | DeepMind | Apache-2.0 | 填空型大规模英文机器理解数据集,答案是原文中的某一个词。 CNN数据集包含美国有线电视新闻网的新闻文章和相关问题。大约有90k文章和380k问题。 Dailymail数据集包含每日新闻的文章和相关问题。大约有197k文章和879k问题。 | 问答对、填空型阅读理解 | 英文阅读理解 | papel | |
| veintiuno | CARRERA | 2017 | 卡耐基梅隆大学 | / | 数据集为中国中学生英语阅读理解题目,给定一篇文章和5 道4 选1 的题目,包括了28000+ passages 和100,000 问题。 | 选择题形式 | 英文阅读理解 | papel | 下载需邮件申请 |
| Veintidós | HEAD-QA | 2019 | aghie | MIT | 一个面向复杂推理的医疗保健、多选问答数据集。提供英语、西班牙语两种形式的数据 | 医疗领域、选择题形式 | 英文阅读理解西班牙语阅读理解 | papel | |
| veintitrés | Consensus Attention-based Neural Networks for Chinese Reading Comprehension | 2018 | 哈工大讯飞联合实验室 | / | 中文完形填空型阅读理解 | 填空型阅读理解 | 中文阅读理解 | papel | |
| veinticuatro | WikiQA | 2015 | Microsoft | / | WikiQA语料库是一个新的公开的问题和句子对集,收集并注释用于开放域问答研究 | 片段抽取阅读理解 | 英文阅读理解 | papel | |
| 25 | Children's Book Test (CBT) | 2016 | / | 测试语言模型如何在儿童书籍中捕捉意义。与标准语言建模基准不同,它将预测句法功能词的任务与预测语义内容更丰富的低频词的任务区分开来 | 填空型阅读理解 | 英文阅读理解 | papel | ||
| 26 | NewsQA | 2017 | Maluuba Research | / | 一个具有挑战性的机器理解数据集,包含超过100000个人工生成的问答对,根据CNN的10000多篇新闻文章提供问题和答案,答案由相应文章的文本跨度组成。 | 片段抽取阅读理解 | 英文阅读理解 | papel | |
| 27 | Frames dataset | 2017 | Microsoft | / | 介绍了一个由1369个人类对话组成的框架数据集,平均每个对话15轮。开发这个数据集是为了研究记忆在目标导向对话系统中的作用。 | 阅读理解、对话 | 英文阅读理解 | papel | |
| 28 | Quásar | 2017 | 卡内基梅隆大学 | BSD-2-Clause | 提出了两个大规模数据集。Quasar-S数据集由37000个完形填空式查询组成,这些查询是根据流行网站Stack overflow 上的软件实体标记的定义构造的。网站上的帖子和评论是回答完形填空问题的背景语料库。Quasar-T数据集包含43000个开放域琐事问题及其从各种互联网来源获得的答案。 | 片段抽取阅读理解 | 英文阅读理解 | papel | |
| 29 | MS MARCO | 2018 | Microsoft | / | 微软基于搜索引擎BING 构建的大规模英文阅读理解数据集,包含10万个问题和20万篇不重复的文档。MARCO 数据集中的问题全部来自于BING 的搜索日志,根据用户在BING 中输入的真实问题模拟搜索引擎中的真实应用场景,是该领域最有应用价值的数据集之一。 | 多文档 | 英文阅读理解 | papel | |
| 30 | 中文完形填空 | 2016年 | 崔一鸣 | 首个中文填空型阅读理解数据集PD&CFT, 全称People Daily and Children's Fairy Tale, 数据来源于人民日报和儿童故事。 | 填空型阅读理解 | 中文完形填空 | papel | ||
| 31 | NLPCC ICCPOL2016 | 2016.12.2 | NLPCC主办方 | 基于文档中的句子人工合成14659个问题,包括14K中文篇章。 | 问答对阅读理解 | 中文阅读理解 |
感谢以下同学的贡献(排名不分先后)
郑少棉、李明磊、李露、叶琛、薛司悦、章锦川、李小昌、李俊毅
Puede contribuir con su poder cargando información del conjunto de datos. Después de cargar cinco o más conjuntos de datos y revisarlos, el estudiante puede usarse como contribuyente del proyecto y mostrarlos.
Share your data set with community or make a contribution today! Just send email to chineseGLUE#163.com,
or join QQ group: 836811304