Recurso impresionante para NLP
Nueva actualización: red cápsula, detección de sarcasmo
Tabla de contenido
- Tabla de contenido
- Bibliotecas
- Matemáticas de esencia
- Diccionario
- Léxico
- Analizador
- Discurso
- Modelo
- Detección de sarcasmo
- Traducción automática
- Generación de texto
- Clasificación de texto
- Resumen de texto
- Sentimiento
- Incrustaciones de palabras/documentos
- Representación de palabras
- Respuesta de la pregunta
- Extracción de información
- Inferencia del lenguaje natural
- Redes de cápsulas
- Sentido común
- Otro
- Contribuir
Bibliotecas útiles
- La conferencia de Numpy Stanford CS231N trata con Numpy, que es fundamental en los cálculos de aprendizaje automático.
- NLTK Es un conjunto de bibliotecas y programas para el procesamiento simbólico y estadístico del lenguaje natural
- TensorFlow Un tutorial proporcionado por TensorFlow. Da excelentes explicaciones sobre lo básico con ayudas visuales. Útil en la PNL profunda
- Pytorch Un increíble tutorial sobre Pytorch proporcionado por Facebook con gran calidad.
- Tensor2Tensor Sequence to Securence Tool Kit por Google escrito en TensorFlow.
- Kit de secuencia de secuencia de Fairseq por Facebook escrito en Pytorch.
- Abrazando los transformadores de la cara Una biblioteca basada en el transformador proporcionado por la cara de abrazo que permite un fácil acceso a los modelos previamente capacitados. Una de las bibliotecas clave de la PNL no solo para los desarrolladores sino también para los investigadores.
- Abrazando tokenizadores faciales Una biblioteca de tokenizador que mantiene la cara abrazada. Aumenta las operaciones rápidas ya que las funciones clave están escritas en óxido. Los últimos tokenizadores como BPE pueden probarse con abrazando tokenizadores faciales.
- Spacy Un tutorial escrito por Ines, el desarrollador principal de la notable Spacy.
- TorchText Un tutorial sobre TorchText, un paquete que hace que el preprocesamiento de datos sea a mano. Tiene más detalles que la documentación oficial.
- SentencePiece la biblioteca de código abierto de Google que construye vocabulario basado en BPE utilizando información de subvenciones.
- Biblioteca Gensim Python para modelado de temas, indexación de documentos y recuperación de similitud con grandes corpus.
- Polyglot Una tubería de lenguaje natural que admite aplicaciones multilingües masivas.
- TextBloB proporciona API simple para sumergir en tareas de procesamiento del lenguaje natural común (PNL), como etiquetado de parte del voz, extracción de frases sustantivos, análisis de sentimientos, clasificación, traducción, integración de WordNet, análisis, inflexión de palabras
- Quepy un marco de Python para transformar las preguntas del lenguaje natural en consultas en un lenguaje de consulta de base de datos.
- Módulo de minería web de patrones para Python, con herramientas para rasparse, procesamiento del lenguaje natural, aprendizaje automático, análisis de redes y visualización
Matemáticas esenciales
- Estadísticas y probabilidades
- Estadísticas 110 Una conferencia sobre probabilidad que puede ser fácilmente entendida por los principales estudiantes que no son de ingeniería.
- Estadísticas de Brandon Foltz Las conferencias de probabilidad y estadística de Brandon Foltz se publican en YouTube y son bastante cortas, por lo que se puede acceder fácilmente durante el viaje diario.
- Álgebra lineal
- Álgebra lineal conferencia impresionante del profesor Gilbert Strang.
- Esencia de la conferencia algebraica lineal de álgebra lineal en el canal de YouTube 3blue1brown
- Lo esencial
- Matemáticas para el libro de aprendizaje automático sobre todo el conocimiento matemático acompañado del aprendizaje automático.
- Esencia de la conferencia de cálculo de cálculo por el canal 3blue1brown mencionado anteriormente, útil para aquellos que desean una visión general del cálculo igualmente.
Diccionario
- Diccionario bilingüe
- CC-Cedicto Un diccionario bilingüe entre inglés y chino.
- Diccionario pronunciante
- CMUDICT El diccionario de pronunciamiento de la Universidad Carnegie Mellon es un diccionario de pronunciación legible por máquina de código abierto para inglés norteamericano que contiene más de 134,000 palabras y sus pronunciaciones.
Léxico
- Diccionario de patrones PDEV de verbos ingleses.
- Verbnet Un léxico que agrupa los verbos en función de su comportamiento de enlace semántico/sintáctico.
- Framenet Un léxico basado en la semántica de marco.
- WordNet Un léxico que describe las relaciones semánticas (como la sinonimia y la hiperonimia) entre palabras individuales.
- Propbank un corpus de un millón de palabras de texto en inglés, anotado con etiquetas de rol de argumento para verbos; y un léxico que define esos roles de argumentos sobre una base por verbo.
- Nombank Un conjunto de datos marca los conjuntos de argumentos que cooCcurs con sustantivos en el corpus de propbank (The Wall Street Journal Corpus of the Penn Treebank), así como Propbank registra dicha información para los verbos.
- Semlink Un proyecto cuyo objetivo es vincular diferentes recursos léxicos a través del conjunto de mapeos. (Verbnet, Propbank, Framenet, Wordnet)
- Framester Framester es un centro entre Framenet, WordNet, Verbnet, Babelnet, Dbpedia, Yago, Dolce-Zero, así como otros recursos. Framester no simplemente crea un gráfico de conocimiento fuertemente conectado, sino que también aplica un tratamiento formal riguroso para la semántica de marco de Fillmore, lo que permite la consulta y el razonamiento de búho de pleno derecho en el gráfico de conocimiento basado en el marco conjunto creado.
Analizador
- PTB El Penn TreeBank (PTB).
- Dependencias universales Dependencias universales (UD) es un marco para la anotación gramatical interlinguísticamente consistente y un esfuerzo de la comunidad abierta con más de 200 contribuyentes que producen más de 100 bancos de árboles en más de 60 idiomas.
- Tweebank Tweebank V2 es una colección de tweets ingleses anotados en dependencias universales que pueden explotarse para la capacitación de los sistemas de PNL para mejorar su rendimiento en los textos de las redes sociales.
- Semeval-2016 Tarea 9 Semeval-2016 Tarea 9 (análisis de dependencia semántica china) conjuntos de datos.
Discurso
- PDTB2.0 PDTB, versión 2.0. anota 40600 relaciones del discurso, distribuidas en los siguientes cinco tipos: explícito, implícito, etc.
- PDTB3.0 En la versión 3, se anotaron 13,000 tokens adicionales, se estandarizaron ciertas anotaciones por pares, se incluyeron nuevos sentidos y el corpus estaba sujeto a una serie de controles de consistencia.
- Transulación posterior anotó relaciones de discurso implícitas Este recurso contiene instancias de relación de discurso implícitas anotadas. Estas oraciones se anotan automáticamente por la transentación de los corpus paralelos.
- DiscoSSechinesetedTalks Este conjunto de datos incluye anotación para 16 conversaciones TED en chino.
Modelo
- PTB Penn Treebank Corpus en la versión LM.
- Google Billion Word DataSet 1 mil millones de modelado de lenguaje de palabras.
- Wikitext El conjunto de datos de modelado de idiomas Wikitext es una colección de más de 100 millones de tokens extraídas del conjunto de artículos verificados de bien y presentado en Wikipedia. En comparación con la versión preprocesada de Penn Treebank (PTB), Wikitext-2 es más de 2 veces más grande y Wikitext-103 es más de 110 veces más grande.
Detección de sarcasmo
- El detector de sarcasmo contextual (Cascade) de Cascade adopta un enfoque híbrido del modelado basado en contenido y contexto para la detección de sarcasmo en las discusiones de redes sociales en línea. Además, utilizaron extractores de características basados en contenido, como redes neuronales convolucionales.
- Una mirada más profunda a los tweets sarcásticos utilizando redes neuronales de convolucionales profundas Revista Internacional de Investigación Avanzada en Ingeniería y Tecnología Informática, Volumen 6, Número 1, enero de 2017. Proponen un sistema automatizado para la detección de sarcasmo en Twitter mediante el uso de características relacionadas con el sentimiento con el sentimiento
- ADARNN Red neural recursiva adaptativa (ADARNN) para la clasificación de sentimientos de Twitter dependiente del objetivo. Propaga adaptivamente los sentimientos de las palabras a los objetivos dependiendo del contexto y las relaciones sintácticas entre ellas.
- Detección de sarcasmo con un artículo medio relacionado con las redes neuronales convolucionales profundas. Propone primero entrenar un modelo de sentimiento (basado en un CNN) para la extracción de características específicas de los sentimientos de aprendizaje. El modelo aprende características locales en capas inferiores que luego se convierten en características globales en las capas superiores.
Traducción automática
- Europarl El corpus paralelo de Europarl se extrae de los procedimientos del Parlamento Europeo. Incluye versiones en 21 idiomas europeos: romanico (francés, italiano, español, portugués, rumano), germánico (inglés, holandés, alemán, danés, sueco), eslavo (búlgaro, checo, polaco, eslovaco, esloveno), finni-ugric (finlandés, húngaro, estrónico), Báltico (latviano, litániano) y grito.
- Uncorpus El Corpus Paralelo de las Naciones Unidas V1.0 está compuesta por registros oficiales y otros documentos parlamentarios de las Naciones Unidas que están en el dominio público.
- CWMT Los datos ZH-EN recopilados y compartidos por la comunidad de Taller de Traducción de Autor (CWMT). Hay tres tipos de datos para la traducción automática china-inglés: texto monolingüe chino, texto paralelo de inglés chino, texto de referencia múltiple.
- Datos de capacitación del modelo de lenguaje monolingüe de WMT, como el rastreo común News Crawl en CS de en fi ro ru tr y los datos paralelos.
- Opus Opus es una creciente colección de textos traducidos de la web. En el proyecto OPUS intentamos convertir y alinear datos en línea gratuitos, agregar anotación lingüística y proporcionar a la comunidad un corpus paralelo disponible públicamente.
Generación de texto
- Artículo automático de Tencent que comenta un conjunto de datos chino a gran escala con millones de comentarios reales y un subconjunto anotado por humanos que caracteriza la calidad variable de los comentarios. Este conjunto de datos consta de alrededor de 200k artículos de noticias y 4.5 millones de comentarios humanos junto con meta datos ricos para categorías de artículos y votos de los comentarios de los usuarios.
- Resumen
- BigPatent Un conjunto de datos de resumen consta de 1,3 millones de registros de documentos de patente de los Estados Unidos junto con resúmenes abstractos escritos humanos.
- Datos a texto
- Wikipedia Persona y conjunto de datos de animales Este conjunto de datos reúne a 428,748 personas y 12,236 animales con descripción basada en el vertedero de Wikipedia (2018/04/01) y Wikidata (2018/04/12).
- Wikibio Este conjunto de datos reúne 728,321 biografías de Wikipedia. Su objetivo es evaluar los algoritmos de generación de texto. Para cada artículo, proporciona el primer párrafo y el Infobox (ambos tokenizados).
- Rotowire Este conjunto de datos consiste en resúmenes de juegos de baloncesto de la NBA (escritos por humanos) alineados con sus puntajes de caja y línea correspondientes.
- Detalles de MLB en la generación de datos a texto con modelado de entidades, ACL 2019
Clasificación de texto
- 20NewsGroups El conjunto de datos de 20 grupos de noticias es una colección de aproximadamente 20,000 documentos de grupos de noticias, divididos (casi) de manera uniforme en 20 grupos de noticias diferentes.
- AG's Corpus of News Artículos AG es una colección de más de 1 millón de artículos de noticias.
- Yahoo-Answers-Topic-Clasificación Este corpus contiene 4,483,032 preguntas y sus respuestas correspondientes de Yahoo! Servicio de respuestas.
- Google-Snippets Este conjunto de datos contiene los resultados de búsqueda web relacionados con 8 dominios diferentes, como negocios, computadoras e ingeniería.
- Benchmarkingroshot Este repositorio contiene el código y los datos para el documento EMNLP2019 "Benchmarking Clasificación de texto de disparo cero: conjuntos de datos, evaluación y enfoque de implicación".
Resumen de texto
- Resumen de texto con Gensim La implementación de Gensim se basa en el popular algoritmo "Textrank"
- Resumen de texto no supervisado Artículo impresionante que describe el resumen de texto utilizando incrustaciones de oraciones
- Mejora de la abstracción en el resumen de texto que propone dos técnicas para mejorar
- Resumen y categorización de texto más relacionadas con datos científicos y relacionados con la salud
- Resumen de texto con flujo de tensor. Un estudio básico sobre el resumen de texto de 2016
Sentimiento
- MPQA 3.0 Este corpus contiene artículos de noticias y otros documentos de texto anotados manualmente para opiniones y otros estados privados (es decir, creencias, emociones, sentimientos, especulaciones, etc.). Los principales cambios en esta versión del Corpus MPQA son las adiciones de las nuevas anotaciones Etarget (entidad/evento).
- SentiWordNet SentiWordNet es un recurso léxico para la minería de opinión. SentiWordNet asigna a cada synset de WordNet Tres puntajes de sentimiento: positividad, negatividad, objetividad.
- Léxico de la Asociación de Emoción de Palabras de NRC El léxico de la emoción NRC es una lista de palabras en inglés y sus asociaciones con ocho emociones básicas (ira, miedo, anticipación, confianza, sorpresa, tristeza, alegría y asco) y dos sentimientos (negativos y positivos).
- Stanford Sentiment Treebank SST es el conjunto de datos del documento: modelos profundos recursivos para la composicionalidad semántica sobre un sentimiento Treebank Richard Scher, Alex Perelygin, Jean Wu, Jason Chuang, Christopher Manning, Andrew Ng Ng y Christopher Potts Conferencia sobre métodos empíricos en el procesamiento de idiomas naturales (EMNLP 2013)
- Semeval-2013 Twitter Semeval 2013 Twitter DataSet, que contiene anotación de sentimientos a nivel de frase.
- La sentencia la sentencia es un conjunto de datos para la tarea del análisis de sentimientos de aspecto dirigido, que contiene 5215 oraciones. Sentitud: conjunto de datos de análisis de sentimientos basado en el aspecto para vecindarios urbanos, Coling 2016 .
- SEMEVAL-2014 Tarea 4 Esta tarea se refiere al análisis de sentimientos basado en el aspecto (ABSA). Se han proporcionado dos conjuntos de datos específicos de dominio para computadoras portátiles y restaurantes, que consisten en más de 6k oraciones con anotaciones humanas de nivel de aspecto de grano fino para la capacitación.
Incrustaciones de palabras/documentos
- Lo mejor actual de la palabra universal/incrustaciones de oración. Codifica palabras y oraciones en vectores densos de longitud fija para mejorar drásticamente el procesamiento de datos textuales.
- Incrustación de documentos con vectores de párrafo 2015. De Google.
- Demo de incrustaciones de palabras de guantes de cómo usar incrustaciones de palabras de guantes
- FastText Una biblioteca para aprender sobre incrustaciones de palabras y clasificación de texto creada por el laboratorio de investigación de IA de AI de Facebook con muchos modelos previos a
- Clasificación de texto con Word2Vec Implementación práctica sobre cómo hacer la clasificación de texto con Word2Vec usando guante
- Documento de incrustación Introducción a lo básico e importancia de los incrustaciones de documentos
- Desde incrustaciones de palabras hasta distancias de documento, introduce la distancia de Word Mover (WMD) que mide la diferencia entre dos documentos de texto como la cantidad mínima de distancia que las palabras incrustadas de un documento deben "viajar" para llegar a las palabras incrustadas de otro documento.
- Tutorial DOC2Vec en el conjunto de datos Lee
- Incrustaciones de palabras en Python con Spacy y Gensim
- El ilustrado Bert, Elmo y la co. (Cómo la PNL agrietó el aprendizaje de la transferencia). Dic 2018.
- Representaciones de palabras contextualizadas profundas. Elmo. Implementación de Pytorch. Implementación de TF
- Ajuste fino para la clasificación de texto. Código de implementación.
- Aprendizaje supervisado de representaciones de oraciones universales a partir de datos de inferencia de lenguaje natural. Muestra cómo las representaciones de oraciones universales capacitadas utilizando los datos supervisados
- Aprendido en la traducción: vectores de palabras contextualizados. Cove utiliza un codificador LSTM profundo de un modelo de secuencia atencional de secuencia entrenado para la traducción automática (MT) para contextualizar los vectores de palabras
- Representaciones distribuidas de oraciones y documentos. Vectores de párrafo. Ver Tutorial Doc2Vec en Gensim
- sense2vec. Un método rápido y preciso para la desambiguación del sentido de las palabras en incrustaciones de palabras neuronales
- Saltea los vectores de pensamiento. Un modelo de codificador codificador que intenta reconstruir las oraciones circundantes de un pasaje codificado
- Secuencia al aprendizaje de secuencia con redes neuronales. Utiliza un LSTM de varias capas para mapear la secuencia de entrada a un vector de una dimensionalidad fija, y luego otro LSTM profundo para decodificar la secuencia de destino del vector
- El increíble poder de los vectores de palabras. Material relacionado con Word2Vec de diferentes cinco trabajos de investigación
- Incremedios de cadena contextual para el etiquetado de secuencia. Las propiedades incluyen que ellos (a) están entrenados sin ninguna noción explícita de palabras, y (b) se contextualizan por su texto circundante
- Bert explicó - Modelo de lenguaje de última generación para PNL. Una gran explicación de los fundamentos de cómo funciona Bert.
- Revisión de modelos basados en Bert. Y algunas pistas/ideas recientes sobre lo que hace que Bert sea tan efectivo
Representación de palabras
- Incrustación de palabras
- Google News Word2Vec El modelo contiene vectores de 300 dimensiones para 3 millones de palabras y frases que se formaron en parte del conjunto de datos de Google News (alrededor de 100 mil millones de palabras).
- Glove Pretrados Vectores de palabras previamente capacitados usando guante. Wikipedia + Gigaword 5, Common Crawl, Twitter.
- Vectores de palabras previamente capacitados previamente capacitados de FastText para 294 idiomas, entrenados en Wikipedia usando FastText.
- BPIMB BPIMB es una colección de incrustaciones de subvenciones previas al entrenamiento en 275 idiomas, basado en la codificación de pares de bytes (BPE) y entrenado en Wikipedia.
- Word basada en dependencias incrustaciones de palabras previas al entrenamiento basadas en la información de dependencia , de los incrustaciones de palabras basadas en dependencias, ACL 2014 .
- Meta-Embeddings realiza conjuntos de algunas versiones de incrustación de palabras previas a la aparición, de meta incrustaciones: incrustaciones de palabras de mayor calidad a través de conjuntos de conjuntos de incrustación, ACL 2016.
- Vectores previamente entrenados LEXVEC basados en el modelo de incrustación de palabras LEXVEC . Crawl común, Wikipedia en inglés y NewsCrawl.
- Muse Muse es una biblioteca de Python para incrustaciones de palabras multilingües, que proporcionan incrustaciones multilingües para 30 idiomas y 110 diccionarios bilingües de verdad a gran escala.
- CWV Este proyecto proporciona más de 100 vectores de palabras chinos (incrustaciones) entrenados con diferentes representaciones (densas y escasas), características de contexto (palabra, ngram, carácter y más) y corpus.
- Charngram2vec Este repositorio proporciona el código reimplementado para el carácter de entrenamiento de capacitación N-gram presentada en el papel de muchas tareas conjuntas (JMT), un modelo conjunto de muchas tareas: cultivar una red neuronal para múltiples tareas de PNL, EMNLP2017 .
- Representación de palabras con contexto
- Las representaciones contextuales previamente capacitadas de ELMO de los modelos de lenguaje bidireccional a gran escala proporcionan grandes mejoras para casi todas las tareas de PNL supervisadas.
- Bert Bert , o bertecos de presenciones de Ecoder de B. es un nuevo método de representación previa al lenguaje que obtiene resultados de última generación en una amplia gama de tareas de procesamiento del lenguaje natural (PNL). (2018.10)
- OpenGPT GPT-2 es un gran modelo de lenguaje basado en transformadores con 1,5 mil millones de parámetros, capacitado en un conjunto de datos de 8 millones de páginas web. GPT-2 está entrenado con un objetivo simple: predecir la siguiente palabra, dadas todas las palabras anteriores dentro de algún texto.
Respuesta de la pregunta
- Comprensión de lectura a máquina
- Squad Stanford Pregunta Responder el conjunto de datos (Escuadrón) es un nuevo conjunto de datos de comprensión de lectura, que consiste en preguntas planteadas por los trabajadores de la multitudes en un conjunto de artículos de Wikipedia, donde la respuesta a cada pregunta es un segmento de texto, o espacio, desde el pasaje de lectura correspondiente.
- CMRC2018 CMRC2018 es lanzado por el segundo taller de evaluación sobre comprensión de lectura máquina china. El conjunto de datos está compuesto por cerca de 20,000 preguntas reales anotadas por Husan en los párrafos de Wikipedia.
- DCRD Delta Reading Comprehension DataSet es un conjunto de datos de Comprensión de Lectura de Lectura Máquel China tradicional de dominio abierto (MRC), contiene 10,014 párrafos de 2,108 artículos de Wikipedia y más de 30,000 preguntas generadas por anotadores.
- Triviaqa Triviaqa incluye 95k parejas de preguntas de preguntas escritas por entusiastas de trivia y documentos de evidencia reunidos independientemente, seis por pregunta en promedio, que proporcionan una supervisión distante de alta calidad para responder las preguntas. Este conjunto de datos es del dominio de Wikipedia y el dominio web.
- Newsqa Newsqa es un conjunto de datos de comprensión de lectura a máquina de origen público de 120k pares de preguntas y respuestas.
- Harvestingqa Esta carpeta contiene el conjunto de datos de patas de control de calidad de nivel de párrafo de un millón (dividido en tren, desarrollo y conjunto de pruebas) descrito en: Cosecha de parejas de respuesta a nivel de párrafo de Wikipedia (ACL 2018).
- Propara Propara tiene como objetivo promover la investigación en la comprensión del lenguaje natural en el contexto del texto procesal. Esto requiere identificar las acciones descritas en el párrafo y el seguimiento de los cambios en el estado que ocurren en las entidades involucradas.
- McScript McScript es un nuevo conjunto de datos para la tarea de comprensión de la máquina que se centra en el conocimiento de sentido común. Comprende 13,939 preguntas sobre 2,119 textos narrativos y cubre 110 escenarios cotidianos diferentes. Cada texto se anota con uno de 110 escenarios.
- McScript2.0 McScript2.0 es un corpus de comprensión de máquina para la evaluación de extremo a extremo del conocimiento del script. Contiene aprox. 20,000 preguntas sobre aprox. 3.500 textos, crowdsourced basados en un nuevo proceso de recolección que resulta en preguntas desafiantes. La mitad de las preguntas no se pueden responder de los textos de lectura, pero requieren el uso de sentido común y, en particular, el conocimiento del script.
- CommonSenseqa Commonsenseqa es un nuevo conjunto de datos de respuesta a preguntas de opción múltiple que requiere diferentes tipos de conocimiento de sentido común para predecir las respuestas correctas. Contiene 12,102 preguntas con una respuesta correcta y cuatro respuestas de distractores.
- Narrativeqa Narrativeqa incluye la lista de documentos con resúmenes de Wikipedia, enlaces a historias completas y preguntas y respuestas. Para una descripción detallada de esto, consulte el documento "El desafío de comprensión de lectura narrativaqa".
- Hotpotqa Hotpotqa es un conjunto de datos de respuesta a preguntas con preguntas naturales de múltiples saltos, con una fuerte supervisión para apoyar hechos para permitir sistemas de respuesta de preguntas más explicables.
- Identificación de preguntas duplicadas/similares
- Pares de preguntas de quora Quora Pares de preguntas del conjunto de datos consta de más de 400,000 líneas de posibles pares duplicados de preguntas. [Formato de versión de Kaggle]
- Pregúntele a Ubuntu este repositorio contiene una colección preprocesada de preguntas tomadas de Askubuntu.com 2014 Corpus Dump. También viene con 400*20 anotaciones maniuales, marcando pares de preguntas como "similares" o "no similar", de la recuperación de preguntas semi-supervisadas con convoluciones cerradas, NAACL2016 .
Extracción de información
- Entidad
- Shimaoka de grano fino Este conjunto de datos contiene dos conjuntos de datos estándar y públicos disponibles para la clasificación de entidades de grano fino, proporcionado en un formato tokenizado preprocesado, detalles en arquitecturas neuronales para la clasificación de tipo entidad de grano fino, EACL 2017 .
- La entidad ultra fina que escribe una nueva tarea de tipificación de entidad: dada una oración con una mención de entidad, el objetivo es predecir un conjunto de frases de forma libre (por ejemplo, rascacielos, compositor o criminal) que describen los tipos apropiados para la entidad objetivo.
- Nestado nombrado Entity Corpus, un conjunto de datos de entidades con nombre de grano fino y anidado sobre la porción completa de Wall Street Journal del Penn Treebank (PTB), que la anotación comprende 279,795 menciones de 114 tipos de entidades con hasta 6 capas de anidación.
- El reconocimiento de entidad nombrado en el cambio de código de datos (CS) con código de código es el fenómeno por el cual los altavoces multilingües cambian de un lado a otro entre sus idiomas comunes en la comunicación escrita o hablada. Contiene los datos de capacitación y desarrollo para los sistemas de ajuste y prueba en los siguientes pares de idiomas: español-inglés (spa-eng) y modernos estándar-egipcio-egipcio (MSA-egy).
- MIT Movie Corpus The MIT Movie Corpus es un corpus de entrenamiento y prueba semánticamente etiquetado en formato biografía. El ENG Corpus son consultas simples, y el Corpus Trivia10K13 son consultas más complejas.
- MIT Restaurant Corpus The MIT Restaurant Corpus es un corpus de entrenamiento y prueba semánticamente etiquetado en formato biografía.
- Extracción de relación
- Los conjuntos de datos de las relaciones semánticas anotadas recomiendan este repositorio contiene conjuntos de datos anotados que pueden usarse para entrenar modelos supervisados para la tarea de extracción de relaciones semánticas.
- Tacred Tacred es un conjunto de datos de extracción de relaciones a gran escala con 106,264 ejemplos construidos sobre el texto Newswire y la web del corpus utilizado en los desafíos anuales de la población de la base de conocimiento TAC (TAC KBP). Los detalles en la atención de la posición y los datos supervisados mejoran el llenado de ranuras, EMNLP 2017 .
- Fewrel Fewrel es un conjunto de datos de clasificación de relaciones de pocos disparos, que presenta 70, 000 oraciones de lenguaje natural que expresan 100 relaciones anotadas por trabajadores colectivos.
- Semeval 2018 Tarea7 El script de datos y evaluación de capacitación para Semeval 2018 Tarea 7: Extracción y clasificación de relaciones semánticas en artículos científicos.
- Literatura china-ganadora-R-RE a nivel de discurso con nombre de entidad de entidad y conjunto de datos de extracción de relaciones para el texto de la literatura china. Contiene 726 artículos, 29,096 oraciones y más de 100,000 caracteres en total.
- Evento
- Datos de capacitación ACE 2005 El corpus consiste en datos de varios tipos anotados para entidades, relaciones y eventos fue creado por el consorcio de datos lingüísticos con el apoyo del programa ACE, en tres idiomas: inglés, chino, árabe.
- Corpus de emergencia chino (CEC) Corpus de emergencia chino (CEC) es construido mediante un laboratorio semántico de datos en la Universidad de Shanghai. Este corpus se divide en 5 categorías: terremoto, incendio, accidente de tráfico, ataque terrorista e intoxicación de alimentos.
- La evaluación de eventos TAC-KBP es una subproducción en la población de la base de conocimiento de TAC (KBP), que comenzó desde 2015. El objetivo de la población de la base de conocimiento de TAC (KBP) es desarrollar y evaluar tecnologías para poblar bases de conocimiento (KB) a partir de texto no estructurado.
- Los datos de evaluación narrativa de Cloze evalúan la comprensión de un guión mediante la predicción del próximo evento dado varios eventos de contexto. Detalles en el aprendizaje no supervisado de los esquemas narrativos y sus participantes, ACL 2009 .
- Tensor de eventos Un conjunto de datos de evaluación sobre generación de esquemas/similitud de oración/cloze narrativo, que es propuesta por representaciones de eventos con composiciones basadas en tensor, AAAI 2018 ..
- SEMEVAL-2015 Tarea 4 Línea de tiempo: Ordenamiento de eventos entre documentos. Dado un conjunto de documentos y una entidad objetivo, la tarea es construir una línea de tiempo de eventos relacionada con esa entidad, es decir, detectar, anclar en el tiempo y ordenar los eventos que involucran a la entidad objetivo.
- La descripción de eventos más rico en rojo consiste en anotaciones de coreferencia, puente y eventos de eventos (relaciones temporales, causales, subeventivas y de informes) sobre 95 documentos de texto de noticias, discusión y texto narrativos en inglés, que cubren todos los eventos, tiempos y entidades no eventivas dentro de cada documento.
- Inscript The Inscript Corpus contiene un total de 1000 textos narrativos de crowdsourced a través de Amazon Mechanical Turk. Se anota con información de script en forma de eventos específicos de escenarios y etiquetas de los participantes.
- Autolabelevent los datos del trabajo en la generación de datos etiquetada automáticamente para la extracción de eventos a gran escala, ACL2017 .
- EventInframenet Los datos del trabajo para aprovechar Framenet para mejorar la detección automática de eventos, ACL2016 .
- Mientras tanto, el Corpus mientras tanto (The News Reader Multilingual Event and Time Corpus) consiste en un total de 480 artículos de noticias: 120 artículos de Wikinews en inglés sobre cuatro temas y sus traducciones en español, italiano y holandés. Se ha anotado manualmente en múltiples niveles, incluidas entidades, eventos, información temporal, roles semánticos y eventos intra-documentos y comedias cruzadas y coreferencia de entidad.
- BionLP-ST 2013 BIONLP-ST 2013 presenta las seis tareas de extracción de eventos: extracción de eventos genios para la construcción de la base de conocimiento NFKB, genética del cáncer, curación de la vía, anotación de corpus con ontología de regulación génica, red de regulación génica en bacterias y biotopos de bacterias (anotación semántica por una ontología).
- Evento de relaciones temporales y causales
- Atenta el esquema de relación causal y temporal (atiende), que es único para capturar simultáneamente un conjunto compensador de relaciones temporales y causales entre eventos. Caters contiene un total de 1.600 oraciones en el contexto de 320 cuentos cortos de cinco oraciones muestreados de Rocstories Corpus.
- Causal-TimeBank Causal TimeBank es el corpus de TimeBank tomado de la tarea Tempeval-3, que pone nueva información sobre la causalidad en forma de anotaciones de señales C y clinks. 6.811 Eventos (solo eventos instanciados por la etiqueta de makeinstance de Timeml), 5,118 tlinks (enlaces temporales), 171 csignals (señales causales), 318 clinks (enlaces causales).
- EventCausalityData El conjunto de datos EventCausality proporciona anotaciones causales relativamente densas en 25 artículos de Newswire recopilados de CNN en 2010.
- EventStoryline un conjunto de datos de referencia para la detección de relaciones temporales y causales.
- TEMPEVAL-3 La tarea compartida Tempeval-3 tiene como objetivo avanzar en la investigación sobre el procesamiento de la información temporal.
- TemporalCusalRonsion un conjunto de datos con anotación de relaciones temporales y causales. Las relaciones temporales se anotaron en base al esquema propuesto en "un esquema de anotación de múltiples eje para las relaciones temporales de eventos" utilizando Crowdflower; Las relaciones causales se mapearon de la "EventCausalityData".
- Timebank TimeBank 1.2 contiene 183 artículos de noticias que se han anotado con información temporal, agregando eventos, tiempos y enlaces temporales (TLINK) entre eventos y tiempos.
- TimeBank-EventTime Corpus Este conjunto de datos es un subconjunto del Corpus de TimeBank con un nuevo esquema de anotación para anclar los eventos en el tiempo. Descripción detallada.
- Factualidad del evento
- Conjunto de datos de fáctica de eventos UW Este conjunto de datos contiene anotaciones de texto del corpus Tempeval-3 con etiquetas de evaluación de fáctica.
- FACKBANK 1.0 FACKBANK 1.0, consta de 208 documentos (más de 77,000 tokens) de Newswire y informes de noticias de transmisión en los que las menciones de eventos se anotan con su grado de hecho.
- Compromiso Bank El CompromentBank es un corpus de 1.200 discursos naturales cuya oración final contiene un predicado de cláusula incrustante bajo un operador de cancelación de implicación (cuestión, modal, negación, antecedente de condicional).
- UDS Semántica de descomposición universal se realizó un conjunto de datos, cubre la totalidad de las dependencias universales inglesas v1.2 (EUD1.2) Treebank, un gran conjunto de datos de facturidad de eventos.
- DLEF Un conjunto de datos de fáctica del evento de nivel de documento (DLEF), que incluye la fuente (inglés y chino), pautas detalladas para la facturidad de eventos a nivel de documento y oración.
- Coreferencia del evento
- ECB 1.0 Este corpus consiste en una colección de documentos de Google News anotados con información de coreferencia de eventos dentro y de documentos cruzados. Los documentos se agrupan de acuerdo con el clúster de Google News, cada grupo de documentos que representan el mismo evento seminal (o tema).
- EECB 1.0 En comparación con el BCE 1.0, este conjunto de datos se extiende en dos direcciones: (i) oraciones totalmente anotadas, y (ii) relaciones de coreferencia de entidad. Además, los anotadores eliminaron relaciones distintas a la coreferencia (por ejemplo, subeventamiento, propósito, relacionado, etc.).
- ECB+ El Corpus ECB+ es una extensión del ECB 1.0. Un componente de Corpus recientemente agregado consta de 502 documentos que pertenecen a los 43 temas del BCE pero que describen diferentes eventos seminales que los ya capturados en el BCE.
- Abrir extracción de información
- OIE-Benchmark Este repositorio contiene código para convertir las anotaciones QA-SRL con extracciones abiertas y comparar analizadores abiertos con un corpus de referencia convertido.
- Neuralopenie Un conjunto de datos de capacitación de la extracción de información abierta neural , ACL 2018. Aquí hay un total de 36,247,584 pares de Tuplei extraídos del volcado de Wikipedia usando Openie4.
- Otro
- Wikilinksed un conjunto de datos de desambiguación de entidad con nombre a gran escala de fragmentos de texto de la web, que es significativamente más ruidoso y más desafiante que los conjuntos de datos basados en noticias existentes.
Inferencia del lenguaje natural
- SNLI El Corpus SNLI (Versión 1.0) es una colección de 570k pares de oraciones ingleses escritas por humanos etiquetados manualmente para una clasificación equilibrada con las etiquetas con implicación, contradicción y neutral, que respalda la tarea de inferencia del lenguaje natural (NLI), también conocido como reconocimiento de textual (RTE).
- Multinli El corpus de inferencia de lenguaje natural de múltiples generos (multinli) es una colección de 433k pares de oraciones anotados con información textual de implicación. El corpus se modela en el corpus SNLI, pero difiere en eso cubre una variedad de géneros de texto hablado y escrito, y admite una evaluación de generalización distintiva de genes cruzados.
- Scitail El conjunto de datos Scitail es un conjunto de datos de implicación creado a partir de exámenes de ciencias de opción múltiple y oraciones web. El dominio hace que este conjunto de datos sea diferente en la naturaleza de los conjuntos de datos anteriores, y consta de más oraciones objetivas en lugar de descripciones de escenas.
- PAWS Un nuevo conjunto de datos con 108,463 pares para paráfrasis y no paráfrasis bien formados con alta superposición léxica. Patones: parafraseos adversarios de la lucha de palabras
Redes de cápsulas
- Investigating Capsule Networks with Dynamic Routing for Text Classification.It show how capsule networks exhibit significant improvement when transfer single-label to multi-label text classification over the competitors
- Attention-Based Capsule Networks with Dynamic Routing for Relation Extraction. They explore the capsule networks used for relation extraction in a multi-instance multi-label learning framework and propose a novel neural approach based on capsule networks with attention mechanisms
- Identifying Aggression and Toxicity in Comments using Capsule Network. 2018. It is early days for Capsule Networks, which was introduced by Geoffrey Hinton, et al., in 2017 as an attempt to introduce an NN architecture superior to the classical CNNs. The idea aims to capture hierarchincal relationships in the input layer through dynamic routing between "capsules" of neurons. Due likely to the affinitity of the theme of addressing hierarchical complexities, the idea's extention to the NLP field has since been a sujbect of active research, such as in the papers listed above.
- Dynamic Routing Between Capsules.They propose an iterative routing-by-agreement mechanism: A lower-level capsule prefers to send its output to higher level capsules whose activity vectors have a big scalar product with the prediction coming from the lower-level capsule
- Matrix Ccapsules With Expectation-Maximization Routing. The transformation matrices of capsule net are trained discriminatively by backpropagating through the unrolled iterations of EM between each pair of adjacent capsule layers
Commonsense
- ConceptNet ConceptNet is a multilingual knowledge base, representing words and phrases that people use and the common-sense relationships between them.
- Commonsense Knowledge Representation ConceptNet-related resources. Details in Commonsense Knowledge Base Completion. Proc. of ACL, 2016
- ATOMIC, an atlas of everyday commonsense reasoning, organized through 877k textual descriptions of inferential knowledge. ATOMIC focuses on inferential knowledge organized as typed if-then relations with variables.
- SenticNet SenticNet provides a set of semantics, sentics, and polarity associated with 100,000 natural language concepts. SenticNet consists of a set of tools and techniques for sentiment analysis combining commonsense reasoning, psychology, linguistics, and machine learning.
Otro
- QA-SRL This dataset use question-answer pairs to model verbal predicate-argument structure. The questions start with wh-words (Who, What, Where, What, etc.) and contains a verb predicate in the sentence; the answers are phrases in the sentence.
- QA-SRL 2.0 This repository is the reference point for QA-SRL Bank 2.0, the dataset described in the paper Large-Scale QA-SRL Parsing, ACL 2018.
- NEWSROOM CORNELL NEWSROOM is a large dataset for training and evaluating summarization systems. It contains 1.3 million articles and summaries written by authors and editors in the newsrooms of 38 major publications.
- CoNLL 2010 Uncertainty Detection The aim of this task is to identify sentences in texts which contain unreliable or uncertain information. Training Data contains biological abstracts and full articles from the BioScope (biomedical domain) corpus and paragraphs from Wikipedia possibly containing weasel information.
- COLING 2018 automatic identification of verbal MWE Corpora were annotated by human annotators with occurrences of verbal multiword expressions (VMWEs) according to common annotation guidelines. For example, "He picked one up ."
- Scientific NLP
- PubMed 200k RCT PubMed 200k RCT is new dataset based on PubMed for sequential sentence classification. The dataset consists of approximately 200,000 abstracts of randomized controlled trials, totaling 2.3 million sentences.
- Automatic Academic Paper Rating A dataset for automatic academic paper rating (AAPR), which automatically determine whether to accept academic papers. The dataset consists of 19,218 academic papers by collecting data on academic pa- pers in the field of artificial intelligence from the arxiv.
- ACL Title and Abstract Dataset This dataset gathers 10,874 title and abstract pairs from the ACL Anthology Network (until 2016).
- SCIERC A dataset includes annotations for entities, relations, and coreference clusters in scientific articles.
- SciBERT SciBERT is a BERT model trained on scientific text. A broad set of scientific nlp datasets under the data/ directory across ner, parsring, pico and text classification.
- 5AbstractsGroup The dataset contains academic papers from five different domains collected from the Web of Science, namely business, artifical intelligence, sociology, transport and law.
- SciCite A new large dataset of citation intent from Structural Scaffolds for Citation Intent Classification in Scientific Publications
- ACL-ARC A dataset of citation intents in the computational linguistics domain (ACL-ARC) introduced by Measuring the Evolution of a Scientific Field through Citation Frames .
- GASP The dataset consists of list of cited abstracts associated with the corresponding source abstract. The goal is to generete the abstract of a target paper given the abstracts of cited papers.
Contribute Contributions welcome!