biblioteca NLP
Esta es una lista curada de documentos que he encontrado de alguna manera y consideré que vale la pena incluir en la Biblioteca del Practicante de la PNL. Algunos documentos pueden aparecer en múltiples subcategorías, si no encajan fácilmente en una de las cajas.
¡Los PRS son absolutamente bienvenidos! Dirija cualquier correspondencia/pregunta a @mihail_eric.
Algunas designaciones especiales para ciertos documentos:
LEYENDA: Este es un cambio de juego en la literatura de la PNL y que vale la pena leer.
? Recurso: este documento presenta algunos conjuntos de datos/recursos y, por lo tanto, puede ser útil para fines de aplicación.
Etiquetado de parte del discurso
- (2000) Un etiquetador estadístico de parte del voz
- TLDR : Documento seminal que demuestra un poderoso etiquetador POS basado en HMM. Muchos consejos y trucos para construir tales sistemas clásicos incluidos.
- (2003) etiquetado por parte de voz rica en características con una red de dependencia cíclica
- TLDR : propone una serie de potentes características lingüísticas para construir un (entonces) sistema de etiquetado SOTA POS
- (2015) Modelos LSTM-CRF bidireccionales para el etiquetado de secuencia
- TLDR : propone un modelo de etiquetado de secuencia de elementos que combina redes neuronales con campos aleatorios condicionales, logrando SOTA en la etiqueta POS, NER y fragmentación.
Analizador
- (2003) Habilización precisa noxicalizada
- TLDR : Hermoso documento que demuestra que las gramáticas libres de contexto probabilístico noxicalizados pueden exceder el rendimiento de las PCFG lexicalizadas.
- (2006) Aprender anotación de árboles precisa, compacta e interpretable
- TLDR : Resultado fascinante que muestra que, utilizando la maximización de la expectativa, puede aprender automáticamente símbolos no terminales latentes precisos y compactos para la anotación de árboles, logrando SOTA.
- (2014) Un analizador de dependencia rápido y preciso que utiliza redes neuronales
- TLDR : Trabajo muy importante que comienza en una nueva ola de arquitecturas de análisis de redes neuronales, logrando el rendimiento de SOTA y las velocidades de análisis ardientes.
- (2014) Gramática como idioma extranjero
- TLDR : Una de las primeras manifestaciones de la efectividad de las arquitecturas SEQ2SEQ con atención en el análisis de la circunscripción, logrando SOTA en el corpus WSJ. También mostró la importancia del aumento de datos para la tarea de análisis.
- (2015) Analización de dependencia basada en la transición con memoria a largo plazo a largo plazo
- TLDR : Presenta LSTMS de pila, un analizador neuronal que neuraliza con éxito las operaciones tradicionales de Pop Pop de analizadores de dependencia basados en la transición, logra SOTA en el proceso.
Reconocimiento de entidad nombrado
- (2005) que incorpora información no local en los sistemas de extracción de información mediante muestreo de Gibbs
- TLDR : utilizando métodos Cool Monte Carlo combinados con un modelo de campo aleatorio condicional, este trabajo logra una gran reducción de errores en ciertos puntos de referencia de extracción de información.
- (2015) Modelos LSTM-CRF bidireccionales para el etiquetado de secuencia
- TLDR : propone un modelo de etiquetado de secuencia de elementos que combina redes neuronales con campos aleatorios condicionales, logrando SOTA en la etiqueta POS, NER y fragmentación.
Resolución de coreferencia
- (2010) un tamiz de múltiples pasos para la resolución de coreferencia
- TLDR : propone un enfoque basado en tamiz para la resolución de coreferencia que durante muchos años (hasta que se acerca el aprendizaje profundo) fue SOTA.
- (2015) Resolución de coreferencia centrada en la entidad con apilamiento de modelos
- TLDR : Este trabajo ofrece un enfoque ingenioso para construir cadenas de coreferencia iterativamente utilizando características a nivel de entidad.
- (2016) Mejora de la resolución de coreferencia mediante representaciones distribuidas a nivel de entidad de aprendizaje
- TLDR : Uno de los primeros enfoques efectivos para usar redes neuronales para la resolución de coreferencia, superando significativamente al SOTA.
Análisis de sentimientos
(2012) Líneas de base y Bigrams: Simple, buen sentimiento y clasificación de temas
- TLDR : Documento muy elegante, que ilustra que los modelos simples de Bayes Naive con características BigRam pueden superar a métodos más sofisticados como las máquinas de vectores de soporte en tareas como el análisis de sentimientos.
(2013) ¿Modelos profundos recursivos para la composicionalidad semántica sobre un sentimiento en el banco de árboles?
- TLDR : Presenta el Stanford Sentiment Treebank, un recurso maravilloso para la anotación de sentimientos de grano fino en las oraciones. También introduce la red recursiva de tensor neural, una arquitectura de aprendizaje profundo de motivación lingüística ordenada.
(2014) Representaciones distribuidas de oraciones y documentos
- TLDR : Presenta a los párrafos un sin supervisión que aprende representaciones fijas de los párrafos, utilizando ideas inspiradas de Word2Vec . Logra entonces Sota en el análisis de sentimientos en Stanford Sentiment Treebank y el conjunto de datos IMDB.
(2019) Aumento de datos no supervisado para capacitación de consistencia
- TLDR : Introduce un aumento de datos no supervisado , un método para una capacitación eficiente en un pequeño número de ejemplos de capacitación. El documento aplica UDA al conjunto de datos de análisis de sentimientos IMDB, logrando SOTA con solo 30 ejemplos de capacitación.
Lógica/inferencia natural
- (2007) Lógica natural para la inferencia textual
- TLDR : propone un enfoque riguroso basado en la lógica para el problema de la inferencia textual llamada lógica natural. Se utilizan transformaciones muy geniales motivadas matemáticamente para deducir la relación entre frases.
- (2008) Un modelo extendido de lógica natural
- TLDR : extiende el trabajo previo sobre lógica natural para la inferencia, agregando fenómenos como la exclusión semántica y la implicatividad para mejorar el proceso de transformación de la hipótesis de la premisa.
- (2014) Las redes neuronales recursivas pueden aprender semántica lógica
- TLDR : Demuestra que las arquitecturas de aprendizaje profundo, como las redes de tensor neural, pueden aplicarse efectivamente a la inferencia del lenguaje natural.
- (2015) ¿Un gran corpus anotado para aprender inferencia del lenguaje natural?
- TLDR : Presenta el Corpus de inferencia de lenguaje natural Stanford, un maravilloso recurso NLI más grande por dos órdenes de magnitud sobre conjuntos de datos anteriores.
Traducción automática
- (1993) Las matemáticas de la traducción al automóvil estadístico
- TLDR : Presenta los modelos de traducción automática de IBM, varios modelos seminales en estadística MT.
- (2002) Bleu: ¿Un método para la evaluación automática de la traducción automática?
- TLDR : Propone Bleu, la técnica de evaluación de facto utilizada para la traducción automática (¡incluso hoy!)
- (2003) Traducción estadística basada en frases
- TLDR : Presenta un modelo de traducción basado en frases para MT, haciendo un análisis agradable que demuestra por qué los modelos basados en frases superan a los basados en palabras.
- (2014) Secuencia al aprendizaje de secuencia con redes neuronales
- TLDR : Presenta la arquitectura de la red neuronal de secuencia a secuencia. Si bien solo se aplica a MT en este documento, desde entonces se ha convertido en una de las arquitecturas fundamentales del procesamiento moderno del lenguaje natural.
- (2015) Traducción de la máquina neuronal al aprender conjuntamente a alinearse y traducir
- TLDR : extiende arquitecturas de secuencia a secuencia previas para MT utilizando el mecanismo de atención, una herramienta poderosa para permitir que una palabra de destino busque suavemente una señal importante de la oración fuente.
- (2015) Enfoques efectivos para la traducción de la máquina neuronal basada en la atención
- TLDR : Presenta dos nuevos mecanismos de atención para MT, utilizándolos para lograr SOTA sobre los sistemas neuronales de MT existentes.
- (2016) Traducción del automóvil neuronal de palabras raras con unidades de subvenciones
- TLDR : Introduce la codificación de pares de bytes, una técnica efectiva para permitir que los sistemas de MT neuronales manejen (más) traducción al vocabulario abierto.
- (2016) señalar las palabras desconocidas
- TLDR : propone un mecanismo de copia para permitir que los sistemas MT copiaran palabras de manera más efectiva de una secuencia de contexto de origen.
- (2016) Sistema de traducción automática neuronal de Google: cerrar la brecha entre la traducción humana y automática
- TLDR : un maravilloso estudio de casos que demuestra cómo se ve un sistema de traducción automática de capacidad de producción (en este caso el de Google).
Análisis semántico
- (2013) ¿Se analiza semántico en Freebase de pares de preguntas y respuestas?
- TLDR : propone una técnica elegante para el análisis semántico que aprende directamente de los pares de respuesta-respuesta, sin la necesidad de formas lógicas anotadas, lo que permite que el sistema se acerque a la base libre.
- (2014) Analización semántica a través de parafraseo
- TLDR : Desarrolla un modelo de paráfrasis único para aprender formas lógicas candidatas apropiadas de pares de preguntas y respuestas, mejorando SOTA en conjuntos de datos Q/A existentes.
- (2015) ¿Construir un analizador semántico durante la noche?
- TLDR : ¡Papel ordenado que muestra que se puede construir un analizador semántico desde cero, comenzando sin ejemplos de entrenamiento!
- (2015) Reunir al aprendizaje automático y la semántica computacional
- TLDR : Una buena descripción general de un marco de semántica computacional que utiliza el aprendizaje automático para aprender de manera efectiva las formas lógicas para el análisis semántico.
Respuesta de preguntas/comprensión de lectura
(2016) Un examen exhaustivo de la tarea de comprensión de lectura CNN/Daily Mail
- TLDR : Un excelente documento de llamada de atención, que demuestra que el rendimiento de SOTA se puede lograr en ciertos conjuntos de datos de comprensión de lectura utilizando sistemas simples con características cuidadosamente elegidas. ¡No olvides los métodos de aprendizaje no profundos!
(2017) Escuadrón: más de 100,000 preguntas para la comprensión de la máquina del texto?
- TLDR : Presenta el conjunto de datos del escuadrón, un corpus de preguntas sobre la pregunta que se ha convertido en uno de los puntos de referencia de facto utilizados hoy en día.
(2019) Mire antes de saltar: preguntas de conversación de preguntas sobre gráficos de conocimiento utilizando expansión de contexto juicioso
- TLDR : Presenta un método no supervisado que puede responder preguntas incompletas sobre el gráfico de conocimiento manteniendo el contexto de conversación utilizando entidades y predicados vistos hasta ahora y inferir automáticamente piezas faltantes o ambiguas para preguntas de seguimiento.
(2019) Aprender a recuperar rutas de razonamiento sobre el gráfico de Wikipedia para responder preguntas
- TLDR : Presenta un nuevo enfoque de recuperación recurrente basado en gráficos, que recupera las rutas de razonamiento sobre el gráfico de Wikipedia para responder preguntas de dominio abierto de múltiples saltos.
(2019) razonamiento de sentido común abductivo
- TLDR : Presenta un conjunto de datos y conceptualiza dos nuevas tareas para el razonamiento abductivo: inferencia de lenguaje natural abductivo y generación de lenguaje natural abductivo.
(2020) razonamiento diferenciable sobre una base de conocimiento virtual
- TLDR : Presenta un módulo neuronal para la respuesta a preguntas de múltiples saltos, que es diferenciable y puede ser entrenado de extremo a extremo.
(2020) Aprovechando la recuperación del pasaje con modelos generativos para la respuesta de preguntas de dominio abierto
- TLDR : presenta un enfoque para la respuesta de preguntas de dominio abierto que se basa en recuperar pasajes de soporte antes de procesarlos con un modelo generativo
(2020) Deformador: descomposición de transformadores previamente capacitados para una respuesta de preguntas más rápida
- TLDR : Presenta un transformador descompuesto, que sustituye la autoatención completa con las autopicencias de todo el paso y en todo el paso en las capas inferiores que reducen el cómputo de tiempo de ejecución.
(2020) Recuperación de evidencia iterativa basada en la alineación no supervisada para la respuesta de preguntas de múltiples saltos
- TLDR : Los regalos introducen un método de recuperación de evidencia iterativa simple, rápida y sin supervisión para la respuesta de preguntas múltiples.
(2020) Aprender a hacer más: Generación de preguntas secuenciales semiautorregresivas bajo interacción de doble gráfico
- TLDR : presenta un enfoque para generar preguntas en semiautorregresses utilizando dos gráficos basados en pasajes y respuestas.
(2020) ¿Qué respuesta puede aprender de los nerds de trivia?
- TLDR : presenta información sobre qué tarea de respuesta de preguntas puede aprender de los torneos de trivia.
(2020) Mejora de la respuesta de las preguntas de múltiples saltos sobre gráficos de conocimiento utilizando incrustaciones de base de conocimiento
- TLDR : Presenta un enfoque efectivo para realizar KGQA de múltiples saltos sobre gráficos de conocimiento dispersos.
Generación/resumen del lenguaje natural
- (2004) Rouge: ¿Un paquete para la evaluación automática de resúmenes?
- TLDR : Introduce Rouge, una métrica de evaluación para el resumen que se utiliza hasta el día de hoy en una variedad de tareas de transducción de secuencias.
- (2004) TexTrank: Traer el orden a los textos
- TLDR : Aplicación de técnicas de análisis de texto basadas en gráficos basadas en PageRank, los autores logran resultados SOTA en la extracción de palabras clave y los resultados de resumen extractivo muy fuertes de una manera no supervisada.
- (2015) Generación de lenguaje natural basada en LSTM condicionada semánticamente para sistemas de diálogo hablado
- TLDR : propone un generador de lenguaje natural neural que optimiza conjuntamente la planificación y la realización de la superficie, superando a otros sistemas en la evaluación humana.
- (2016) señalar las palabras desconocidas
- TLDR : propone un mecanismo de copia para permitir que los sistemas MT copiaran palabras de manera más efectiva de una secuencia de contexto de origen.
- (2017) Llegue al punto: resumen con redes de Generator Pointer
- TLDR : Este trabajo ofrece un elegante mecanismo de copia suave, que supera drásticamente al SOTA en el resumen abstracto.
- (2020) Un modelo generativo para la comprensión y generación del lenguaje natural conjunto
- TLDR : Este trabajo presenta un modelo generativo que combina NLU y NLG a través de una variable latente compartida, logrando un rendimiento de vanguardia en dos conjuntos de datos de diálogo con representaciones formales planas y estructuradas en árboles
- (2020) BART: Precrendimiento de secuencia a secuencia de denominación para la generación de idiomas naturales, traducción y comprensión
- TLDR : Este trabajo presenta un modelo generativo que combina NLU y NLG a través de una variable latente compartida, logrando un rendimiento de vanguardia en dos conjuntos de datos de diálogo con representaciones formales planas y estructuradas en árboles.
Sistemas de diálogo
- (2011) Generación de respuesta a conducción de datos en las redes sociales
- TLDR : propone usar métodos de traducción automática estadística basados en frases al problema de la generación de respuesta.
- (2015) Generación de lenguaje natural basada en LSTM condicionada semánticamente para sistemas de diálogo hablado
- TLDR : propone un generador de lenguaje natural neural que optimiza conjuntamente la planificación y la realización de la superficie, superando a otros sistemas en la evaluación humana.
- (2016) Cómo no evaluar su sistema de diálogo: un estudio empírico de métricas de evaluación no supervisadas para la generación de respuesta al diálogo
- TLDR : Trabajo importante que demuestra que las métricas automáticas existentes utilizadas para el diálogo lamentablemente no se correlacionan bien con el juicio humano.
- (2016) Un sistema de diálogo orientado a tareas de extremo a extremo basado en la red
- TLDR : propone una arquitectura ordenada para descomponer un sistema de diálogo en una serie de componentes de red neuronales entrenados individualmente.
- (2016) Una función objetivo que promueve la diversidad para los modelos de conversación neuronal
- TLDR : introduce una función objetivo de información de información mutua máxima para los sistemas de diálogo de capacitación.
- (2016) La serie de desafíos de seguimiento del estado de diálogo: una revisión
- TLDR : Una buena descripción de los desafíos de seguimiento del estado de diálogo para los sistemas de diálogo.
- (2017) Una arquitectura de secuencia a secuencia de copia auge que ofrece un buen rendimiento en el diálogo orientado a las tareas
- TLDR : muestra que las arquitecturas simples de secuencia a secuencia con un mecanismo de copia pueden funcionar de manera competitiva en los conjuntos de datos de diálogo orientados a tareas existentes.
- (2017) ¿Redes de recuperación de valor clave para el diálogo orientado a tareas?
- TLDR : Presenta un nuevo conjunto de datos multidominio para el conjunto de datos orientado a tareas, así como una arquitectura para incorporar suavemente información de bases de conocimiento estructuradas en sistemas de diálogo.
- (2017) ¿Aprender agentes de diálogo colaborativo simétrico con incrustaciones de gráficos de conocimiento dinámico?
- TLDR : Presenta un nuevo conjunto de datos de diálogo colaborativo, así como una arquitectura para representar el conocimiento estructurado a través de incrustaciones de gráficos de conocimiento.
- (2017) Redes de código híbrido: control de diálogo de extremo a extremo práctico y eficiente con aprendizaje supervisado y de refuerzo
- TLDR : Presenta una arquitectura de diálogo híbrido que puede ser capacitado conjuntamente a través del aprendizaje supervisado, así como el aprendizaje de refuerzo y combina técnicas de redes neuronales con enfoques basados en reglas de grano fino.
Aprendizaje interactivo
- (1971) Procedimientos como representación de datos en un programa de computadora para comprender el lenguaje natural
- TLDR : Uno de los documentos seminales en informática, que presenta a Shrdlu un sistema temprano para las computadoras que comprenden los comandos del lenguaje humano.
- (2016) Aprender juegos de idiomas a través de la interacción
- TLDR : Introduce un entorno novedoso para interactuar con las computadoras para lograr una tarea en la que solo el lenguaje natural se pueda usar para comunicarse con el sistema.
- (2017) Naturalización de un lenguaje de programación a través del aprendizaje interactivo
- TLDR : un trabajo muy genial que permite a una comunidad de trabajadores naturalizar iterativamente un lenguaje que comienza con un conjunto central de comandos en una tarea interactiva.
Modelado de idiomas
- (1996) Un estudio empírico de técnicas de suavizado para el modelado de idiomas
- TLDR : realiza una extensa encuesta de técnicas de suavizado en los sistemas de modelado de idiomas tradicionales.
- (2003) Un modelo de lenguaje probabilístico neuronal
- TLDR : Un trabajo seminal en aprendizaje profundo para PNL, que introduce uno de los primeros modelos efectivos para el modelado de idiomas basado en redes neuronales.
- (2014) ¿Un punto de referencia de mil millones de palabras para medir el progreso en el modelado de lenguaje estadístico?
- TLDR : Presenta el punto de referencia de modelado de lenguaje de palabras de Google One mil millones.
- (2015) Modelos de lenguaje neuronal consciente de los personajes
- TLDR : propone un modelo de lenguaje que utiliza redes neuronales convolucionales que pueden emplear información a nivel de personaje, realizando en par con sistemas LSTM a nivel de palabra.
- (2016) Explorando los límites del modelado de idiomas
- TLDR : presenta un sistema de modelos de lenguaje mega que utiliza un aprendizaje profundo que utiliza una variedad de técnicas y realiza significativamente el SOTA en el punto de referencia de un mil millones de palabras.
- (2018) ¿Representaciones de palabras contextualizadas profundas?
- TLDR : Este artículo presenta Elmo, una colección súper poderosa de incrustaciones de palabras aprendidas de las representaciones intermedias de un modelo de lenguaje LSTM bidireccional profundo. Logró SOTA en 6 tareas de PNL diversas.
- (2018) BERT: pretruamiento de transformadores bidireccionales profundos para la comprensión del lenguaje
- TLDR : Uno de los documentos más importantes de 2018, que presenta a Bert una potente arquitectura previa a la medida utilizando el modelado de lenguaje que luego se transfiere efectivamente a otras tareas específicas del dominio.
- (2019) XLNet: Pretratenamiento autorregresivo generalizado para la comprensión del lenguaje
- TLDR : Método de pretrenesa autorregresivo generalizado que mejora a Bert al maximizar la probabilidad esperada sobre todas las permutaciones del orden de factorización.
Miscelánea
- (1997) Memoria a largo plazo
- TLDR : presenta la unidad recurrente LSTM, una piedra angular de la PNL moderna basada en la red neuronal
- (2000) Modelos máximos de entropía Markov para extracción y segmentación de información
- TLDR : Presenta los modelos de Markov de Entropy Markov para la extracción de información, una técnica ML comúnmente utilizada en la PNL clásica.
- (2010) De la frecuencia al significado: los modelos de semántica espacial vectorial
- TLDR : Una maravillosa encuesta de modelos de espacio vectorial existentes para la semántica de aprendizaje en el texto.
- (2012) Una introducción a los campos aleatorios condicionales
- TLDR : Una visión general bonita y profunda de los campos aleatorios condicionales, un modelo de etiquetado de secuencia comúnmente utilizado.
- (2013) Representación distribuida de palabras y frases y su composición
- TLDR introdujo Word2Vec, una colección de representaciones de vectores distribuidos que se han usado comúnmente para inicializar los incrustaciones de palabras en básicamente cada arquitectura de PNL de los últimos cinco años. ?
- (2014) Glove: ¿Vectores globales para la representación de palabras?
- TLDR : Introduce incrustaciones de palabras de guantes, una de las técnicas de incrustación de palabras previas a la aparición más utilizadas en todos los sabores de los modelos de PNL
- (2014) ¡No cuentes, predecir! Una comparación sistemática de vectores semánticos con contexto versus con contexto
- TLDR : Documento importante que demuestra que los enfoques de semántica de distribución que predicen el contexto superan a las técnicas basadas en el conteo.
- (2015) Mejora de la similitud de distribución con las lecciones aprendidas de las incrustaciones de palabras
- TLDR : demuestra que las técnicas de semántica de distribución tradicional se pueden mejorar con ciertas opciones de diseño y optimizaciones de hiperparameter que hacen que su rendimiento rivalice con los de los métodos de incrustación de redes neuronales.
- (2018) Modelo de lenguaje universal ajustado para la clasificación de texto
- TLDR : proporciona una Smorgasbord de técnicas agradables para modelos de lenguaje Finetuning que pueden transferirse de manera efectiva a las tareas de clasificación de texto.
- (2019) Analogías explicadas: hacia la comprensión de las incrustaciones de palabras
- TLDR : Muy buen trabajo que proporciona un formalismo matemático para comprender algunas de las propiedades parafraseadas de las incrustaciones de palabras modernas.