La gran lista de análisis de texto del tío Steve y recursos de PNL
____ ____ ____ ____ _________ ____ ____ ____ ____ ____ ____
||t |||e |||x |||t ||| |||m |||i |||n |||i |||n |||g ||
||__|||__|||__|||__|||_______|||__|||__|||__|||__|||__|||__||
|/__|/__|/__|/__|/_______|/__|/__|/__|/__|/__|/__|
Una lista curada de recursos para aprender sobre procesamiento del lenguaje natural, análisis de texto y datos no estructurados.
Tabla de contenido
- Libros
- Blogs
- Artículos de blog, documentos, estudios de casos
- General
- Sesgos en PNL
- Raspado
- Limpieza
- Derivado
- Reducción de dimensionalidad
- Detección de sarcasmo
- Clasificación de documentos
- Extracción de entidad e información
- Clustering de documentos y similitud de documentos
- Análisis de conceptos/modelado de temas
- Análisis de sentimientos
- Resumen de texto
- Traducción automática
- Sistemas de preguntas y respuestas, chatbots
- Coincidencia difusa, coincidencia probabilística, enlace de registro, etc.
- Incrustaciones de palabras y documentos
- Transformadores y modelos de idiomas
- Aprendizaje profundo
- Gráficos de conocimiento
- Conferencias principales de PNL
- Puntos de referencia
- Cursos en línea
- API y bibliotecas
- Productos
- Demostraciones y herramientas en línea
- Conjuntos de datos
- Maga
- Otras listas curadas
Libros
Riñonal
- Minería de texto con r
- Dominar la minería de texto con R
- Minería de texto en la práctica con R
Pitón
- Procesamiento del lenguaje natural con transformadores, edición revisada
- Comenzando con el procesamiento del lenguaje natural
- BluePrints for Text Analytics utilizando Python: aplicaciones de soluciones basadas en aprendizaje automático para el mundo real (PNL)
- Procesamiento práctico del lenguaje natural
- Procesamiento del lenguaje natural con Python
- Procesamiento del lenguaje natural con pytorch
- Procesamiento de lenguaje natural de Python
- Dominar el procesamiento del lenguaje natural con Python
- Procesamiento del lenguaje natural: Python y NLTK
- Análisis de texto aplicado con Python: habilitando productos de datos conscientes del lenguaje con aprendizaje automático
- Procesamiento de lenguaje natural aplicado con Python. 2018.
- Aprendizaje profundo con texto
General
- Taming Text: Cómo encontrarlo, organizarlo y manipularlo. Una guía práctica para aprender herramientas y técnicas innovadoras para encontrar, organizar y manipular el texto no estructurado.
- Procesamiento del habla y el lenguaje
- Fundamentos del procesamiento estadístico del lenguaje natural
- Procesamiento del lenguaje con Perl y Prolog: teorías, implementación y aplicación (tecnologías cognitivas)
- Una introducción para la recuperación de información
- Manual de procesamiento del lenguaje natural
- Minería práctica de texto y análisis estadístico para aplicaciones de datos de texto no estructuradas
- Fundamentos de la minería de texto predictivo
- Minería la web social: minería de datos Facebook, Twitter, LinkedIn, Google+, Github y más
- Métodos de red neuronal para el procesamiento del lenguaje natural
- Minería de texto: una guía para las ciencias sociales
- Análisis de texto práctico: interpretación de texto y datos no estructurados para la inteligencia empresarial
- Métodos de red neuronal en procesamiento del lenguaje natural
- Aprendizaje automático para texto (2018)
- Procesamiento del lenguaje natural en español
- Fundaciones de la lingüística computacional Comunicación humana-computadora en lenguaje natural. Proporciona información sobre cómo construir robots parlantes.
- Métodos estadísticos para el reconocimiento de voz. Destaca la investigación importante y los métodos estadísticos para el reconocimiento de voz.
- Cómo etiquetar la guía extendida de datos sobre la gestión de proyectos de anotación de texto grandes
Blogs
- Probablemente aproximadamente un blog científico
- Sebastian Ruder
- PNLP progreso
- Blog de procesamiento del lenguaje natural
Artículos de blog, documentos, estudios de casos
General
- PNL en atención médica. La forma en que PNL puede ser utilizado por los pagadores y proveedores de atención médica.
- AI Harvard Business Review. El impacto de la mejora en la PNL en la interacción humana con máquinas.
- Por qué la precisión en el procesamiento del lenguaje natural es crucial para el futuro de la IA en el comercio minorista
- ¡El procesamiento del lenguaje natural es divertido! Cómo las computadoras entienden el lenguaje humano. 2018.
- Wef Live Campaign - Twitter Fed Global News Temas y Sentiment Tracker - Live Jan 2019
- Técnicas modernas de aprendizaje profundo aplicados al procesamiento del lenguaje natural
- La guía definitiva para el procesamiento del lenguaje natural. Monqueylearn. Descripción general no técnica.
- Desde el lenguaje natural hasta las entradas del calendario, con Clojure. Marzo de 2015. PNL, Clojure
- Pregunte HN: ¿Cómo puedo ingresar a PNL (procesamiento del lenguaje natural)?
- Pregunte HN: ¿Cuáles son las mejores herramientas para analizar grandes cuerpos de texto?
- Quora: ¿Cómo aprendo el procesamiento del lenguaje natural? Buena introducción para principiantes con el desglose de estimación de tiempo y enlaces a los cursos de Stanford CS.
- Tema de Quora: Procesamiento del lenguaje natural
- La guía definitiva para el procesamiento del lenguaje natural en octubre de 2015.
- Futures of Text Feb 2015. Una encuesta de toda la innovación actual en el texto como medio.
- R o Python en la minería de texto Ago de 2015. Comparación de la eficiencia entre R y Python en el campo de la minería de texto.
- Por dónde empezar en la minería de texto ago de 2012.
- Minería de texto en R y Python: 8 consejos para comenzar. OCT 2016
- Una introducción al análisis de texto con Python, Parte 1 de abril de 2012. Un tutorial para principiantes sobre la idea básica del análisis de sentimientos en Python.
- Minería de datos de Twitter con Python (Parte 1: Recopilación de datos)
- Por qué la minería de texto puede ser la próxima gran cosa. Marzo de 2012.
- SAS CEO ofrece análisis a través de BI, revela casos de uso para análisis de texto junio de 2011.
- Valor y beneficios de la minería de texto. Sep 2015.
- Text Mining South Park Feb 2016: un blog de minería de texto que cubre una variedad de temas.
- Procesamiento del lenguaje natural: una introducción
- Tutorial de procesamiento del lenguaje natural. Junio de 2013.
- Blog de procesamiento del lenguaje natural.
- Una introducción a la minería de texto utilizando la API de transmisión de Twitter y Python
- Repo de Github con código: https://github.com/adilmoujahid/twitter_analytics
- Cómo entrar en el procesamiento del lenguaje natural '. Introducción no técnica básica a PNL.
- Betty: una amigable interfaz en inglés para su línea de comando.
- Creación de modelos de aprendizaje automático para analizar las noticias de inicio - Parte1. Parte 2. Parte 3.
- Comparación de las API de procesamiento de texto más útiles
- 100 documentos de PNL de lectura obligada
- Guía de Python para tratar con datos de texto
- Verdad terrestre de crowdsourcing para la extracción de relaciones médicas
- Previsión financiera basada en el lenguaje natural: una encuesta
- Previsión financiera basada en el lenguaje natural: una encuesta. Un artículo que aclara el alcance del pronóstico financiero del lenguaje natural.
- 5 Herramientas heroicas para el procesamiento del lenguaje natural
- El procesamiento del lenguaje natural desbloquea datos ocultos para transformar la eficiencia, calidad y costo de la atención médica
- Extracción de problemas médicos de documentos clínicos electrónicos
- Procesamiento del lenguaje natural (PNL) para el aprendizaje automático. Incluye el preprocesamiento básico y fácil de entender y compara algunos modelos de clases ML en Python.
- Cómo escribir un corrector de ortografía - por Peter Norvig
- Usando AI para desatar el poder de los datos del gobierno no estructurado: (W. Eggers, N. Malik y M. Gracie, enero de 2019). "Piense en el texto no estructurado como 'atrapado' en los archivadores físicos y virtuales. La promesa es clara: los gobiernos podrían mejorar la efectividad y evitar muchas catástrofes al mejorar su capacidad de 'conectar los puntos' e identificar patrones en los datos disponibles". Este artículo de Deloitte proporciona un cebador y antecedentes fáciles de competir en PNL, y las diversas aplicaciones NLP podrían usarse en datos de texto del gobierno no estructurados. El artículo incluye muchos ejemplos del gobierno de EE. UU. Sobre cómo la PNL se implementa actualmente en diferentes dominios (por ejemplo, para ayudar a analizar la retroalimentación pública/análisis de sentimientos/modelado de temas, para mejorar las investigaciones forenses, para ayudar en la formulación de políticas gubernamentales y el cumplimiento regulatorio). El punto clave es aplicar diferentes técnicas de PNL para explorar y descubrir información clave de inteligencia del gobierno.
- Extracción de características de los productos de entretenimiento: un enfoque guiado de asignación de Dirichlet latente informado por la psicología del consumo de medios: (O. Toubia, G. Iyengar, R. Bunnell y A. Lemaire, febrero de 2019). "Confiamos en la literatura de NLP para desarrollar un método para etiquetar productos de entretenimiento de manera automatizada y escalable. En el contexto de las películas, primero mostramos que las características propuestas mejoran nuestra capacidad de predecir el consumo a nivel individual ... también mostramos que las características guiadas de LDA tienen el potencial de mejorar el rendimiento de los modelos que predicen el rendimiento del rendimiento agregado en lugar del consumo de nivel individual". Este artículo académico proporciona un marco e implicaciones gerenciales que sugieren la aplicación de LDA y PNL para la extracción de características en productos de entretenimiento que pueden ayudar en modelos tradicionales de comportamiento del consumidor basados en el contenido y modelos de marketing relevantes aplicados a la industria de los medios y el entretenimiento.
- Lecciones aprendidas construyendo sistemas de procesamiento de lenguaje natural en atención médica
- Cómo los algoritmos saben lo que escribirás a continuación
Sesgos en PNL
- AI BIAS: Es responsabilidad de los humanos garantizar la justicia
- VentureBeat BlogPost - sesgos de género en conjuntos de datos - basado en el documento de investigación de UCLA "Aprendiendo las incrustaciones de palabras neutrales de género" ago de 2018.
- Examinar el sesgo de género y de carrera en doscientos sistemas de análisis de sentimientos. 2018
- ¿El hombre es para el programador de computadoras como mujer es para ama de casa? Debiasing Word Incruscaciones.
Raspado
- Scraping HTML usando tutorial de Scrapy sobre el uso del módulo Python Scrapy para una fácil extracción de datos de sitios web de HTML desordenados.
- Extraer texto de cualquier documento; Sin muss, sin problemas. Julio de 2014.
- Uso de Scrapy para construir su propio conjunto de datos Sep 2017.
Limpieza
- Cómo resolver el 90% de los problemas de PNL: una guía paso a paso de enero de 2018. Una guía paso a paso sobre la limpieza y exploración de datos para la construcción exitosa del modelo NLP.
- Preprocesamiento de texto en Python: pasos, herramientas y ejemplos. Oct 2018
- Cómo limpiar el texto para el aprendizaje automático con Python Octubre de 2017. Guía paso a paso de cómo realizar el preprocesamiento de datos de texto.
- Extracción de características, preprocesamiento básico y procesamiento avanzado
Detener las palabras
- Eliminar las palabras de detención con NLTK en Python
- Clasificación de texto para análisis de sentimientos: palabras de parada y colocaciones
Derivado
- Artículo: Texto derivado: enfoques, aplicaciones y desafíos. Diciembre de 2016.
- ¿Cuál es la diferencia entre Stemming y Lemmatization? FEB 2018. Diferencias y ejemplos de uso de Stemming y Lemmatización en diferentes idiomas.
- Stemming and Lemmatization en Python. Oct 2018. Comparación de la derivación y lemmatización con algoritmos detrás, resultados, pros y contras, contexto para usar y sintaxis de código.
- Tutorial del Simposio de sentimiento: Stemming
Reducción de dimensionalidad
- Taming Text con el SVD. Sas. Enero de 2004.
- Reducción de dimensionalidad para modelos de bolsas de palabras: PCA vs LSA
- Una introducción a la bolsa de palabras y cómo codificarla en Python para NLP
- Bolsa de palabras y tf-idf explicada
Detección de sarcasmo
- Detección automática de sarcasmo: una encuesta ACM Computer Surveys, sep de 2017.
- Cascada: detección del sarcasmo contextual en foros de discusión en línea 27ª Conferencia Internacional sobre Lingüística Computacional, agosto de 2018.
- Una mirada más profunda a los tweets sarcásticos utilizando profundas redes neuronales convolucionales International Journal of Advanced Research en Ingeniería y Tecnología Informática, Volumen 6, Número 1, enero de 2017.
- Detección de sarcasmo con profundas redes neuronales convolucionales. 30 de abril de 2018. Aprendizaje contextual utilizando CNN para la detección efectiva del sarcasmo.
Clasificación de documentos
- Naive Bayes y Text Classifation, 2014. Una descripción en profundidad del algoritmo Naive Bayes y cómo se puede usar en el proceso de clasificación de documentos.
- Bolsa de trucos para una clasificación de texto eficiente, 2016. Un artículo de investigadores de Facebook que presenta FastText, un algoritmo de clasificación de documentos rápido y efectivo.
- Algoritmos de clasificación de texto en el aprendizaje automático, 2017. Un artículo de blog que muestra cómo aplicar varios algoritmos de aprendizaje profundo para documentar problemas de clasificación.
- Clasificación de documentos en el conjunto de datos Reuters-21578 R8, 2016. Un buen tutorial en R que muestra cómo clasificar los artículos de noticias utilizando tres algoritmos ML diferentes.
- Tidy Text Mining Beer Reviews, 2018. Utiliza el algoritmo KNN para clasificar las reseñas de los productos de cerveza artesanal en estilos de cerveza (por ejemplo, "Pilsner", "IPA" o "belga").
- Usar FastText y Comet.ml para clasificar las relaciones en gráficos de conocimiento
- Clasificación de texto de múltiples clases con Scikit-Learn, 2018. Un artículo que muestra cómo lidiar con problemas de clase múltiple, como clasificar las quejas de los consumidores en una de las 12 categorías.
- Aprendizaje automático con texto en Scikit-Learn (Pycon 2016), 2016. Un buen video tutorial que analiza cómo usar Scikit-Learn en el proceso de clasificación de documentos.
- Ultimate Guide para tratar con datos de texto (usando Python) - Para Data Scientists & Engineers, 2018. El título lo dice todo.
- Clasificación de texto en Python con Scikit-Learn y NLTK, 2017. Otro tutorial que muestra cómo realizar la clasificación de texto usando Scikit-Learn.
- Introducción de clasificación de texto de última generación con Modelos de idiomas universales, 2019. Introduce un método de aprendizaje de transferencia innovador para la clasificación de documentos.
- INCREGARS DE DOCUMENTES DE APRENDIZACIÓN Predecir N -Grams para la clasificación de sentimientos de revisiones largas de películas - Documento con código en GitHub
- Hacia la PNL explicable: un marco de explicación generativo para la clasificación de texto, 2019. Un artículo que describe un nuevo enfoque para explicar el funcionamiento interno de los modelos de clasificación de texto.
Extracción de entidad e información
- Extracción de entidad y análisis de red. Python,
StanfordCoreNLP - Procesamiento del lenguaje natural para la extracción de información
- Técnicas de PNL para extraer información. Exploración en profundidad del marco de siete pasos de las herramientas y técnicas de minería de datos de PNL.
Clustering de documentos y similitud de documentos
- Clustering de texto: Obtenga información rápida de datos no estructurados. Julio de 2017.
- Agrupación de documentos. Tesis de MSC.
- Clustering de documentos: una revisión detallada. Shah y Mahajan. Ijais 2012.
- Documento de agrupación con Python Un repositorio de GitHub que agrupa las descripciones de películas IMDB. Basado en este tutorial original, cuyo repositorio de GitHub está aquí.
- Análisis de minería de texto y sentimiento en revisiones de usuarios de videojuegos utilizando SAS® Enterprise Miner
- ¿Quién escribió el artículo de opinión anti-Trump New York Times? Uso de TidyText para encontrar similitud de documentos
Análisis de conceptos/modelado de temas
- Modelos de temas: pasado, presente y futuro
- Vectores de palabras usando LSA, parte - 2
- Modelos de temas probabilísticos
- LEGO Color Temas como modelos de temas Sep 2017.
- Cómo nuestra startup cambió de LDA no supervisada a GuidedDa semi-supervisada
- Modelado de temas con LSA, PLSA, LDA y LDA2VEC AUGH 2018.
- Text2Vec Descripción de los modelos de temas
- Portal de modelado de temas
- Aplicaciones de modelos de temas 2017.
- MacS 30500: Análisis de texto: modelado de temas
- Cota, el enfoque de modelado de temas de Uber para mejorar la atención al cliente
- Uso de los modelos de temas de LDA como entrada de modelo de clasificación
- PNLP: Extracción de los temas principales de su conjunto de datos usando LDA en minutos
- Modelado de temas El tema legal y la actividad judicial del Tribunal Superior de Australia, 1903–2015
Análisis de sentimientos
Métodos
- CACM: Técnicas y aplicaciones para el análisis de sentimientos, 2013. Una buena visión general del análisis de sentimientos de las comunicaciones de la revista ACM.
- Análisis de sentimientos sin supervisión con redes sociales firmadas, 2017. Un documento de conferencia que describe los desafíos de aplicar el análisis de sentimientos a las redes sociales y presenta un nuevo método no supervisado.
- Métodos basados en léxico para el análisis de sentimientos, 2010. Utiliza SO-CAL (calculadora de orientación semántica), una medida de subjetividad y opinión para el análisis sentimental.
- Ese sentimiento sentimental, 2015. Compara el resultado del paquete Syezhet de R con etiquetas humanas en una serie de novelas. Una actualización de 2016.
- Sentimiento sin supervisión Neuron, 2017. El equipo de OpenAI desarrolló una nueva forma de usar NNS profundos para realizar un análisis de sentimientos, en mucho menos datos de lo habitual.
- Análisis actual del estado de los sentimientos de texto a la minería de emociones, 2017. Un artículo de revista que examina el estado actual de la investigación y las herramientas de análisis de sentimientos.
- Descripción general de las herramientas de análisis de sentimientos, Parte 1. Bases de datos de palabras positivas y negativas, 2017. Un artículo de blog que describe algunas bases de datos de léxicos.
- Análisis de sentimientos, análisis de conceptos y aplicaciones, 2018. Una descripción general del análisis de sentimientos, con un análisis de tweets sobre Uber.
- Documentos y modelos de investigación de Breakthrough para el análisis de sentimientos, 2018. Un blog que compara el rendimiento de los métodos simples a avanzados para el análisis de sentimientos.
- Análisis de sentimientos de Twitter utilizando modelos LSTM-CNN combinados, 2018. Un artículo de blog que describe un nuevo método para el análisis de sentimientos que utiliza el aprendizaje profundo.
- Vader: Un modelo parsimonioso basado en reglas para el análisis de sentimientos del texto de las redes sociales, 2014. Un documento de conferencia que presenta Vader, un modelo simple de análisis de sentimientos basado en reglas.
- Una comparación de los enfoques basados en el léxico para el análisis de sentimientos de publicaciones de microblog, 2014. Un documento de conferencia que presenta un nuevo enfoque basado en léxico para el análisis de sentimientos de publicaciones de Twitter, basado en recursos léxicos como Sentiwordnet.
Desafíos
- Sobre la negatividad de la negación, 2011. Un documento de conferencia que discute los desafíos de lidiar con la negatividad en el texto, con un estudio de caso sobre revisiones de películas de IMDB.
- Desafíos en el análisis de sentimientos, 2015. Una guía práctica del Consejo Nacional de Resumen de Canadá que describe algunos de los principales desafíos del análisis de sentimientos.
- Una encuesta sobre desafíos de análisis de sentimientos, 2016. Un artículo de revista que analiza y compara los desafíos de análisis de sentimientos entre cuarenta y siete artículos.
Política
- Análisis de sentimientos en los tweets de Trump utilizando Python, 2017. Análisis de sentimientos en los tweets de Trump utilizando Tweepy y TextBlob para el procesamiento de PNL.
- Donald Trump vs Hillary Clinton: Análisis de sentimientos en Menciones de Twitter, 2016. Compara el sentimiento de los Tweets de Trump vs. Tweets de Hillary que llevan a las elecciones presidenciales estadounidenses de 2016.
- ¿Funciona el análisis de sentimientos? Un análisis ordenado de las revisiones de Yelp, 2016. Resultados de predicción combinados y palabras individuales en revisiones para mostrar que el análisis de sentimientos funcionó bien en las revisiones de Yelp.
- Desde tweets hasta encuestas: vinculando el sentimiento de texto a la serie de tiempo de opinión pública, 2010. Un documento de conferencia que describe cómo el análisis de sentimientos en Twitter está conectado a las encuestas de opinión pública.
Mercado de valores
- Twitter Mood predice el mercado de valores, 2010. Un artículo de revista que mide el "estado de ánimo" de Twitter Feedsa y muestra que el estado de ánimo puede predecir el DJIA.
- Un impacto no lineal: evidencias de los efectos causales de las redes sociales en los precios del mercado, 2016. Un artículo de revista que muestra que la relación de las redes sociales con el DJIA no es lineal.
- Forbes: cómo los comerciantes cuantitadores usan el sentimiento para obtener una ventaja en el mercado, 2015. Un artículo que muestra cómo los comerciantes cuantitadores pueden usar el análisis de sentimientos.
- SEDDEX: Cuantificación de la cualitativa. Una herramienta en línea que mide el sentimiento general de diferentes acciones.
- Trump2Cash: Un bot de negociación de acciones impulsado por Tweets de Trump. Un bot que observa la cuenta de Twitter de Donald Trump y espera a que mencione cualquier empresa cotizada pública. Un artículo de blog relacionado describe un bot que convierte los tweets de Trump en donaciones de Planned Parenthood.
Aplicaciones
- Lost at mar: cómo las redes sociales están ayudando a las líneas de cruceros a atraer a los millennials, 2016. Un documento técnico que describe cómo las líneas de cruceros pueden atraer a una audiencia diferente.
- Harry Plotter: Celebrando el 20 aniversario con TidyText y The Tidyverse en R, 2015. Un artículo técnico que muestra cómo aplicar el análisis de sentimientos al texto de la serie Harry Potter.
- Data Science 101: Análisis de sentimientos en R Tutorial, 2017. Un artículo técnico que describe cómo usar el paquete TidyText en R para analizar los discursos presidenciales de los Estados Unidos.
- Cannes Lions 2017: Hungerithm, Mars Chocolate Australia (Clemenger BBDO, Melbourne), 2017. Un video que muestra cómo Snickers desarrolló una herramienta para cambiar el precio de Snickers Bar basado en el estado de ánimo de Internet.
- Análisis de sentimientos: 10 aplicaciones y 4 servicios, 2018. Una introducción breve pero concisa al análisis de sentimientos, sus implicaciones comerciales y cuatro proveedores de servicios en la nube de análisis de análisis de cuatro sentimientos, incluidos Google, Amazon y Microsoft.
- Lo que su jefe podría aprender leyendo los correos electrónicos de toda la compañía, 2018. "La lección: descubra la verdad sobre cómo la fuerza laboral no se siente al escuchar la sustancia de lo que dicen los empleados, sino examinando cómo lo dicen". Este artículo se centra en el tema de aplicar análisis de sentimientos a grandes conjuntos de datos de texto no estructurados internos (por ejemplo, correos electrónicos de empleados). El análisis de texto y la PNL se han convertido en un enfoque cada vez más popular para ayudar a buscar pistas que puedan indicar el nivel de participación de los empleados en el lugar de trabajo, y cualquier posible 'flags rojo' que deba recibir atención particular por parte de una organización y sus implicaciones éticas.
- Análisis de sentimientos basados en el aspecto de Amazon Product Reviews, 2018. Un artículo que muestra cómo aplicar el análisis de sentimientos en diferentes aspectos de una revisión de productos en Amazon.
- Análisis de sentimientos de 2.2 millones de tweets del Super Bowl 51, 2017. Un artículo que muestra cómo aplicar el análisis de sentimientos a los tweets sobre el Super Bowl.
- Análisis de emociones y sentimientos: una guía de profesionales para la PNL, 2018. Una descripción general del análisis de sentimientos, aplicado a los artículos de noticias.
Herramientas y tecnología
- Tutorial de análisis de transmisión sobre Azure.
- Cómo analizar el sentimiento en Azure.
- HOYO-PROFUMENCIA-CONTENIMIENTO-ANÁLISIS-USECUENTO-PYTHON-TUTORIAL/.
- Descripción general del análisis de sentimientos de Twitter, 2016. Descripción general del análisis de sentimientos y un tutorial paso a paso sobre cómo realizar análisis de sentimientos usando TextBlob.
- ELMO Incrustos en Keras usando TensorFlow Hub, 2018. Una guía para usar el Elmo de Google en su modelo Keras usando TensorFlow Hub.
- Análisis de sentimientos de Twitter en Python usando Textblob, 2018.
Resumen de texto
- Resumen de texto con Gensim
- Resumen de texto no supervisado utilizando incrustaciones de oraciones
- Mejora de la abstracción en el resumen de texto que propone dos técnicas para mejorar
- Resumen y categorización de texto para datos científicos y relacionados con la salud. Resumen de contenido de texto con flujo tensor. 2016. Un estudio básico sobre resumen de texto.
Traducción automática
- Publicación de blog: Encontrado en la traducción: oraciones más precisas y fluidas en el traductor de Google Nov 2016
- NYTimes: The Great AI Awakening Dic 2016. Cómo Google usó inteligencia artificial para transformar el traductor de Google, uno de sus servicios más populares, y cómo el aprendizaje automático está listo para reinventar la computación.
- Traducción de aprendizaje automático y el algoritmo de Google Translate
- Tutorial de traducción automática neural (SEQ2SEQ)
- Documento diseccionado: "La atención es todo lo que necesita" explicó una explicación de un artículo importante que introdujo el 'mecanismo de atención' por primera vez en 2017.
- El transformador anotado es una implementación de línea por línea de "La atención es todo lo que necesita".
- BERT: Pretración previa de transformadores bidireccionales profundos para el lenguaje Comprender un nuevo modelo de representación del lenguaje publicado en 2018. Código de implementación. Puerto Pytorch.
- Traducción automática no supervisada basada en frase y neural propuesta dos variantes de modelo: modelo neural y basado en frases. Otorgado como el Premio al Mejor Papel en EMNLP 2018. Código de implementación.
Sistemas de preguntas y respuestas, chatbots
- Conoce a Lucy: Creación de un prototipo de chatbot
- Marco de Bot de Microsoft.
- Entrenamiento de millones de agentes de diálogo personalizados
- Guía definitiva para aprovechar NLP y aprendizaje automático para su chatbot. 2016.
- Construyendo un chatbot simple desde cero en Python (usando NLTK). Sep 2018
- Una encuesta sobre sistemas de diálogo: avances recientes y nuevas fronteras enero de 2018.
- Examinando el impacto de un chatbot de traducción automatizado en el diálogo colaborativo en línea para el aprendizaje incidental de L2
- Cree un chatbot bancario con descubrimiento de preguntas frecuentes, detección de ira y comprensión del lenguaje natural
- Chatbots de modelo generativo- mayo de 2017
- Una guía para construir un Slackbot multifaurado con Python- Marzo de 2017
- Construyendo un chatbot simple desde cero en Python (usando NLTK)- septiembre de 2018
- El camino hacia una banca conversacional futura febrero de 2019
- Chatbots - Diseño de intenciones y entidades para modelos de PNL Jan 2017
- Sistema de diálogo orientado a tareas para diagnóstico automático. 2018. Habla sobre el uso del conjunto de datos capacitado en MDP y sus aplicaciones de diagnóstico médico.
- Li Deng en AI Frontiers: tres generaciones de sistemas de diálogo hablado (bots). 2017. Diapositivas por Microsoft Chief Scientist para AI.
- PNL - Construir un modelo de respuesta de preguntas. Marzo de 2018
Coincidencia difusa, coincidencia probabilística, enlace de registro, etc.
- Método AGREP en R. Coincidencia de cadena aproximada (coincidencia difusa)
- Paquete FuzzyWuzzy en R. Uso de ejemplo.
- Fuzzy String Matching: una habilidad de supervivencia para abordar la información no estructurada
- El paquete de registro de registro: detectar errores en los datos
- R PAQUETO RASTLINK: enlace de registro probabilístico rápido
- Fuzzy fusionar en una función r para fusionar archivos definiendo un archivo de clave
- Aprender similitud de texto con redes recurrentes siamesas
- Dedupe: una biblioteca de Python para una coincidencia difusa precisa y escalable, deduplicación registrada y resolución de la entidad.
- Recordlinkage: un conjunto de herramientas para el enlace de registro y la deduplicación escrita en Python.
Incrustaciones de palabras y documentos
- Lo mejor actual de las incrustaciones de las palabras universales y los incrustaciones de oraciones
- Una comprensión intuitiva de las incrustaciones de palabras: de los vectores de conteo a Word2vec
- Una evaluación empírica de DOC2VEC con ideas prácticas sobre documentos de incorporación de la Generación 2016. De IBM.
- Incrustación de documentos con vectores de párrafo 2015. De Google.
- Demo de incrustaciones de palabras de guantes 2017. De Fasti.
- Clasificación de texto con Word2Vec 2016.
- Documento de incrustación 2017
- Desde incrustaciones de palabras hasta distancias de documento 2015.
- Incrustaciones de palabras, sesgo en ML, por qué no te gustan las matemáticas, y por qué la IA te necesita 2017. Rachel Thomas (Fastai)
- Vectores de palabras en el procesamiento del lenguaje natural: vectores globales (guante). Agosto de 2018.
- Tutorial DOC2Vec en el conjunto de datos Lee
- Incrustaciones de palabras en Python con Spacy y Gensim
- Representaciones de palabras contextualizadas profundas. Elmo. Implementación de Pytorch. Implementación de TF
- Modelo de lenguaje universal ajustado para la clasificación de texto. Código de implementación.
- Aprendizaje supervisado de representaciones de oraciones universales a partir de datos de inferencia de lenguaje natural.
- Aprendido en la traducción: vectores de palabras contextualizados. Ensenada.
- Representaciones distribuidas de oraciones y documentos. Vectores de párrafo. Ver Tutorial Doc2Vec en Gensim
- sense2vec. Decisión del sentido de la palabra Desambiguación.
- Saltea los vectores de pensamiento. Método de representación de palabras.
- Secuencia al aprendizaje de secuencia con redes neuronales
- El increíble poder de los vectores de palabras. 2016.
- Incremedios de cadena contextual para el etiquetado de secuencia. 2018.
- Un enfoque jerárquico de tareas múltiples para aprender incrustaciones de tareas semánticas que introduce un enfoque de aprendizaje de tareas múltiples para un conjunto de tareas de PNL interrelacionadas. Presentado en la Conferencia AAAI en enero de 2019. Código de implementación.
- ELMO Word Increddings
- Una guía de idiota para el procesamiento del lenguaje natural de Word2Vec
- Ponte a trabajar con Word Increddings: una introducción (febrero de 2018)
- El momento de Imagenet de la PNL ha llegado. Julio de 2018. Descripción general de los modelos de lenguaje PNL previamente capacitados, dibujando paralelos a las contribuciones de ImageNet a la visión por computadora.
- Word2Vec: Fish + Music = Bass
- El codificador de oraciones universal explicó visualmente. Junio de 2020.
Transformadores y modelos de idiomas
- Comprender modelos de idiomas grandes. Sebastian Raschka. Febrero de 2023.
- Un manual en bertología: lo que sabemos sobre cómo funciona Bert. Nov 2020.
- Una revisión de los modelos basados en Bert. Julio de 2019.
- Bert explicó - Modelo de lenguaje de última generación para PNL. Una gran explicación de los fundamentos de cómo funciona Bert.
- El ilustrado Bert, Elmo y la co. (Cómo la PNL Cracked Transfer Learning). Dic 2018.
- Las máquinas vencieron a los humanos en una prueba de lectura. ¿Pero entienden?
- Lo que todo ingeniero de PNL necesita saber sobre los modelos de idiomas previamente capacitados. 2019.
- el transformador ... "explicado"?
- El transformador ilustrado
- Abrazando el curso de Face en modelos de transformadores
- OpenAI: mejores modelos de idiomas y sus implicaciones: modelo de lenguaje no supervisado basado en transformadores previamente capacitado que logra de vanguardia en muchos puntos de referencia de idiomas con enfoque en la generación de texto. Controvertido lanzamiento limitado. 14 de febrero de 2019.
Chatgpt
- Blog de lanzamiento de chatgpt
- Increíbles indicaciones de chatgpt
... en educación
- CHATGPT Experiencia del usuario: implicaciones para la educación. Xiaoming Zhai (Unviversidad de Georgia). Diciembre de 2022.
- Nuevos modos de aprendizaje habilitados por AI Chatbots: tres métodos y tareas Mollick y Mollick (Universidad de Pensilvania). Diciembre de 2022.
- Los educadores luchan contra el plagio como el 89% de los estudiantes admiten usar el chatgpt de OpenAI para la tarea. Forbes, enero de 2023
- Chatgpt: ¿amigo o enemigo educativo? Hirsh-Pasek y Blinkoff (Universidad del Temple). Enero de 2023.
- No prohíba el chatgpt en las escuelas. Enseñe con él. New York Times (enero de 2023).
- Chatgpt y el futuro de la educación empresarial. Febrero de 2023.
- Curso de Udemy (enero de 2023). Chatgpt para maestros en educación.
Aprendizaje profundo
- Tutorial Keras LSTM: cómo construir fácilmente un poderoso modelo de lenguaje de aprendizaje profundo.
- La primera mitad del artículo describe RNNS, la anatomía de una célula LSTM, redes LSTM. La segunda mitad es un tutorial de características en Keras para la implementación de LSTM utilizando generadores para la entrada de datos.
- Aprendizaje profundo para el procesamiento del lenguaje natural: tutoriales con cuadernos Jupyter.
- Un artículo breve que contiene enlaces y descripciones para más tutoriales de video para los enfoques de DL para los problemas de PNL. Cinco lecciones en total, incluyendo preprocesamiento, representaciones de palabras y LSTM, entre otros temas.
- Una encuesta sobre los usos del aprendizaje profundo en el procesamiento del lenguaje natural.
- Una revisión de literatura académica de 35 páginas de DL en PNL (Universidad de Colorado, julio de 2018). Descripción detallada de las arquitecturas de redes neuronales seguido de un conjunto integral de aplicaciones.
- Clasificación de secuencia con atención humana: el uso de la atención humana derivada de los corpus de seguimiento ocular para regularizar la atención en redes neuronales recurrentes (RNN). Código de implementación.
- Tutorial sobre clasificación de texto (PNL) utilizando Ulmfit y FastiAi Library en Python
- Redes neuronales profundas de varias tareas para la comprensión del lenguaje natural. Artículo académico que detalla el algoritmo MTDNN de Microsoft que ha superado a Bert, Elmo & Bilstm a partir de febrero de 2019 en el punto de referencia de pegamento.
- Tutorial de procesamiento del lenguaje natural para investigadores de aprendizaje profundo: un repositorio de tutorías de la PNL 2019 utilizando TensorFlow y Pytorch.
- Aprendizaje profundo para el análisis de sentimientos: una encuesta
- Comprensión de lectura neuronal y más allá de diciembre de 2018 Stanford - Modelos de comprensión de lectura construidos sobre redes neuronales profundas.
- Microsoft: red neuronal de múltiples tareas (MT-DNN): la mejora de Microsoft en Bert de Google con enfoque en la comprensión del lenguaje natural. Código a liberar. 31 de enero de 2019.
- Una oración de atentiva estructurada
Redes de cápsulas
- Investigación de redes de cápsulas con enrutamiento dinámico para la clasificación de texto. 2018.
- Redes de cápsulas basadas en la atención con enrutamiento dinámico para la extracción de relaciones. 2018.
- Análisis de sentimientos de Twitter utilizando redes cápsulas y Gru. 2018.
- Identificar la agresión y la toxicidad en los comentarios utilizando la red de cápsulas. 2018. Es temprano para las redes cápsulas, que fue introducida por Geoffrey Hinton, et al., En 2017 como un intento de introducir una arquitectura NN superior a los CNN clásicos. La idea tiene como objetivo capturar las relaciones jerarquincales en la capa de entrada a través del enrutamiento dinámico entre "cápsulas" de las neuronas. Debido a la afinidad del tema de abordar las complejidades jerárquicas, la extensión de la idea al campo de PNL ha sido desde entonces un ejemplo de investigación activa, como en los documentos mencionados anteriormente.
- Enrutamiento dinámico entre cápsulas. 2017.
- Cápsulas de matriz con enrutamiento EM. 2018.
Gráficos de conocimiento
- Usar FastText y Comet.ml para clasificar las relaciones en gráficos de conocimiento
- WTF es un gráfico de conocimiento?
- Una encuesta de gráficos en el procesamiento del lenguaje natural. Nastase et al, 2015.
Conferencias principales de PNL
- Neuros
- Asociación de Lingüística Computacional (ACL)
- Métodos empíricos en el procesamiento del lenguaje natural (EMNLP)
- Capítulo de América del Norte de la Asociación de Lingüística Computacional (NAACL)
- Capítulo Europeo de la Asociación de Lingüística Computacional (EACL)
- Conferencia Internacional sobre Lingüística Computacional (Coling)
Puntos de referencia
- Tabla de clasificación de escuadrón. Una lista de los modelos de PNL de mayor rendimiento en el conjunto de datos de contestadores de preguntas de Stanford.
- Squad 1.0 Paper (último actualizado en octubre de 2016). Squad V1.1 incluye más de 100,000 pares de preguntas y respuestas basados en artículos de Wikipedia.
- Squad 2.0 Paper (octubre de 2018). La segunda generación de escuadrón incluye preguntas sin respuesta que el modelo PNL debe identificar como sin respuesta de los datos de capacitación.
- Tabla de clasificación de pegamento.
- Glue Paper (septiembre de 2018). A collection of nine NLP tasks including single-sentence tasks (eg check if grammar is correct, sentiment analysis), similarity and paraphrase tasks (eg determine if two questions are equivalent), and inference tasks (eg determine whether a premise contradicts a hypothesis).
Online courses
Udemy
- Udemy: Deep Learning and NLP AZ™: How to create a ChatBot
- Udemy: Natural Language Processing with Deep Learning in Python
- Udemy: NLP - Natural Language Processing with Python
- Udemy: Deep Learning: Advanced NLP and RNNs
- Udemy: Natural Language Processing and Text Mining Without Coding
Stanford
- Stanford CS 224N / Ling 284
- Website: http://cs224d.stanford.edu/
- Reddit: https://www.reddit.com/r/CS224d/comments/4n04ew/follow_along_with_cs224d_2015_or_2016/
- Lecture Collection | Natural Language Processing with Deep Learning (Winter 2017)
Coursera
- Courses for "natural language processing" on Coursera
- Coursera: Applied Text Mining in Python
- Coursera: Nartual Language Processing
- Coursera: Sequence Models for Time Series and Natural Language Processing
- Coursera: Coursera: Clinical Natural Language Processing
DataCamp
- DataCamp: Natural Language Processing Fundamentals in Python
- DataCamp: Sentiment Analysis in R: The Tidy Way
- DataCamp: Text Mining: Bag of Words
- DataCamp: Building Chatbots in Python
- DataCamp: Advanced NLP with spaCy
Otros
- Deep Learning Drizzle : Drench yourself in Deep Learning, Reinforcement Learning, Machine Learning, Computer Vision, and NLP from this curated list of exciting lectures!
- Procesamiento del lenguaje natural | Dan Jurafsky, Christopher Manning
- Deep Learning for NLP. DeepMind and University of Oxford Department of Computer Science.
- CMU CS 11-747: Neural Network for NLP
- YSDA NLP course. Yandex School of data analysis.
- CMU Language and Statistics II: (More) Empirical Methods in Natural Language Processing
- UT CS 388: Natural Language Processing
- Columbia: COMS W4705: Natural Language Processing
- Columbia: COMS E6998: Machine Learning for Natural Language Processing (Spring 2012)
- Machine Translation: Spring 2016
- Commonlounge: Learn Natural Language Processing: From Beginner to Expert
- Big Data University: Advanced Text Analytics – Getting Results with SystemT
- Udacity: Natural Language Processing Nanodegree
- edX: Natural Language Processing: An introduction to NLP, taught by Microsoft researchers
APIs and Libraries
- R packages
- tm: Text Mining.
- lsa: Latent Semantic Analysis.
- lda: Collapsed Gibbs Sampling Methods for Topic Models.
- textir: Inverse Regression for Text Analysis.
- corpora: Statistics and data sets for corpus frequency data.
- tau: Text Analysis Utilities.
- tidytext: Text mining using dplyr, ggplot2, and other tidy tools.
- Sentiment140: Sentiment text analysis
- sentimentr: Lexicon-based sentiment analysis.
- cleanNLP: ML-based sentiment analysis.
- RSentiment: Lexicon-based sentiment analysis. Contains support for negation detection and sarcasm.
- text2vec: Fast and memory-friendly tools for text vectorization, topic modeling (LDA, LSA), word embeddings (GloVe), similarities.
- fastTextR: Interface to the fastText library.
- LDAvis: Interactive visualization of topic models.
- keras: Interface to Keras, a high-level neural networks 'API'. (RStudio Blog: TensorFlow for R)
- retweet: Client for accessing Twitter's REST and stream APIs. (21 Recipes for Mining Twitter Data with rtweet)
- topicmodels: Interface to the C code for Latent Dirichlet Allocation (LDA).
- textmineR: Aid for text mining in R, with a syntax that should be familiar to experienced R users.
- wordVectors: Creating and exploring word2vec and other word embedding models.
- gtrendsR: Interface for retrieving and displaying the information returned online by Google Trends.
- Analyzing Google Trends Data in R
- textstem: Tools that stem and lemmatize text.
- NLPutils Utilities for Natural Language Processing.
- Udpipe Tokenization, Parts of Speech Tagging, Lemmatization and Dependency Parsing using UDPipe.
- Python modules
- NLTK: Natural Language Toolkit.
- Video: NLTK with Python 3 for Natural Language Processing
- scikit-learn: Machine Learning in Python
- Spark NLP: Open source text processing library for Python, Java, and Scala. It provides production-grade, scalable, and trainable versions of the latest research in natural language processing.
- spaCy: Industrial-Strength Natural Language Processing in Python.
- textblob: Simplified Text processing.
- Natural Language Basics with TextBlob
- Gensim: Topic Modeling for humans.
- Pattern.en: A fast part-of-speech tagger for English, sentiment analysis, tools for English verb conjugation and noun singularization & pluralization, and a WordNet interface.
- textmining: Python Text Mining utilities.
- Scrapy: Open source and collaborative framework for extracting the data you need from websites.
- lda2vec: Tools for interpreting natural language.
- PyText A deep-learning based NLP modeling framework built on PyTorch.
- sent2vec: General purpose unsupervised sentence representations.
- flair: A very simple framework for state-of-the-art Natural Language Processing (NLP)
- word_forms: Accurately generate all possible forms of an English word eg "election" --> "elect", "electoral", "electorate" etc.
- AllenNLP: Open-source NLP research library, built on PyTorch.
- Beautiful Soup: Parse HTML and XML documents. Useful for webscraping.
- BigARTM: Fast topic modeling platform.
- Scattertext: Beautiful visualizations of how language differs among document types.
- embeddings: Pretrained word embeddings in Python.
- fastText: Library for efficient learning of word representations and sentence classification.
- Google Seq2Seq: A general-purpose encoder-decoder framework for Tensorflow that can be used for Machine Translation, Text Summarization, Conversational Modeling, Image Captioning, and more.
- polyglot: A natural language pipeline that supports multilingual applications.
- textacy: NLP, before and after spaCy
- Glove-Python: A “toy” implementation of GloVe in Python. Includes a paragraph embedder.
- Bert As A Service: Client/Server package for sentence encoding, ie mapping a variable-length sentence to a fixed-length vector. Design intent to provide a scalable production ready service, also allowing researchers to apply BERT quickly.
- Keras-BERT: A Keras Implementation of BERT
- Paragraph embedding scripts and Pre-trained models: Scripts for training and testing paragraph vectors, with links to some pre-trained Doc2Vec and Word2Vec models
- Texthero Text preprocessing, representation and visualization from zero to hero.
- Apache Tika: a content analysis tookilt.
- Apache Spark: is a fast and general-purpose cluster computing system. It provides high-level APIs in Java, Scala, Python and R, and an optimized engine that supports general execution graphs.
- MLlib: MLlib is Spark's machine learning (ML) library. Its goal is to make practical machine learning scalable and easy. Related to NLP there are methods available for LDA, Word2Vec, and TFIDF.
- LDA: latent Dirichlet allocation
- Word2Vec: is an Estimator which takes sequences of words representing documents and trains a Word2VecModel. The model maps each word to a unique fixed-size vector. The Word2VecModel transforms each document into a vector using the average of all words in the document
- TFIDF: term frequency-inverse document frequency
- HDF5: an open source file format that supports large, complex, heterogeneous data. Requires no configuration.
- h5py: Python HDF5 package
- Stanford CoreNLP: a suite of core NLP tools
- Also checkout http://corenlp.run for a hosted version of the CoreNLP server.
- Introduction to StanfordNLP: An Incredible State-of-the-Art NLP Library for 53 Languages (with Python code)
- Stanford Parser: A probabilistic natural language parser.
- Stanford POS Tagger: A Parts-of-Speech tagger.
- Stanford Named Entity Recognizer: Recognizes proper nouns (things, places, organizations) and labels them as such.
- Stanford Classifier: A softmax classifier.
- Stanford OpenIE: Extracts relationships between words in a sentence (eg Mark Zuckerberg; founded; Facebook).
- Stanford Topic Modeling Toolbox
- MALLET: MAchine Learning for LanguagE Toolkit
- Github: https://github.com/mimno/Mallet
- Apache OpenNLP: Machine learning based toolkit for text NLP.
- Streamcrab: Real-Time, Twitter sentiment analyzer engine http:/www.streamcrab.com
- TextRazor API: Extract Meaning from your Text.
- fastText. Library for fast text representation and classification. Facebook.
- Comparison of Top 6 Python NLP Libraries.
- pyCaret's NLP Module. PyCaret is an open source, low-code machine learning library in Python that aims to reduce the cycle time from hypothesis to insights; also, PyCaret's Founder Moez Ali is a Smith Alumni - MMA 2020.
Productos
- Systran - Enterprise Translation Products
- SAS Text Miner (Part of SAS Enterprise Miner)
- SAS Sentiment Analysis
- STATISTICA
- Text Mining (Big Data, Unstructured Data)
- KNIME
- RapidMiner
- Puerta
- IBM Watson
- Video: How IBM Watson learns (3 minutes)
- Video: IBM Watson on Jeapardy! (10 minutes)
- Video: IBM Watson: The Science Behind an Answer (7 minutes)
- Crimson Hexagon
- Stocktwits: Tap into the Pulse of Markets
- Aguanieve
- CrowdFlower: AI for your business.
- Lexalytics Sematria: API and Excel plugin.
- Rosette Text Analytics: AI for Human Language
- Alchemy API
- Monkey Learn
- LightTag Annotation Tool. Hosted annotation tool for teams.
- UBIAI. Easy-to-use text annotation tool for teams with most comprehensive auto-annotation features. Supports NER, relations and document classification as well as OCR annotation for invoice labeling
- Anafora: Free and open source web-based raw text annotation tool
- brat: Rapid annotation tool.
- Google's Colab: Ready-to-go Notebook environment that makes it easy to get up and running.
- Lyrebird.ai: “Ultra-Realistic Voice Cloning and Text-to-Speech” recognition platform. This Canadian start-up has created a product/platform that syncs both voice cloning with text-to-speech. Lyrebird recognizes the intonations and voice patterns from audio recordings, and overlays text data input to recreate a text-to-speech audio file output from the selected voice pattern audio recording.
- Ask Data by Tableau Software Inc.: In February 2019, Tableau released a new NLP feature service add-on to help assist existing Tableau platform users with retrieving quick and easy data visualizations to drive business intelligence insights. Similar to a search engine user interface, Tableau's Ask Data feature interface applies NLP from user text input to extract key words to find data analytics and business insights quickly on the Tableau Platform.
- Dialogflow Google's Natural Language Platform used to integrate conversational user interfaces into mobile apps, web applications, bots, VRUs, etc.
- Weka Easy-to-use, graphical Machine Learning Workbench including NLP capabilities.
- Annotation Lab - Free End-to-End No-Code platform for text annotation and DL model training/tuning. Out-of-the-box support for Named Entity Recognition, Classification, Relation extraction and Assertion Status Spark NLP models. Unlimited support for users, teams, projects, documents.
Nube
- Microsoft Azure Text Analytics
- Amazon Lex: A service for building conversational interfaces into any application using voice and text.
- Amazon Comprehend
- Google Cloud Natural Language
- IBM Watson
- Video: How IBM Watson learns (3 minutes)
- Video: IBM Watson on Jeapardy! (10 minutes)
- Video: IBM Watson: The Science Behind an Answer (7 minutes)
Getting Data out of PDFs
- Apache PDFBox
- Tabula: A tool for liberating data tables locked inside PDF files.
- PDFLayoutTextStripper: Converts a pdf file into a text file while keeping the layout of the original pdf.
- pdftabextract: A set of tools for extracting tables from PDF files helping to do data mining on (OCR-processed) scanned documents.
- SO: How to extract text from a PDF?
- Tools for Extracting Data and Text from PDFs - A Review
- How I used NLP (SpaCy) to screen Data Science Resumes
- PyPDF2: PDF file manipulation (PDF to PDF).
Online Demos and Tools
- MIT OpenNPT for neural machine translation and neural sequence modeling
- Stanford Parser
- Stanford CoreNLP
- word2vec demo
- Another word2vec demo
- sense2vec: Semantic Analysis of the Reddit Hivemind
- RegexPal: Great tool for testing out regular expressions.
- AllenNLP Demo: Great demo using AllenNLP of everything from Named Entity Recognition to Textual Entailment.
- Cognitive Computation Group - Part of Speech Tagging Demo These demos exhibit part-of-speech tagging, information extraction tasks etc.
Conjuntos de datos
- UCI's Text Datasets. A collection of databases, domain theories, and data generators used by Machine Learning community.
- data.world's Text Datasets
- Awesome Public Datasets' Natural Languge
- Insight Resources Datasets
- Bing Sentiment Analysis
- Consumer Complaint Database. From the Consumer Financial Protection Bureau.
- Sentiment Labelled Sentences Data Set . Contains sentences labelled as "positive" or "negative", from imdb.com, amazon.com, and yelp.com.
- Amazon product data
- Data is Plural
- FiveThirtyEight's datasets
- r/datasets
- Awesome public datasets
- R's
datasets package - 200,000 Russian Troll Tweets - Released by Congress from Twitter suspended accounts and removed from public view.
- Wikipedia: List of datasets for ML research
- Google Dataset Search
- Kaggle: UMICH SI650 - Sentiment Classification
- Lee's Similarity Data Sets
- Corpus of Presidential Speeches (CoPS) and a Clinton/Trump Corpus
- 15 Best Chatbot Datasets for Machine Learning
- A Survey of Available Corpora for Building Data-Driven Dialogue Systems
- nlp-datasets
- Hate-speech-and-offensive-language
- First Quora Dataset Release: Question Pairs
- The Best 25 Datasets for Natural Language Processing
- SWAG: A large-scale dataset created for Natural Language Inference (NLI) with common-sense reasoning.
- MIMIC: an openly available dataset developed by the MIT Lab for Computational Physiology, comprising deidentified health data associated with ~40,000 critical care patients.
- Clinical NLP Dataset Repository: A curated list of publicly-available clinical datasets for use in NLP research.
- Million Song Lyrics
- The Multi-Genre NLI Corpus
- Twitter US Airline Sentiment
- Million Song Lyrics: Dataset of song lyrics in Bag-Of-Words (BOW) format.
- DuoRC – 186K unique question-answer pairs with evaluation script for Paraphrased Reading Comprehension
- EDGAR Financial Statements: Reporting engine for financial and regulatory filings for companies worldwide. A huge repository of financial and company data for text mining.
- American National Corpus Download
- Santa Barbara Corpus of Spoken American English
- Leipzig Corpora Collection: Corpora in English, Arabic, French, Russian, German
- Awesome Twitter
- The Big Bad NLP Database
- CBC News Coronavirus articles
- Huggingface
Lexicons for Sentiment Analysis
- MPQA Lexicon
- SentiWordNet
- Afinn
- Aturdir
- nrc
- vaderSentiment
Misc
- AskReddit: People with a mother tongue that isn't English, what are the most annoying things about the English language when you are trying to learn it?
- Funny Video: Emotional Spell Check
- How to win Kaggle competition based on NLP task, if you are not an NLP expert
- Detecting Gang-Involved Escalation on Social Media Using Context Detecting Aggression and Loss in social media using CNN
- Reasoning about Actions and State Changes by Injecting Commonsense Knowledge Incorporating global, commonsense constraints & biasing reading with preferences from large-scale corp
- The Language of Hip Hop: A 2017 analysis by Matt Daniels of Pudding determining the popularity of various words in hip hop music and across artists.
- Using Natural Language Processing for Automatic Detection of Plagiarism
- Probabilistic Graphical Models: Lagrangian Relaxation Algorithms for Natural Language Processing
- Human Emotion How to determine confidence level for manually labeled sentiment data?
- A Complete Exploratory Data Analysis and Visualization for Text Data
Other Curated Lists
- awesome-nlp: A curated list of resources dedicated to Natural Language Processing (NLP)
- awesome-machine-learning
- Awesome Deep Learning for Natural Language Processing (NLP)
- Paper with Code: A fantastic list of recent machine learning papers on ArXiv, with links to code.
- Chinese NLP Tools. 2019. List of tools for NLP in Chinese Language.
- Association for Computational Linguistics Papers Anthology: The ACL Anthology currently hosts almost 50,000 papers on the study of computational linguistics and natural language processing. Includes all papers from recent conferences.
- Over 150 of the Best Machine Learning, NLP, and Python Tutorials I've Found
Contribuir
Contributions are more than welcome! Please read the contribution guidelines first.
Licencia
To the extent possible under law, @stepthom has waived all copyright and related or neighboring rights to this work.