Descarga awesome nlp - Descarga de código fuente awesome nlp

awesome nlp

Otro código fuente

1.0.0

Descargar

Awesome-NLP

Una lista curada de recursos dedicados al procesamiento del lenguaje natural

Logotipo impresionante de PNL

Lea esto en inglés, chino tradicional

Lea las pautas de contribución antes de contribuir. Agregue su recurso NLP favorito planteando una solicitud de extracción

Contenido

Resúmenes y tendencias de investigación
Laboratorios prominentes de investigación de la PNL
Tutoriales
- Contenido de lectura
- Videos y cursos
- Libros
Bibliotecas
- Nodo.js
- Pitón
- C ++
- Java
- Kotlín
- Escala
- Riñonal
- Clojure
- Rubí
- Óxido
- NLP ++
- Julia
Servicios
Herramientas de anotación
Conjuntos de datos
PNL en coreano
PNL en árabe
PNL en chino
PNL en alemán
PNL en polaco
PNL en español
PNL en idiomas indic
PNL en tailandés
PNL en danés
PNL en vietnamita
PNL para holandés
PNL en indonesio
PNL en urdu
PNL en persa
PNL en ucraniano
PNL en húngaro
PNL en portugués
Otros idiomas
Créditos

Resúmenes y tendencias de investigación

NLP-Overview es una visión general actualizada de las técnicas de aprendizaje profundo aplicados a la PNL, incluidas la teoría, las implementaciones, las aplicaciones y los resultados de vanguardia. Esta es una gran introducción profunda de la PNL para los investigadores.
NLP-Progress rastrea el progreso en el procesamiento del lenguaje natural, incluidos los conjuntos de datos y el estado actual de las tareas más comunes de la PNL
Ha llegado el momento de Imagenet de la PNL
Lo más destacado de ACL 2018: Comprender la representación y la evaluación en entornos más desafiantes
Cuatro tendencias de aprendizaje profundo de ACL 2017. Parte uno: estructura lingüística e incrustaciones de palabras
Cuatro tendencias de aprendizaje profundo de ACL 2017. Parte dos: interpretabilidad y atención
Lo más destacado de EMNLP 2017: ¡conjuntos de datos emocionantes, devolución de los clústeres y más!
Aprendizaje profundo para el procesamiento del lenguaje natural (PNL): avances y tendencias
Encuesta del estado del arte en generación de idiomas naturales

Laboratorios prominentes de investigación de la PNL

Volver arriba

El Grupo NLP Berkeley: las contribuciones notables incluyen una herramienta para reconstruir idiomas muertos largos, a los que se hace referencia aquí y tomando corpus de 637 idiomas actualmente hablados en Asia y el Pacífico y recreando a su descendiente.
Instituto de tecnologías de idiomas, Universidad Carnegie Mellon: los proyectos notables incluyen Avenue Project, un sistema de traducción automática impulsado por la sintaxis para idiomas en peligro de extinción como Quechua y Aymara y anteriormente, Noah's Ark, que creó AQMAR para mejorar las herramientas PNL para el árabe.
NLP Research Group, Universidad de Columbia: responsable de crear Bolt (manejo de errores interactivos para sistemas de traducción del habla) y un proyecto sin nombre para caracterizar la risa en el diálogo.
El Centro o Procesamiento de lenguaje y habla, Universidad John Hopkins: recientemente en las noticias para desarrollar un software de reconocimiento de voz para crear una prueba de diagnóstico o la enfermedad de Parkinson, aquí.
Grupo de Lingüística Computacional y Procesamiento de Información, Universidad de Maryland: las contribuciones notables incluyen la cooperación humana-computadora o el desarrollo de preguntas y modelado de representaciones fonéticas de las representaciones fonéticas.
Penn Natural Language Processing, Universidad de Pennsylvania- Famosa por crear el Penn Treebank.
El Grupo de Procesamiento de Lenguas Nautral de Stanford: uno de los principales laboratorios de investigación de PNL en el mundo, notable por crear Stanford Corenlp y su sistema de resolución de coreferencia

Tutoriales

Volver arriba

Contenido de lectura

Aprendizaje automático general

Machine Learning 101 del ingeniero creativo senior de Google explica el aprendizaje automático para ingenieros y ejecutivos por igual
AI Playbook - A16Z AI Playbook es un gran enlace para reenviar a sus gerentes o contenido para sus presentaciones
Blog de Ruder de Sebastian Ruder para comentarios sobre lo mejor de la investigación de PNL
Cómo etiquetar la guía de datos para administrar proyectos de anotación lingüística más grandes
Depende de la colección de definición de publicaciones de blog que cubran una amplia gama de temas de PNL con implementación detallada

Introducciones y guías a PNL

Comprender e implementar el procesamiento del lenguaje natural
PNLP en Python - Colección de cuadernos Github
Procesamiento del lenguaje natural: una introducción - Oxford
Aprendizaje profundo para PNL con Pytorch
Tutorial NLTK práctico - Tutoriales NLTK, cuadernos Jupyter
Procesamiento del lenguaje natural con Python - Análisis de texto con el kit de herramientas de lenguaje natural, un libro en línea e impreso que presenta conceptos de PNL utilizando NLTK. Los autores del libro también escribieron la biblioteca NLTK.
Entrenar un nuevo modelo de idioma desde cero: ¿abrazando la cara?
El Super Duper NLP Repo (SDNLPR): colección de cuadernos Colab que cubren una amplia gama de implementaciones de tareas de PNL.

Blogs y boletines

Aprendizaje profundo, PNL y representaciones
El ilustrado Bert, Elmo y la co. (Cómo el aprendizaje de transferencia de NLP agrietó) y el transformador ilustrado
Procesamiento del lenguaje natural por Hal Daumé III
ARXIV: Procesamiento del lenguaje natural (casi) desde cero
Karpathy es la efectividad irrazonable de las redes neuronales recurrentes
Dominio de aprendizaje automático: aprendizaje profundo para el procesamiento del lenguaje natural
Resúmenes de papel de PNL visual

Videos y cursos en línea

Volver arriba

Procesamiento avanzado del lenguaje natural - CS 685, UMass Amherst CS
Procesamiento de lenguaje natural profundo - Serie de conferencias de Oxford
Aprendizaje profundo para el procesamiento del lenguaje natural (CS224 -N) - Curso de Stanford de Richard Scher y Christopher Manning
Redes neuronales para PNL - Instituto de Tecnología Language Carnegie Mellon allí
Curso de PNL profundo de Yandex Data School, que cubre ideas importantes desde la incrustación de texto hasta la traducción automática, incluyendo modelado de secuencia, modelos de idiomas, etc.
Fast.AI Code -First Intro al procesamiento del lenguaje natural: esto cubre una combinación de temas tradicionales de la PNL (incluidos Regex, SVD, Naive Bayes, Tokenización) y enfoques de red neuronales recientes (incluidas RNN, SEQ2SEQ, Grus y el Transformador), así como para abordar cuestiones éticas urgentes, como el bias y la desinformación. Encuentra los cuadernos Jupyter aquí
Machine Learning University - Procesamiento acelerado del lenguaje natural: las conferencias van desde la introducción al PNL y el procesamiento de texto a las redes neuronales y transformadores recurrentes. El material se puede encontrar aquí.
Serie de conferencias de procesamiento del lenguaje natural aplicado de IIT Madras tomando desde lo básico hasta Autoencoders y todo. Los cuadernos de Github para este curso también están disponibles aquí.

Libros

Procesamiento del habla y el lenguaje - gratis, por el profesor Dan Jurafsy
Procesamiento del lenguaje natural - Notas gratuitas de la PNL por el Dr. Jacob Eisenstein en Georgiatech
PNLP con Pytorch - Brian y Delip Rao
Minería de texto en r
Procesamiento del lenguaje natural con Python
Procesamiento práctico del lenguaje natural
Procesamiento del lenguaje natural con Spark NLP
Aprendizaje profundo para el procesamiento del lenguaje natural por Stephan Raaijmakers
Procesamiento del lenguaje natural del mundo real - por Masato Hagiwara
Procesamiento del lenguaje natural en acción, segunda edición - por Hobson Lane y Maria Dyshel

Bibliotecas

Volver arriba

Node.js y JavaScript - Node.js Libiarios para NLP | Volver arriba
- Twitter -Text: una implementación de JavaScript de la biblioteca de procesamiento de texto de Twitter
- KNWL.JS - Un procesador de lenguaje natural en JS
- Retext: sistema extensible para analizar y manipular el lenguaje natural
- Compromiso de PNL: procesamiento del lenguaje natural en el navegador
- Natural - Instalaciones generales de lenguaje natural para nodos
- Poplar: una herramienta de anotación basada en la web para el procesamiento del lenguaje natural (PNL)
- NLP.JS - Una biblioteca de NLP para bots de construcción
- Node-Question-Responsing: respuesta rápida y preparada para la producción con Distilbert en Node.js
Python - Bibliotecas Python NLP | Volver arriba
- Modelos de sentimiento sentimental-onix para Spacy usando ONNX
- TextAttack: ataques adversos, entrenamiento adversario y aumento de datos en PNL
- TextBlob: proporcionando una API consistente para sumergirse en tareas comunes de procesamiento del lenguaje natural (PNL). ¿Se encuentra en los hombros gigantes del kit de herramientas de lenguaje natural (NLTK) y el patrón, y juega bien con ambos?
- SPACIA - NLP de fuerza industrial con Python y Cython?
- Speedster: aplique automáticamente las técnicas de optimización de SOTA para lograr la aceleración máxima de inferencia en su hardware
  - Textacy - NLP de nivel superior basado en Spacy
- GENSIM - Biblioteca de Python para realizar modelos semánticos no supervisados de texto plano?
- ScatterText - Biblioteca de Python para producir visualizaciones D3 de cómo el lenguaje difiere entre los corpus
- Gluonnlp: un conjunto de herramientas de aprendizaje profundo para NLP, construido en MXNET/Gluon, para la creación de prototipos de investigación y el despliegue industrial de modelos de última generación en una amplia gama de tareas de PNL.
- Allennlp: una biblioteca de investigación de NLP, basada en Pytorch, para desarrollar modelos de aprendizaje profundo de última generación en una amplia variedad de tareas lingüísticas.
- Pytorch -NLP - NLP Research Toolkit diseñado para admitir prototipos rápidos con mejores cargadores de datos, cargadores de vectores de palabras, representaciones de capa de redes neuronales, métricas comunes de PNL como Bleu
- Rosetta - Herramientas de procesamiento de texto y envoltorios (por ejemplo, Vowpal Wabbit)
- Pynlpl - Biblioteca de procesamiento de lenguaje natural de Python. Biblioteca NLP de propósito general para Python, maneja algunos formatos específicos como modelos de lenguaje ARPA, Moses Phrasetables, alineaciones GIZA ++.
- Foliapy - Biblioteca de Python para trabajar con folia, un formato XML para la anotación lingüística.
- Pyss3 - Paquete Python que implementa un nuevo modelo de aprendizaje automático de caja blanca para la clasificación de texto, llamado SS3. Dado que SS3 tiene la capacidad de explicar visualmente su razón, este paquete también viene con herramientas de visualizaciones interactivas fáciles de usar (demostraciones en línea).
- JPTDP: un conjunto de herramientas para etiquetado de forma conjunta (POS) y análisis de dependencia. JPTDP proporciona modelos previamente capacitados para más de 40 idiomas.
- Bigartm - Una biblioteca rápida para el modelado de temas
- Snips NLU - Una biblioteca de producción para analizar intenciones
- Chazutsu: una biblioteca para descargar y analizar conjuntos de datos de investigación NLP estándar
- Formas de palabras: los formularios de palabras pueden generar con precisión todas las formas posibles de una palabra en inglés
- Asignación de Dirichlet latente multilingüe (LDA): una tubería de agrupación de documentos multilingües y extensibles
- Kit de herramientas de lenguaje natural (NLTK): una biblioteca que contiene una amplia variedad de funcionalidad de PNL, que respalda más de 50 corpus.
- NLP Architect: una biblioteca para explorar las topologías y técnicas de aprendizaje profundo de última generación para NLP y NLU
- Flair: un marco muy simple para la PNL multilingüe de última generación construida en Pytorch. Incluye incrustaciones de Bert, Elmo y Flair.
- Kashgari: el marco NLP multilingüe simple, con Keras, le permite construir sus modelos en 5 minutos para el reconocimiento de entidad nombrado (NER), el etiquetado de la parte del voz (POS) y las tareas de clasificación de texto. Incluye Bert y Word2Vec Incrusting.
- Granja - Aprendizaje de transferencia rápida y fácil para PNL. Cosecha de modelos de idiomas para la industria. Concéntrese en la respuesta a las preguntas.
- Haystack-Marco de pitón de extremo a extremo para construir interfaces de búsqueda de lenguaje natural para los datos. Aprovecha los transformadores y el estado del arte de la PNL. ¡Admite DPR, Elasticsearch, ModelHub de Huggingface y mucho más!
- Rita DSL: un DSL, basado libremente en Ruta en Apache UIMA. Permite definir patrones de lenguaje (PNL basado en reglas) que luego se traducen en Spacy, o si prefiere menos características y patrones ligeros y regexos.
- Transformadores: procesamiento del lenguaje natural para TensorFlow 2.0 y Pytorch.
- Tokenizers - Tokenizers optimizados para la investigación y la producción.
- FAIRSEQ Facebook AI Research Implementaciones de modelos SOTA SEQ2SEQ en Pytorch.
- corex_topic - modelado de temas jerárquicos con conocimiento mínimo de dominio
- SOBKEY - NEURAL MAVAL TRADURA (NMT) Toolkit que impulsa a Amazon traduce.
- DL Traducir: una biblioteca de traducción basada en el aprendizaje profundo para 50 idiomas, basada en transformers y MBART de Facebook.
- Jurado - Evaluación de salidas del modelo PNL que ofrecen varias métricas automatizadas.
- Python-Acto-Tokenizer basado en la expresión regular de Unicode para varios idiomas. Python Binding a la biblioteca C ++, admite el formato de folia.

C ++ - Bibliotecas C ++ | Volver arriba
- INSNET: una biblioteca de redes neuronales para construir modelos PNL dependientes de instancias con lotes dinámicos sin relleno.
- Herramientas de extracción de información del MIT - Herramientas de C, C ++ y Python para el reconocimiento y extracción de relaciones de entidad nombradas
- CRF ++ - Implementación de código abierto de campos aleatorios condicionales (CRF) para segmentar/etiquetar datos secuenciales y otras tareas de procesamiento del lenguaje natural.
- CRFSUITE - CRFSUITE es una implementación de campos aleatorios condicionales (CRF) para etiquetar datos secuenciales.
- PARSER BLLIP - BLLIP PARSER DE LENGUA NATURAL (también conocido como el Parser Charniak -Johnson)
- Colibri-Core: biblioteca C ++, herramientas de línea de comandos y enlace de pitón para extraer y trabajar con construcciones lingüísticas básicas como N-grams y skipgrams de una manera rápida y eficiente en la memoria.
- UCTO-Tokenizer basado en la expresión regular de Unicode para varios idiomas. Herramienta y biblioteca C ++. Apoya el formato de folia.
- Libfolia - Biblioteca C ++ para el formato de folia
- Frog - Suite NLP basada en la memoria desarrollada para holandés: tagger POS, lemmatiser, analizador de dependencia, ner, analizador más bajo, analizador morfológico.
- Meta - Meta: el análisis de texto moderno es un kit de herramientas de ciencias de datos C ++ que facilita la minería de datos de texto grandes.
- Mecab (japonés)
- Moisés
- StarSpace: una biblioteca de Facebook para crear integridades de nivel de palabra, nivel de párrafo, nivel de documento y para la clasificación de texto
Java - Bibliotecas Java NLP | Volver arriba
- Stanford NLP
- OpenNLP
- NLP4J
- Word2Vec en Java
- Reverb a escala web de extracción de información abierta
- OpenRegEx Un lenguaje de expresión regular eficiente y flexible basado en token y motor.
- COGCOMPNLP - Bibliotecas centrales desarrolladas en el grupo de cálculo cognitivo de U de Illinois.
- MALLET - Learning Machine para el kit de herramientas de idiomas - Paquete para el procesamiento estadístico del lenguaje natural, clasificación de documentos, agrupación, modelado de temas, extracción de información y otras aplicaciones de aprendizaje automático para el texto.
- RDRPOSTAGGER - Un sólido kit de herramientas de etiquetado POS disponible (tanto en Java como en Python) junto con modelos previamente capacitados para más de 40 idiomas.
Kotlin - Bibliotecas de Kotlin NLP | Volver arriba
- Lingua Una biblioteca de detección de idiomas para Kotlin y Java, adecuada para texto largo y corto.
- Kotidgy: un generador de datos de texto basado en índice escrito en Kotlin
Scala - Bibliotecas de Scala NLP | Volver arriba
- SAUL - Biblioteca para desarrollar sistemas PNL, incluidos módulos incorporados como SRL, POS, etc.
- ATR4S-Kit de herramientas con métodos de reconocimiento de término automático de última generación.
- TM - Implementación del modelado de temas basado en PLSA multilingüe regularizado.
- Word2Vec -Scala - Interfaz Scala a Word2Vec Model; Incluye operaciones en vectores como la distancia de palabras y la analogía de palabras.
- EPIC - EPIC es un analizador estadístico de alto rendimiento escrito en Scala, junto con un marco para construir modelos de predicción estructurados complejos.
- Spark NLP - Spark NLP es una biblioteca de procesamiento de lenguaje natural construida sobre Apache Spark ML que proporciona anotaciones de PNL simples, performativas y precisas para tuberías de aprendizaje automático que se escalan fácilmente en un entorno distribuido.
Bibliotecas R - R NLP | Volver arriba
- Text2Vec - Vectorización rápida, modelado de temas, distancias e incrustaciones de palabras de guantes en R.
- WordVectores: un paquete R para crear y explorar Word2Vec y otros modelos de incrustación de palabras
- RMALLET - R PAGACE para interactuar con Java Machine Learning Tool Mallet
- BROWSER DFR: crea visualizaciones D3 para navegar modelos de texto de texto en un navegador web.
- DFRTOPICS - PACPACIO R PARA EXPLORAR MODELOS DE TEXO DE TEXTO.
- Sentiment_classifier - Clasificación de sentimientos utilizando la desambiguación de sentido de la palabra y el lector de WordNet
- JPROCESSING - Bibliotecas de procesamiento de lanauge natural japonesa, con clasificación de sentimientos japoneses
- CORPORAEXPLORER: un paquete R para la exploración dinámica de las colecciones de texto
- TidyText - Minería de texto con herramientas ordenadas
- spacyr - r envoltorio a Spacy NLP
- Vista de tareas de CRAN: procesamiento del lenguaje natural
Clojure | Volver arriba
- Clojure -Opennlp - Procesamiento del lenguaje natural en Clojure (OpenNLP)
- Infecciones-CLJ-Biblioteca de inflexión similar a Rails para Clojure y Clojurescript
- Postagga: una biblioteca para analizar el lenguaje natural en Clojure y Clojurescript
Ruby | Volver arriba
- La colección de Kevin Dias es una colección de bibliotecas, herramientas y software de procesamiento de lenguaje natural (PNL)
- Procesamiento práctico del lenguaje natural realizado en Ruby
Óxido | Volver arriba
- Whatlang - Biblioteca de reconocimiento del lenguaje natural basada en trigramas
- Snips-nlu-rs: una biblioteca de producción para analizar intenciones
- Rust-Bert: tuberías de PNL listas para usar y modelos basados en transformadores
NLP ++ - NLP ++ Lenguaje | Volver arriba
- Extensión del lenguaje VSCode - Extensión del lenguaje NLP ++ para VScode
- NLP -Engine - Motor NLP ++ para ejecutar el código NLP ++ en Linux, incluido un analizador inglés completo
- VisualText - Página de inicio para el lenguaje NLP ++
- NLP ++ Wiki - Entrada wiki para el lenguaje NLP ++
Julia | Volver arriba
- CorpusLoaders: una variedad de cargadores para varios corpus de PNL
- Idiomas: un paquete para trabajar con idiomas humanos
- Textanálisis - Paquete Julia para análisis de texto
- Textmodels - Modelos basados en redes neuronales para el procesamiento del lenguaje natural
- WordTokenizers: tokenizadores de alto rendimiento para el procesamiento del lenguaje natural y otras tareas relacionadas
- Word2Vec - Interfaz Julia a Word2Vec

Servicios

PNL como API con funcionalidad de nivel superior, como NER, etiquetado de temas, etc. Volver arriba

WIT -AI - Interfaz del lenguaje natural para aplicaciones y dispositivos
Comprensión del lenguaje natural de IBM Watson - API y Demo de Github
Amazon Comprend - NLP y ML Suite cubren las tareas más comunes como NER, etiquetado y análisis de sentimientos
API del idioma natural de Google Cloud: análisis de sintaxis, NER, análisis de sentimientos y etiquetado de contenido en al menos 9 idiomas incluyen inglés y chino (simplificado y tradicional).
Paraleldots - Servicio de API de análisis de texto de alto nivel que va desde el análisis de sentimientos hasta el análisis de la intención
Servicio cognitivo de Microsoft
Textrazor
Rosetón
Textalytic: procesamiento del lenguaje natural en el navegador con análisis de sentimientos, extracción de entidad nombrada, etiquetado POS, frecuencias de palabras, modelado de temas, nubes de palabras y más
NLP Cloud: modelos Spacy NLP (personalizados y previamente capacitados) servidos a través de una API RESTFUL para el reconocimiento de entidad nombrado (NER), el etiquetado POS y más.
CloudMersive: API de PNL unificadas y gratuitas que realizan acciones como etiquetado del habla, reformulación de texto, traducción/detección del idioma y análisis de oraciones

Herramientas de anotación

GATE - Arquitectura general e ingeniería de texto tiene más de 15 años, gratis y de código abierto
Anafora es una herramienta de anotación de texto sin procesar de código abierto y de código abierto, basada en la web
Brat - Brat Rapid Annotation Tool es un entorno en línea para la anotación de texto colaborativo
Doccano - Doccano es gratuito, de código abierto y proporciona características de anotación para la clasificación de texto, etiquetado de secuencia y secuencia a secuencia
Inception: una plataforma de anotación semántica que ofrece asistencia inteligente y gestión del conocimiento
TagTog, herramienta web de primer equipo para encontrar, crear, mantener y compartir conjuntos de datos: cuesta $
Prodigy es una herramienta de anotación impulsada por el aprendizaje activo, cuesta $
Lighttag: herramienta de anotación de texto alojada y administrada para equipos, cuesta $
RSTWEB - Herramienta local o en línea de código abierto para anotaciones de árboles de discurso
GITDOX: herramienta de anotación de servidor de código abierto con control de versiones de GitHub y validación para datos XML y redes de hojas de cálculo colaborativas
Etiqueta Studio: herramienta de anotación de texto alojada y administrada para equipos, basados en freemium, cuesta $
Los datos admiten varias tareas de PNL para individuos o equipos, basados en freemium
Konfuzio-Herramienta de anotación de texto, imagen y pdf de textos, imagen y pdf de Equipo y PDF impulsada por el aprendizaje activo, basado en freemium, cuesta $
Ubiai: herramienta de anotación de texto fácil de usar para equipos con la mayoría de las características completas de anotación automática. Admite NER, relaciones y clasificación de documentos, así como la anotación de OCR para el etiquetado de facturas, cuesta $
SHOONYA - SHOONYA es una plataforma de anotación de datos de código abierto y gratuita con amplias varidades de organización y sistema de gestión de nivel de espacio de trabajo. Shoonya es datos agnósticos, puede ser utilizado por equipos para anotar datos con varios niveles de etapas de verificación a escala.
Laboratorio de anotación: plataforma gratuita de no código de extremo a extremo para anotación de texto y entrenamiento/ajuste del modelo DL. Soporte listón para el reconocimiento de entidad nombrado, clasificación, extracción de relaciones y estado de afirmación Spark NLP Modelos. Soporte ilimitado para usuarios, equipos, proyectos, documentos. No foss.
Flat-Flat es un entorno de anotación lingüística basado en la web basado en el formato de folia, un rico formato basado en XML para la anotación lingüística. Código libre y abierto.

Técnicas

Embedidos de texto

Incrustaciones de palabras

Regla del pulgar: FastText >> Glove> Word2Vec
Word2Vec - Implementación - Blog de explicador
Glove - Blog explicador
FastText - Implementación - Paper - Blog explicador

Incruscaciones de palabras basadas en el modelo de oración y idioma

Volver arriba

ELMO - Representaciones de palabras contextualizadas profundas - Implementación de Pytorch - Implementación de TF
ULMFIT - Modelo de lenguaje universal ajustado para la clasificación de texto por Jeremy Howard y Sebastian Ruder
Infersent - Aprendizaje supervisado de representaciones de oraciones universales de datos de inferencia de lenguaje natural por Facebook
Cove - Aprendido en la traducción: vectores de palabras contextualizados
Vectores de pargraph: de representaciones distribuidas de oraciones y documentos. Ver Tutorial Doc2Vec en Gensim
Sense2Vec - sobre la palabra de la desambiguación de sentido
Skip Vectores de pensamiento - Método de representación de palabras
Skip -gram adaptativo: enfoque similar, con propiedades adaptativas
Secuencia al aprendizaje de secuencia: vectores de palabras para la traducción automática

Respuesta de preguntas y extracción de conocimiento

Volver arriba

DRQA - Trabajo de respuesta a preguntas de dominio abierto por Facebook Investigación sobre datos de Wikipedia
Document-QA-Comprensión de lectura de varios párrafos simples y efectivos por Allenai
Extracción de información basada en plantillas sin las plantillas
Privee: una arquitectura para analizar automáticamente las políticas de privacidad web

Conjuntos de datos

Volver arriba

NLP-Datasets Gran colección de conjuntos de datos NLP
Data Gensim - Repositorio de datos para modelos PNL previos a los modelos NLP y corpus NLP.

Marcos de PNL multilingües

Volver arriba

UDPIPE es una tubería entrenable para tokenizar, etiquetar, lematizar y analizar los bancos universales y otros archivos de Conll-U. Principalmente escrito en C ++, ofrece una solución rápida y confiable para el procesamiento multilingüe de PNL.
NLP-Cube: tubería de procesamiento del lenguaje natural: división de oraciones, tokenización, lemmatización, etiquetado de parte de voz y análisis de dependencia. Nueva plataforma, escrita en Python con Dynet 2.0. Ofrece la funcionalidad independiente (enlaces CLI/Python) y del servidor (API REST).
UralicNLP es una biblioteca de PNL en su mayoría para muchos idiomas urálicos en peligro de extinción, como idiomas sami, idiomas de Mordvin, idiomas mari, idiomas komi, etc. Además, se apoyan algunos idiomas no enaje, como finlandeses junto con idiomas no áreas, como sueco y árabe. UralicNLP puede hacer análisis morfológico, generación, lemmatización y desambiguación.

PNL en coreano

Volver arriba

Bibliotecas

Konlpy - Paquete Python para procesamiento de lenguaje natural coreano.
Mecab (coreano) - Biblioteca C ++ para la PNL coreana
Koalanlp - Biblioteca Scala para procesamiento de lenguaje natural coreano.
KonLP - PACPACIO R PARA PROCESIMIENTO DE LENGUA NATURAL COREANO

Blogs y tutoriales

Blog de Dsindex
Curso NLP de la Universidad de Kangwon en coreano

Conjuntos de datos

Kaist Corpus: un corpus del Instituto Avanzado de Ciencia y Tecnología de Corea en coreano.
Naver Sentiment Movie Corpus en coreano
Archivo de Chosun Ilbo: conjunto de datos en coreano de uno de los principales periódicos de Corea del Sur, el Chosun Ilbo.
Datos de chat: datos de chatbot en coreano
Peticiones: recopile datos de petición caducados del sitio de Petición Nacional de Blue House.
Conjunto de datos de traducción a máquina neural coreana (NMT) para el conjunto de datos coreano a francés y coreano a inglés
Korquad - conjunto de datos de escuadrón coreano con fuente Wiki HTML. Menciona tanto v1.0 como v2.1 al momento de agregar a la NLP impresionante

PNL en árabe

Volver arriba

Bibliotecas

GOARABIC - GO PAGACIÓN PARA EL PROCESAMIENTO DE TEXTO ARABÍA
JSASTEM - JavaScript for árabe Stemming
Pyarabic - Bibliotecas de Python para árabe
RFTOKenizer - Segmentador de pitón entrenable para árabe, hebreo y copto

Conjuntos de datos

Conjuntos de datos multidominio: los mayores recursos de dominio múltiple disponibles para el análisis de sentimientos en árabe
LABR - Gran conjunto de datos de revisiones de libros árabes
Palabras de parada árabe: una lista de palabras de parada árabe de varios recursos

PNL en chino

Volver arriba

Bibliotecas

Jieba - Python Packle for Words Segmentation Utities en chino
SnownLP - Paquete Python para PNL chino
Fudannlp - Biblioteca Java para procesamiento de texto chino
HANLP - La biblioteca de NLP multilingüe

Antología

FUNNLP - Colección de herramientas y recursos de PNL principalmente para chinos

PNL en alemán

Alemania-PLA-Lista curada de recursos y herramientas de acceso abierto/de código abierto/estándares desarrollados con un enfoque particular en alemán

PNL en polaco

Polish -NLP: una lista curada de recursos dedicados al procesamiento del lenguaje natural (PNL) en polaco. Modelos, herramientas, conjuntos de datos.

PNL en español

Volver arriba

Bibliotecas

Spanlp - Biblioteca de Python para detectar, censurar y limpiar blasfemias, vulgaridades, palabras de odio, racismo, xenofobia y acoso escrito en textos escritos en español. Contiene datos de 21 países de habla hispana.

Datos

Discursos políticos colombianos
Copenhague Treebank
Corpus español de mil millones de palabras con incrustaciones de Word2Vec
Compilación de corpus no anotados en español

Incrustaciones de palabras y oraciones

Incrustos de palabras en español calculadas con diferentes métodos y de diferentes cuerpos
Incrustos de palabras en español calculadas a partir de grandes corpus y diferentes tamaños utilizando FastText
Incrustos de oración español calculadas a grandes corpus utilizando SET2VEC
Bano - bert para español

PNL en idiomas indic

Volver arriba

Datos, corpus y bancos de árboles

Hindi Dependency TreeBank: unas de árbol de múltiples capas múltiples para hindi y urdu
Dependencias universales Treebank en hindi
- Dependencias universales paralelas Banco TreeBank en hindi: una parte más pequeña del banco de árboles mencionado anteriormente.
ISI Fire Stopwords List (Hindi y Bangla)
Lista de palabras de parada de Peter Graham
NLTK Corpus 60k palabras poscadas, bangla, hindi, marathi, telugu
Hindi Movie Reviews DataSet ~ 1k muestras, 3 clases de polaridad
BBC News Hindi DataSet 4.3k muestras, 14 clases
IIT Patna Hindi Absa DataSet 5.4k muestras, 12 dominios, términos de aspecto 4K, aspecto y polaridad a nivel de oración en 4 clases
Bangla Absa 5.5k muestras, 2 dominios, 10 términos de aspecto
IIT Patna Review Sentiment DataSet 2k muestras, 3 etiquetas de polaridad

Corporos/conjuntos de datos que necesitan un inicio de sesión/acceso se pueden obtener por correo electrónico

Sail 2015 Twitter y Facebook etiquetaron muestras de sentimientos en hindi, bengalí, tamil, telugu.
IIT Bombay NLP Resources Sentiwordnet, películas y turismo en paralelo etiquetados con pueblos, etiquetado con el cuerpo anotado de la polaridad, el corpus marathi polatidad etiquetado.
TDIL-IC agrega muchos recursos útiles y proporciona acceso a conjuntos de datos cerrados

Modelos de idiomas e incrustaciones de palabras

Hindi2Vec y NLP-for-hindi Ulmfit Style Languge Model
IIT Patna Bilingüe Word Incremedds Hi-en
FastText Word Increddings en un montón de idiomas, entrenados en un rastreo común
Hindi y bengalí Word2vec
Modelo hindi y urdu elmo
El sánscrito Albert entrenó en sánscrito Wikipedia y Oscar Corpus

Bibliotecas y herramientas

Analizador morfológico de múltiples tareas profundas analizadores morfológicos basados en redes profundas para hindi y urdu
Anoop Kunchukuttan 18 idiomas, una gran cantidad de características desde la tokenización hasta la traducción
El analizador de dependencia de la dependencia de Sivareddy y el etiqueta POS para Kannada, Hindi y Telugu. Puerto python3
INLTK: un conjunto de herramientas de idioma natural para idiomas indic (idiomas subcontinentes indios) construido sobre Pytorch/Fastai, cuyo objetivo es proporcionar soporte fuera de la caja para tareas comunes de la PNL.

PNL en tailandés

Volver arriba

Bibliotecas

Pythainlp - Thai NLP en el paquete Python
JTCC - Una biblioteca de clúster de personajes en Java
Cutkum - Segmentación de palabras con aprendizaje profundo en TensorFlow
Thai Language Toolkit: basado en un artículo de Wirote Aroonmanakun en 2002 con conjunto de datos incluido
Synthai - Segmentación de palabras y etiquetado POS usando el aprendizaje profundo en Python

Datos

Inter -Best: un corpus de texto con 5 millones de palabras con segmentación de palabras
Primer Ministro 29 - conjunto de datos que contiene discursos del actual primer ministro de Tailandia

PNL en danés

Reconocimiento de entidad nombrado para danés
DANLP - Recursos de PNL en danés
Awesome Danish: una lista curada de recursos increíbles para la tecnología del idioma danés

PNL en vietnamita

Bibliotecas

Abastecimiento de la base - kit de herramientas de PNL vietnamita
Vn.vitk - un conjunto de herramientas de procesamiento de texto vietnamita
VNCORENLP - Un kit de herramientas de procesamiento de lenguaje natural vietnamita
Phobert - Modelos de lenguaje previamente capacitados para vietnamitas
Pyvi - Python Vietname Core NLP Toolkit

Datos

Trebank vietnamita - 10,000 oraciones para la tarea de análisis de la circunscripción
Bktreebank - Unbank de dependencia vietnamita
UD_VIETNAMITE - Banco de árbol de dependencia universal vietnamita
VIVOS - Un corpus de discurso vietnamita libre que consta de 15 horas de discurso de grabación de Ailab
Vntqcorpus (Big) .txt - 1.75 millones de oraciones en noticias
VITEXT2SQL-Un conjunto de datos para análisis semántico de texto a SQL vietnamita (hallazgos EMNLP-2020)
EVB Corpus-20,000,000 palabras (20 millones) de 15 libros bilingües, 100 textos paralelos ingleses-vietnamitas / vietnamitas-inglés, 250 textos paralelos de leyes y ordenanzas, 5,000 artículos de noticias y 2,000 subtítulos de películas.

PNL para holandés

Volver arriba

Python -Frog - Python vinculante a la rana, una suite NLP para holandesa. (Etiquetado POS, lemmatización, análisis de dependencia, ner)
Simplenlg_nl - Surface realiser holandés utilizado para la generación de idiomas naturales en holandés, basada en la implementación de simplimbre para inglés y francés.
Alpino: analizador de dependencia para holandés (también realiza etiquetado con POS y lematización).
Kaldi NL - Modelos de reconocimiento de voz holandés basados en Kaldi.
Spacy - Modelo holandés disponible. - PNLP de fuerza industrial con Python y Cython.

PNL en indonesio

Conjuntos de datos

Colecciones de kompas y tempo en ILPS
PANL10N para etiquetado POS: 39k oraciones y 900k fichas de palabras
Idn para etiquetado POS: este corpus contiene 10k oraciones y 250k fichas de palabras
Trebank indonesio y dependencias universales-indonesianas
IndoSum para resumen de texto y clasificación tanto
WordNet -Bahasa - Diccionario semántico grande, gratuito
Indonlu indonlu incluye el modelo de lenguaje previamente capacitado (Indobert), el modelo FastText, el corpus indotO4B y varios conjuntos de datos de referencia de la NLU

Bibliotecas e incrustación

Kit de herramientas de lenguaje natural bahasa
Incrustación de palabras indonesias
Texto de FastText indonesio previamente indonesio Entrenado en Wikipedia
Indonlu de Indobenchmark incluye el modelo de lenguaje previo a la aparición (Indobert), el modelo FastText, el Corpus Indo4B y varios conjuntos de datos de Benchmark NLU

PNL en urdu

Conjuntos de datos

Colección de conjuntos de datos urdu para tareas POS, NER y PNL

Bibliotecas

Biblioteca de procesamiento de lenguaje natural para (??) Idioma urdu

PNL en persa

Volver arriba

Bibliotecas

Hazm - Kit de herramientas Persian NLP.
Parsivar: un conjunto de herramientas de procesamiento del lenguaje para persa
Perke: Perke es un paquete de extracción de frase de claves de Python para el idioma persa. Proporciona una tubería de extracción de frase de claves de extremo a extremo en la que cada componente puede modificarse o extenderse fácilmente para desarrollar nuevos modelos.
Perstem: persa Stemmer, analizador morfológico, transliterador y etiqueta parcial de parte del voz
Parsianalyzer: analizador persa para elasticsearch
Virastar: ¡Limpiar el texto persa!

Conjuntos de datos

Bijankhan Corpus: Bijankhan Corpus es un corpus etiquetado que es adecuado para la investigación del procesamiento del lenguaje natural sobre el lenguaje persa (farsi). Esta colección se recopila en forma de noticias diarias y textos comunes. En esta colección, todos los documentos se clasifican en diferentes temas, como político, cultural, etc. Totalmente, hay 4300 temas diferentes. La colección Bijankhan contiene aproximadamente 2.6 millones etiquetadas manualmente con un conjunto de etiquetas que contiene 40 etiquetas POS persa.
Uppsala Corpus persa (UPC): Uppsala Persian Corpus (UPC) es un corpus persa grande y disponible libremente. El corpus es una versión modificada del Corpus de Bijankhan con segmentación de oraciones adicional y tokenización consistente que contiene 2,704,028 tokens y anotada con 31 etiquetas de parte de voz. Las etiquetas de parte del discurso se enumeran con explicaciones en esta tabla.
Persa coloquial a gran escala: el conjunto de datos persa coloquiales a gran escala (LSCP) se organiza jerárquicamente en taxonomía asemántica que se centra en la comprensión informal de la lengua persa informal como un problema integral. LSCP includes 120M sentences from 27M casual Persian tweets with its dependency relations in syntactic annotation, Part-of-speech tags, sentiment polarity and automatic translation of original Persian sentences in English (EN), German (DE), Czech (CS), Italian (IT) and Hindi (HI) spoken languages. Learn more about this project at LSCP webpage.
ArmanPersoNERCorpus: The dataset includes 250,015 tokens and 7,682 Persian sentences in total. It is available in 3 folds to be used in turn as training and test sets. Each file contains one token, along with its manually annotated named-entity tag, per line. Each sentence is separated with a newline. The NER tags are in IOB format.
FarsiYar PersianNER: The dataset includes about 25,000,000 tokens and about 1,000,000 Persian sentences in total based on Persian Wikipedia Corpus. The NER tags are in IOB format. More than 1000 volunteers contributed tag improvements to this dataset via web panel or android app. They release updated tags every two weeks.
PERLEX: The first Persian dataset for relation extraction, which is an expert translated version of the “Semeval-2010-Task-8” dataset. Link to the relevant publication.
Persian Syntactic Dependency Treebank: This treebank is supplied for free noncommercial use. For commercial uses feel free to contact us. The number of annotated sentences is 29,982 sentences including samples from almost all verbs of the Persian valency lexicon.
Uppsala Persian Dependency Treebank (UPDT): Dependency-based syntactically annotated corpus.
Hamshahri: Hamshahri collection is a standard reliable Persian text collection that was used at Cross Language Evaluation Forum (CLEF) during years 2008 and 2009 for evaluation of Persian information retrieval systems.

NLP in Ukrainian

Volver arriba

awesome-ukrainian-nlp - a curated list of Ukrainian NLP datasets, models, etc.
UkrainianLT - another curated list with a focus on machine translation and speech processing

NLP in Hungarian

Volver arriba

awesome-hungarian-nlp: A curated list of free resources dedicated to Hungarian Natural Language Processing.

NLP in Portuguese

Volver arriba

Portuguese-nlp - a List of resources and tools developed with focus on Portuguese.

Other Languages

Russian: pymorphy2 - a good pos-tagger for Russian
Asian Languages: Thai, Lao, Chinese, Japanese, and Korean ICU Tokenizer implementation in ElasticSearch
Ancient Languages: CLTK: The Classical Language Toolkit is a Python library and collection of texts for doing NLP in ancient languages
Hebrew: NLPH_Resources - A collection of papers, corpora and linguistic resources for NLP in Hebrew

Volver arriba

Credits for initial curators and sources