Awesome-NLP
Una lista curada de recursos dedicados al procesamiento del lenguaje natural

Lea esto en inglés, chino tradicional
Lea las pautas de contribución antes de contribuir. Agregue su recurso NLP favorito planteando una solicitud de extracción
Contenido
- Resúmenes y tendencias de investigación
- Laboratorios prominentes de investigación de la PNL
- Tutoriales
- Contenido de lectura
- Videos y cursos
- Libros
- Bibliotecas
- Nodo.js
- Pitón
- C ++
- Java
- Kotlín
- Escala
- Riñonal
- Clojure
- Rubí
- Óxido
- NLP ++
- Julia
- Servicios
- Herramientas de anotación
- Conjuntos de datos
- PNL en coreano
- PNL en árabe
- PNL en chino
- PNL en alemán
- PNL en polaco
- PNL en español
- PNL en idiomas indic
- PNL en tailandés
- PNL en danés
- PNL en vietnamita
- PNL para holandés
- PNL en indonesio
- PNL en urdu
- PNL en persa
- PNL en ucraniano
- PNL en húngaro
- PNL en portugués
- Otros idiomas
- Créditos
Resúmenes y tendencias de investigación
- NLP-Overview es una visión general actualizada de las técnicas de aprendizaje profundo aplicados a la PNL, incluidas la teoría, las implementaciones, las aplicaciones y los resultados de vanguardia. Esta es una gran introducción profunda de la PNL para los investigadores.
- NLP-Progress rastrea el progreso en el procesamiento del lenguaje natural, incluidos los conjuntos de datos y el estado actual de las tareas más comunes de la PNL
- Ha llegado el momento de Imagenet de la PNL
- Lo más destacado de ACL 2018: Comprender la representación y la evaluación en entornos más desafiantes
- Cuatro tendencias de aprendizaje profundo de ACL 2017. Parte uno: estructura lingüística e incrustaciones de palabras
- Cuatro tendencias de aprendizaje profundo de ACL 2017. Parte dos: interpretabilidad y atención
- Lo más destacado de EMNLP 2017: ¡conjuntos de datos emocionantes, devolución de los clústeres y más!
- Aprendizaje profundo para el procesamiento del lenguaje natural (PNL): avances y tendencias
- Encuesta del estado del arte en generación de idiomas naturales
Laboratorios prominentes de investigación de la PNL
Volver arriba
- El Grupo NLP Berkeley: las contribuciones notables incluyen una herramienta para reconstruir idiomas muertos largos, a los que se hace referencia aquí y tomando corpus de 637 idiomas actualmente hablados en Asia y el Pacífico y recreando a su descendiente.
- Instituto de tecnologías de idiomas, Universidad Carnegie Mellon: los proyectos notables incluyen Avenue Project, un sistema de traducción automática impulsado por la sintaxis para idiomas en peligro de extinción como Quechua y Aymara y anteriormente, Noah's Ark, que creó AQMAR para mejorar las herramientas PNL para el árabe.
- NLP Research Group, Universidad de Columbia: responsable de crear Bolt (manejo de errores interactivos para sistemas de traducción del habla) y un proyecto sin nombre para caracterizar la risa en el diálogo.
- El Centro o Procesamiento de lenguaje y habla, Universidad John Hopkins: recientemente en las noticias para desarrollar un software de reconocimiento de voz para crear una prueba de diagnóstico o la enfermedad de Parkinson, aquí.
- Grupo de Lingüística Computacional y Procesamiento de Información, Universidad de Maryland: las contribuciones notables incluyen la cooperación humana-computadora o el desarrollo de preguntas y modelado de representaciones fonéticas de las representaciones fonéticas.
- Penn Natural Language Processing, Universidad de Pennsylvania- Famosa por crear el Penn Treebank.
- El Grupo de Procesamiento de Lenguas Nautral de Stanford: uno de los principales laboratorios de investigación de PNL en el mundo, notable por crear Stanford Corenlp y su sistema de resolución de coreferencia
Tutoriales
Volver arriba
Contenido de lectura
Aprendizaje automático general
- Machine Learning 101 del ingeniero creativo senior de Google explica el aprendizaje automático para ingenieros y ejecutivos por igual
- AI Playbook - A16Z AI Playbook es un gran enlace para reenviar a sus gerentes o contenido para sus presentaciones
- Blog de Ruder de Sebastian Ruder para comentarios sobre lo mejor de la investigación de PNL
- Cómo etiquetar la guía de datos para administrar proyectos de anotación lingüística más grandes
- Depende de la colección de definición de publicaciones de blog que cubran una amplia gama de temas de PNL con implementación detallada
Introducciones y guías a PNL
- Comprender e implementar el procesamiento del lenguaje natural
- PNLP en Python - Colección de cuadernos Github
- Procesamiento del lenguaje natural: una introducción - Oxford
- Aprendizaje profundo para PNL con Pytorch
- Tutorial NLTK práctico - Tutoriales NLTK, cuadernos Jupyter
- Procesamiento del lenguaje natural con Python - Análisis de texto con el kit de herramientas de lenguaje natural, un libro en línea e impreso que presenta conceptos de PNL utilizando NLTK. Los autores del libro también escribieron la biblioteca NLTK.
- Entrenar un nuevo modelo de idioma desde cero: ¿abrazando la cara?
- El Super Duper NLP Repo (SDNLPR): colección de cuadernos Colab que cubren una amplia gama de implementaciones de tareas de PNL.
Blogs y boletines
- Aprendizaje profundo, PNL y representaciones
- El ilustrado Bert, Elmo y la co. (Cómo el aprendizaje de transferencia de NLP agrietó) y el transformador ilustrado
- Procesamiento del lenguaje natural por Hal Daumé III
- ARXIV: Procesamiento del lenguaje natural (casi) desde cero
- Karpathy es la efectividad irrazonable de las redes neuronales recurrentes
- Dominio de aprendizaje automático: aprendizaje profundo para el procesamiento del lenguaje natural
- Resúmenes de papel de PNL visual
Videos y cursos en línea
Volver arriba
- Procesamiento avanzado del lenguaje natural - CS 685, UMass Amherst CS
- Procesamiento de lenguaje natural profundo - Serie de conferencias de Oxford
- Aprendizaje profundo para el procesamiento del lenguaje natural (CS224 -N) - Curso de Stanford de Richard Scher y Christopher Manning
- Redes neuronales para PNL - Instituto de Tecnología Language Carnegie Mellon allí
- Curso de PNL profundo de Yandex Data School, que cubre ideas importantes desde la incrustación de texto hasta la traducción automática, incluyendo modelado de secuencia, modelos de idiomas, etc.
- Fast.AI Code -First Intro al procesamiento del lenguaje natural: esto cubre una combinación de temas tradicionales de la PNL (incluidos Regex, SVD, Naive Bayes, Tokenización) y enfoques de red neuronales recientes (incluidas RNN, SEQ2SEQ, Grus y el Transformador), así como para abordar cuestiones éticas urgentes, como el bias y la desinformación. Encuentra los cuadernos Jupyter aquí
- Machine Learning University - Procesamiento acelerado del lenguaje natural: las conferencias van desde la introducción al PNL y el procesamiento de texto a las redes neuronales y transformadores recurrentes. El material se puede encontrar aquí.
- Serie de conferencias de procesamiento del lenguaje natural aplicado de IIT Madras tomando desde lo básico hasta Autoencoders y todo. Los cuadernos de Github para este curso también están disponibles aquí.
Libros
- Procesamiento del habla y el lenguaje - gratis, por el profesor Dan Jurafsy
- Procesamiento del lenguaje natural - Notas gratuitas de la PNL por el Dr. Jacob Eisenstein en Georgiatech
- PNLP con Pytorch - Brian y Delip Rao
- Minería de texto en r
- Procesamiento del lenguaje natural con Python
- Procesamiento práctico del lenguaje natural
- Procesamiento del lenguaje natural con Spark NLP
- Aprendizaje profundo para el procesamiento del lenguaje natural por Stephan Raaijmakers
- Procesamiento del lenguaje natural del mundo real - por Masato Hagiwara
- Procesamiento del lenguaje natural en acción, segunda edición - por Hobson Lane y Maria Dyshel
Bibliotecas
Volver arriba
C ++ - Bibliotecas C ++ | Volver arriba
- INSNET: una biblioteca de redes neuronales para construir modelos PNL dependientes de instancias con lotes dinámicos sin relleno.
- Herramientas de extracción de información del MIT - Herramientas de C, C ++ y Python para el reconocimiento y extracción de relaciones de entidad nombradas
- CRF ++ - Implementación de código abierto de campos aleatorios condicionales (CRF) para segmentar/etiquetar datos secuenciales y otras tareas de procesamiento del lenguaje natural.
- CRFSUITE - CRFSUITE es una implementación de campos aleatorios condicionales (CRF) para etiquetar datos secuenciales.
- PARSER BLLIP - BLLIP PARSER DE LENGUA NATURAL (también conocido como el Parser Charniak -Johnson)
- Colibri-Core: biblioteca C ++, herramientas de línea de comandos y enlace de pitón para extraer y trabajar con construcciones lingüísticas básicas como N-grams y skipgrams de una manera rápida y eficiente en la memoria.
- UCTO-Tokenizer basado en la expresión regular de Unicode para varios idiomas. Herramienta y biblioteca C ++. Apoya el formato de folia.
- Libfolia - Biblioteca C ++ para el formato de folia
- Frog - Suite NLP basada en la memoria desarrollada para holandés: tagger POS, lemmatiser, analizador de dependencia, ner, analizador más bajo, analizador morfológico.
- Meta - Meta: el análisis de texto moderno es un kit de herramientas de ciencias de datos C ++ que facilita la minería de datos de texto grandes.
- Mecab (japonés)
- Moisés
- StarSpace: una biblioteca de Facebook para crear integridades de nivel de palabra, nivel de párrafo, nivel de documento y para la clasificación de texto
Java - Bibliotecas Java NLP | Volver arriba
- Stanford NLP
- OpenNLP
- NLP4J
- Word2Vec en Java
- Reverb a escala web de extracción de información abierta
- OpenRegEx Un lenguaje de expresión regular eficiente y flexible basado en token y motor.
- COGCOMPNLP - Bibliotecas centrales desarrolladas en el grupo de cálculo cognitivo de U de Illinois.
- MALLET - Learning Machine para el kit de herramientas de idiomas - Paquete para el procesamiento estadístico del lenguaje natural, clasificación de documentos, agrupación, modelado de temas, extracción de información y otras aplicaciones de aprendizaje automático para el texto.
- RDRPOSTAGGER - Un sólido kit de herramientas de etiquetado POS disponible (tanto en Java como en Python) junto con modelos previamente capacitados para más de 40 idiomas.
Kotlin - Bibliotecas de Kotlin NLP | Volver arriba
- Lingua Una biblioteca de detección de idiomas para Kotlin y Java, adecuada para texto largo y corto.
- Kotidgy: un generador de datos de texto basado en índice escrito en Kotlin
Scala - Bibliotecas de Scala NLP | Volver arriba
- SAUL - Biblioteca para desarrollar sistemas PNL, incluidos módulos incorporados como SRL, POS, etc.
- ATR4S-Kit de herramientas con métodos de reconocimiento de término automático de última generación.
- TM - Implementación del modelado de temas basado en PLSA multilingüe regularizado.
- Word2Vec -Scala - Interfaz Scala a Word2Vec Model; Incluye operaciones en vectores como la distancia de palabras y la analogía de palabras.
- EPIC - EPIC es un analizador estadístico de alto rendimiento escrito en Scala, junto con un marco para construir modelos de predicción estructurados complejos.
- Spark NLP - Spark NLP es una biblioteca de procesamiento de lenguaje natural construida sobre Apache Spark ML que proporciona anotaciones de PNL simples, performativas y precisas para tuberías de aprendizaje automático que se escalan fácilmente en un entorno distribuido.
Bibliotecas R - R NLP | Volver arriba
- Text2Vec - Vectorización rápida, modelado de temas, distancias e incrustaciones de palabras de guantes en R.
- WordVectores: un paquete R para crear y explorar Word2Vec y otros modelos de incrustación de palabras
- RMALLET - R PAGACE para interactuar con Java Machine Learning Tool Mallet
- BROWSER DFR: crea visualizaciones D3 para navegar modelos de texto de texto en un navegador web.
- DFRTOPICS - PACPACIO R PARA EXPLORAR MODELOS DE TEXO DE TEXTO.
- Sentiment_classifier - Clasificación de sentimientos utilizando la desambiguación de sentido de la palabra y el lector de WordNet
- JPROCESSING - Bibliotecas de procesamiento de lanauge natural japonesa, con clasificación de sentimientos japoneses
- CORPORAEXPLORER: un paquete R para la exploración dinámica de las colecciones de texto
- TidyText - Minería de texto con herramientas ordenadas
- spacyr - r envoltorio a Spacy NLP
- Vista de tareas de CRAN: procesamiento del lenguaje natural
Clojure | Volver arriba
- Clojure -Opennlp - Procesamiento del lenguaje natural en Clojure (OpenNLP)
- Infecciones-CLJ-Biblioteca de inflexión similar a Rails para Clojure y Clojurescript
- Postagga: una biblioteca para analizar el lenguaje natural en Clojure y Clojurescript
Ruby | Volver arriba
- La colección de Kevin Dias es una colección de bibliotecas, herramientas y software de procesamiento de lenguaje natural (PNL)
- Procesamiento práctico del lenguaje natural realizado en Ruby
Óxido | Volver arriba
- Whatlang - Biblioteca de reconocimiento del lenguaje natural basada en trigramas
- Snips-nlu-rs: una biblioteca de producción para analizar intenciones
- Rust-Bert: tuberías de PNL listas para usar y modelos basados en transformadores
NLP ++ - NLP ++ Lenguaje | Volver arriba
- Extensión del lenguaje VSCode - Extensión del lenguaje NLP ++ para VScode
- NLP -Engine - Motor NLP ++ para ejecutar el código NLP ++ en Linux, incluido un analizador inglés completo
- VisualText - Página de inicio para el lenguaje NLP ++
- NLP ++ Wiki - Entrada wiki para el lenguaje NLP ++
Julia | Volver arriba
- CorpusLoaders: una variedad de cargadores para varios corpus de PNL
- Idiomas: un paquete para trabajar con idiomas humanos
- Textanálisis - Paquete Julia para análisis de texto
- Textmodels - Modelos basados en redes neuronales para el procesamiento del lenguaje natural
- WordTokenizers: tokenizadores de alto rendimiento para el procesamiento del lenguaje natural y otras tareas relacionadas
- Word2Vec - Interfaz Julia a Word2Vec
Servicios
PNL como API con funcionalidad de nivel superior, como NER, etiquetado de temas, etc. Volver arriba
- WIT -AI - Interfaz del lenguaje natural para aplicaciones y dispositivos
- Comprensión del lenguaje natural de IBM Watson - API y Demo de Github
- Amazon Comprend - NLP y ML Suite cubren las tareas más comunes como NER, etiquetado y análisis de sentimientos
- API del idioma natural de Google Cloud: análisis de sintaxis, NER, análisis de sentimientos y etiquetado de contenido en al menos 9 idiomas incluyen inglés y chino (simplificado y tradicional).
- Paraleldots - Servicio de API de análisis de texto de alto nivel que va desde el análisis de sentimientos hasta el análisis de la intención
- Servicio cognitivo de Microsoft
- Textrazor
- Rosetón
- Textalytic: procesamiento del lenguaje natural en el navegador con análisis de sentimientos, extracción de entidad nombrada, etiquetado POS, frecuencias de palabras, modelado de temas, nubes de palabras y más
- NLP Cloud: modelos Spacy NLP (personalizados y previamente capacitados) servidos a través de una API RESTFUL para el reconocimiento de entidad nombrado (NER), el etiquetado POS y más.
- CloudMersive: API de PNL unificadas y gratuitas que realizan acciones como etiquetado del habla, reformulación de texto, traducción/detección del idioma y análisis de oraciones
Herramientas de anotación
- GATE - Arquitectura general e ingeniería de texto tiene más de 15 años, gratis y de código abierto
- Anafora es una herramienta de anotación de texto sin procesar de código abierto y de código abierto, basada en la web
- Brat - Brat Rapid Annotation Tool es un entorno en línea para la anotación de texto colaborativo
- Doccano - Doccano es gratuito, de código abierto y proporciona características de anotación para la clasificación de texto, etiquetado de secuencia y secuencia a secuencia
- Inception: una plataforma de anotación semántica que ofrece asistencia inteligente y gestión del conocimiento
- TagTog, herramienta web de primer equipo para encontrar, crear, mantener y compartir conjuntos de datos: cuesta $
- Prodigy es una herramienta de anotación impulsada por el aprendizaje activo, cuesta $
- Lighttag: herramienta de anotación de texto alojada y administrada para equipos, cuesta $
- RSTWEB - Herramienta local o en línea de código abierto para anotaciones de árboles de discurso
- GITDOX: herramienta de anotación de servidor de código abierto con control de versiones de GitHub y validación para datos XML y redes de hojas de cálculo colaborativas
- Etiqueta Studio: herramienta de anotación de texto alojada y administrada para equipos, basados en freemium, cuesta $
- Los datos admiten varias tareas de PNL para individuos o equipos, basados en freemium
- Konfuzio-Herramienta de anotación de texto, imagen y pdf de textos, imagen y pdf de Equipo y PDF impulsada por el aprendizaje activo, basado en freemium, cuesta $
- Ubiai: herramienta de anotación de texto fácil de usar para equipos con la mayoría de las características completas de anotación automática. Admite NER, relaciones y clasificación de documentos, así como la anotación de OCR para el etiquetado de facturas, cuesta $
- SHOONYA - SHOONYA es una plataforma de anotación de datos de código abierto y gratuita con amplias varidades de organización y sistema de gestión de nivel de espacio de trabajo. Shoonya es datos agnósticos, puede ser utilizado por equipos para anotar datos con varios niveles de etapas de verificación a escala.
- Laboratorio de anotación: plataforma gratuita de no código de extremo a extremo para anotación de texto y entrenamiento/ajuste del modelo DL. Soporte listón para el reconocimiento de entidad nombrado, clasificación, extracción de relaciones y estado de afirmación Spark NLP Modelos. Soporte ilimitado para usuarios, equipos, proyectos, documentos. No foss.
- Flat-Flat es un entorno de anotación lingüística basado en la web basado en el formato de folia, un rico formato basado en XML para la anotación lingüística. Código libre y abierto.
Técnicas
Embedidos de texto
Incrustaciones de palabras
Regla del pulgar: FastText >> Glove> Word2Vec
Word2Vec - Implementación - Blog de explicador
Glove - Blog explicador
FastText - Implementación - Paper - Blog explicador
Incruscaciones de palabras basadas en el modelo de oración y idioma
Volver arriba
- ELMO - Representaciones de palabras contextualizadas profundas - Implementación de Pytorch - Implementación de TF
- ULMFIT - Modelo de lenguaje universal ajustado para la clasificación de texto por Jeremy Howard y Sebastian Ruder
- Infersent - Aprendizaje supervisado de representaciones de oraciones universales de datos de inferencia de lenguaje natural por Facebook
- Cove - Aprendido en la traducción: vectores de palabras contextualizados
- Vectores de pargraph: de representaciones distribuidas de oraciones y documentos. Ver Tutorial Doc2Vec en Gensim
- Sense2Vec - sobre la palabra de la desambiguación de sentido
- Skip Vectores de pensamiento - Método de representación de palabras
- Skip -gram adaptativo: enfoque similar, con propiedades adaptativas
- Secuencia al aprendizaje de secuencia: vectores de palabras para la traducción automática
Respuesta de preguntas y extracción de conocimiento
Volver arriba
- DRQA - Trabajo de respuesta a preguntas de dominio abierto por Facebook Investigación sobre datos de Wikipedia
- Document-QA-Comprensión de lectura de varios párrafos simples y efectivos por Allenai
- Extracción de información basada en plantillas sin las plantillas
- Privee: una arquitectura para analizar automáticamente las políticas de privacidad web
Conjuntos de datos
Volver arriba
- NLP-Datasets Gran colección de conjuntos de datos NLP
- Data Gensim - Repositorio de datos para modelos PNL previos a los modelos NLP y corpus NLP.
Marcos de PNL multilingües
Volver arriba
- UDPIPE es una tubería entrenable para tokenizar, etiquetar, lematizar y analizar los bancos universales y otros archivos de Conll-U. Principalmente escrito en C ++, ofrece una solución rápida y confiable para el procesamiento multilingüe de PNL.
- NLP-Cube: tubería de procesamiento del lenguaje natural: división de oraciones, tokenización, lemmatización, etiquetado de parte de voz y análisis de dependencia. Nueva plataforma, escrita en Python con Dynet 2.0. Ofrece la funcionalidad independiente (enlaces CLI/Python) y del servidor (API REST).
- UralicNLP es una biblioteca de PNL en su mayoría para muchos idiomas urálicos en peligro de extinción, como idiomas sami, idiomas de Mordvin, idiomas mari, idiomas komi, etc. Además, se apoyan algunos idiomas no enaje, como finlandeses junto con idiomas no áreas, como sueco y árabe. UralicNLP puede hacer análisis morfológico, generación, lemmatización y desambiguación.
PNL en coreano
Volver arriba
Bibliotecas
- Konlpy - Paquete Python para procesamiento de lenguaje natural coreano.
- Mecab (coreano) - Biblioteca C ++ para la PNL coreana
- Koalanlp - Biblioteca Scala para procesamiento de lenguaje natural coreano.
- KonLP - PACPACIO R PARA PROCESIMIENTO DE LENGUA NATURAL COREANO
Blogs y tutoriales
- Blog de Dsindex
- Curso NLP de la Universidad de Kangwon en coreano
Conjuntos de datos
- Kaist Corpus: un corpus del Instituto Avanzado de Ciencia y Tecnología de Corea en coreano.
- Naver Sentiment Movie Corpus en coreano
- Archivo de Chosun Ilbo: conjunto de datos en coreano de uno de los principales periódicos de Corea del Sur, el Chosun Ilbo.
- Datos de chat: datos de chatbot en coreano
- Peticiones: recopile datos de petición caducados del sitio de Petición Nacional de Blue House.
- Conjunto de datos de traducción a máquina neural coreana (NMT) para el conjunto de datos coreano a francés y coreano a inglés
- Korquad - conjunto de datos de escuadrón coreano con fuente Wiki HTML. Menciona tanto v1.0 como v2.1 al momento de agregar a la NLP impresionante
PNL en árabe
Volver arriba
Bibliotecas
- GOARABIC - GO PAGACIÓN PARA EL PROCESAMIENTO DE TEXTO ARABÍA
- JSASTEM - JavaScript for árabe Stemming
- Pyarabic - Bibliotecas de Python para árabe
- RFTOKenizer - Segmentador de pitón entrenable para árabe, hebreo y copto
Conjuntos de datos
- Conjuntos de datos multidominio: los mayores recursos de dominio múltiple disponibles para el análisis de sentimientos en árabe
- LABR - Gran conjunto de datos de revisiones de libros árabes
- Palabras de parada árabe: una lista de palabras de parada árabe de varios recursos
PNL en chino
Volver arriba
Bibliotecas
- Jieba - Python Packle for Words Segmentation Utities en chino
- SnownLP - Paquete Python para PNL chino
- Fudannlp - Biblioteca Java para procesamiento de texto chino
- HANLP - La biblioteca de NLP multilingüe
Antología
- FUNNLP - Colección de herramientas y recursos de PNL principalmente para chinos
PNL en alemán
- Alemania-PLA-Lista curada de recursos y herramientas de acceso abierto/de código abierto/estándares desarrollados con un enfoque particular en alemán
PNL en polaco
- Polish -NLP: una lista curada de recursos dedicados al procesamiento del lenguaje natural (PNL) en polaco. Modelos, herramientas, conjuntos de datos.
PNL en español
Volver arriba
Bibliotecas
- Spanlp - Biblioteca de Python para detectar, censurar y limpiar blasfemias, vulgaridades, palabras de odio, racismo, xenofobia y acoso escrito en textos escritos en español. Contiene datos de 21 países de habla hispana.
Datos
- Discursos políticos colombianos
- Copenhague Treebank
- Corpus español de mil millones de palabras con incrustaciones de Word2Vec
- Compilación de corpus no anotados en español
Incrustaciones de palabras y oraciones
- Incrustos de palabras en español calculadas con diferentes métodos y de diferentes cuerpos
- Incrustos de palabras en español calculadas a partir de grandes corpus y diferentes tamaños utilizando FastText
- Incrustos de oración español calculadas a grandes corpus utilizando SET2VEC
- Bano - bert para español
PNL en idiomas indic
Volver arriba
Datos, corpus y bancos de árboles
- Hindi Dependency TreeBank: unas de árbol de múltiples capas múltiples para hindi y urdu
- Dependencias universales Treebank en hindi
- Dependencias universales paralelas Banco TreeBank en hindi: una parte más pequeña del banco de árboles mencionado anteriormente.
- ISI Fire Stopwords List (Hindi y Bangla)
- Lista de palabras de parada de Peter Graham
- NLTK Corpus 60k palabras poscadas, bangla, hindi, marathi, telugu
- Hindi Movie Reviews DataSet ~ 1k muestras, 3 clases de polaridad
- BBC News Hindi DataSet 4.3k muestras, 14 clases
- IIT Patna Hindi Absa DataSet 5.4k muestras, 12 dominios, términos de aspecto 4K, aspecto y polaridad a nivel de oración en 4 clases
- Bangla Absa 5.5k muestras, 2 dominios, 10 términos de aspecto
- IIT Patna Review Sentiment DataSet 2k muestras, 3 etiquetas de polaridad
Corporos/conjuntos de datos que necesitan un inicio de sesión/acceso se pueden obtener por correo electrónico
- Sail 2015 Twitter y Facebook etiquetaron muestras de sentimientos en hindi, bengalí, tamil, telugu.
- IIT Bombay NLP Resources Sentiwordnet, películas y turismo en paralelo etiquetados con pueblos, etiquetado con el cuerpo anotado de la polaridad, el corpus marathi polatidad etiquetado.
- TDIL-IC agrega muchos recursos útiles y proporciona acceso a conjuntos de datos cerrados
Modelos de idiomas e incrustaciones de palabras
- Hindi2Vec y NLP-for-hindi Ulmfit Style Languge Model
- IIT Patna Bilingüe Word Incremedds Hi-en
- FastText Word Increddings en un montón de idiomas, entrenados en un rastreo común
- Hindi y bengalí Word2vec
- Modelo hindi y urdu elmo
- El sánscrito Albert entrenó en sánscrito Wikipedia y Oscar Corpus
Bibliotecas y herramientas
- Analizador morfológico de múltiples tareas profundas analizadores morfológicos basados en redes profundas para hindi y urdu
- Anoop Kunchukuttan 18 idiomas, una gran cantidad de características desde la tokenización hasta la traducción
- El analizador de dependencia de la dependencia de Sivareddy y el etiqueta POS para Kannada, Hindi y Telugu. Puerto python3
- INLTK: un conjunto de herramientas de idioma natural para idiomas indic (idiomas subcontinentes indios) construido sobre Pytorch/Fastai, cuyo objetivo es proporcionar soporte fuera de la caja para tareas comunes de la PNL.
PNL en tailandés
Volver arriba
Bibliotecas
- Pythainlp - Thai NLP en el paquete Python
- JTCC - Una biblioteca de clúster de personajes en Java
- Cutkum - Segmentación de palabras con aprendizaje profundo en TensorFlow
- Thai Language Toolkit: basado en un artículo de Wirote Aroonmanakun en 2002 con conjunto de datos incluido
- Synthai - Segmentación de palabras y etiquetado POS usando el aprendizaje profundo en Python
Datos
- Inter -Best: un corpus de texto con 5 millones de palabras con segmentación de palabras
- Primer Ministro 29 - conjunto de datos que contiene discursos del actual primer ministro de Tailandia
PNL en danés
- Reconocimiento de entidad nombrado para danés
- DANLP - Recursos de PNL en danés
- Awesome Danish: una lista curada de recursos increíbles para la tecnología del idioma danés
PNL en vietnamita
Bibliotecas
- Abastecimiento de la base - kit de herramientas de PNL vietnamita
- Vn.vitk - un conjunto de herramientas de procesamiento de texto vietnamita
- VNCORENLP - Un kit de herramientas de procesamiento de lenguaje natural vietnamita
- Phobert - Modelos de lenguaje previamente capacitados para vietnamitas
- Pyvi - Python Vietname Core NLP Toolkit
Datos
- Trebank vietnamita - 10,000 oraciones para la tarea de análisis de la circunscripción
- Bktreebank - Unbank de dependencia vietnamita
- UD_VIETNAMITE - Banco de árbol de dependencia universal vietnamita
- VIVOS - Un corpus de discurso vietnamita libre que consta de 15 horas de discurso de grabación de Ailab
- Vntqcorpus (Big) .txt - 1.75 millones de oraciones en noticias
- VITEXT2SQL-Un conjunto de datos para análisis semántico de texto a SQL vietnamita (hallazgos EMNLP-2020)
- EVB Corpus-20,000,000 palabras (20 millones) de 15 libros bilingües, 100 textos paralelos ingleses-vietnamitas / vietnamitas-inglés, 250 textos paralelos de leyes y ordenanzas, 5,000 artículos de noticias y 2,000 subtítulos de películas.
PNL para holandés
Volver arriba
- Python -Frog - Python vinculante a la rana, una suite NLP para holandesa. (Etiquetado POS, lemmatización, análisis de dependencia, ner)
- Simplenlg_nl - Surface realiser holandés utilizado para la generación de idiomas naturales en holandés, basada en la implementación de simplimbre para inglés y francés.
- Alpino: analizador de dependencia para holandés (también realiza etiquetado con POS y lematización).
- Kaldi NL - Modelos de reconocimiento de voz holandés basados en Kaldi.
- Spacy - Modelo holandés disponible. - PNLP de fuerza industrial con Python y Cython.
PNL en indonesio
Conjuntos de datos
- Colecciones de kompas y tempo en ILPS
- PANL10N para etiquetado POS: 39k oraciones y 900k fichas de palabras
- Idn para etiquetado POS: este corpus contiene 10k oraciones y 250k fichas de palabras
- Trebank indonesio y dependencias universales-indonesianas
- IndoSum para resumen de texto y clasificación tanto
- WordNet -Bahasa - Diccionario semántico grande, gratuito
- Indonlu indonlu incluye el modelo de lenguaje previamente capacitado (Indobert), el modelo FastText, el corpus indotO4B y varios conjuntos de datos de referencia de la NLU
Bibliotecas e incrustación
- Kit de herramientas de lenguaje natural bahasa
- Incrustación de palabras indonesias
- Texto de FastText indonesio previamente indonesio Entrenado en Wikipedia
- Indonlu de Indobenchmark incluye el modelo de lenguaje previo a la aparición (Indobert), el modelo FastText, el Corpus Indo4B y varios conjuntos de datos de Benchmark NLU
PNL en urdu
Conjuntos de datos
- Colección de conjuntos de datos urdu para tareas POS, NER y PNL
Bibliotecas
- Biblioteca de procesamiento de lenguaje natural para (??) Idioma urdu
PNL en persa
Volver arriba
Bibliotecas
- Hazm - Kit de herramientas Persian NLP.
- Parsivar: un conjunto de herramientas de procesamiento del lenguaje para persa
- Perke: Perke es un paquete de extracción de frase de claves de Python para el idioma persa. Proporciona una tubería de extracción de frase de claves de extremo a extremo en la que cada componente puede modificarse o extenderse fácilmente para desarrollar nuevos modelos.
- Perstem: persa Stemmer, analizador morfológico, transliterador y etiqueta parcial de parte del voz
- Parsianalyzer: analizador persa para elasticsearch
- Virastar: ¡Limpiar el texto persa!
Conjuntos de datos
- Bijankhan Corpus: Bijankhan Corpus es un corpus etiquetado que es adecuado para la investigación del procesamiento del lenguaje natural sobre el lenguaje persa (farsi). Esta colección se recopila en forma de noticias diarias y textos comunes. En esta colección, todos los documentos se clasifican en diferentes temas, como político, cultural, etc. Totalmente, hay 4300 temas diferentes. La colección Bijankhan contiene aproximadamente 2.6 millones etiquetadas manualmente con un conjunto de etiquetas que contiene 40 etiquetas POS persa.
- Uppsala Corpus persa (UPC): Uppsala Persian Corpus (UPC) es un corpus persa grande y disponible libremente. El corpus es una versión modificada del Corpus de Bijankhan con segmentación de oraciones adicional y tokenización consistente que contiene 2,704,028 tokens y anotada con 31 etiquetas de parte de voz. Las etiquetas de parte del discurso se enumeran con explicaciones en esta tabla.
- Persa coloquial a gran escala: el conjunto de datos persa coloquiales a gran escala (LSCP) se organiza jerárquicamente en taxonomía asemántica que se centra en la comprensión informal de la lengua persa informal como un problema integral. LSCP includes 120M sentences from 27M casual Persian tweets with its dependency relations in syntactic annotation, Part-of-speech tags, sentiment polarity and automatic translation of original Persian sentences in English (EN), German (DE), Czech (CS), Italian (IT) and Hindi (HI) spoken languages. Learn more about this project at LSCP webpage.
- ArmanPersoNERCorpus: The dataset includes 250,015 tokens and 7,682 Persian sentences in total. It is available in 3 folds to be used in turn as training and test sets. Each file contains one token, along with its manually annotated named-entity tag, per line. Each sentence is separated with a newline. The NER tags are in IOB format.
- FarsiYar PersianNER: The dataset includes about 25,000,000 tokens and about 1,000,000 Persian sentences in total based on Persian Wikipedia Corpus. The NER tags are in IOB format. More than 1000 volunteers contributed tag improvements to this dataset via web panel or android app. They release updated tags every two weeks.
- PERLEX: The first Persian dataset for relation extraction, which is an expert translated version of the “Semeval-2010-Task-8” dataset. Link to the relevant publication.
- Persian Syntactic Dependency Treebank: This treebank is supplied for free noncommercial use. For commercial uses feel free to contact us. The number of annotated sentences is 29,982 sentences including samples from almost all verbs of the Persian valency lexicon.
- Uppsala Persian Dependency Treebank (UPDT): Dependency-based syntactically annotated corpus.
- Hamshahri: Hamshahri collection is a standard reliable Persian text collection that was used at Cross Language Evaluation Forum (CLEF) during years 2008 and 2009 for evaluation of Persian information retrieval systems.
NLP in Ukrainian
Volver arriba
- awesome-ukrainian-nlp - a curated list of Ukrainian NLP datasets, models, etc.
- UkrainianLT - another curated list with a focus on machine translation and speech processing
NLP in Hungarian
Volver arriba
- awesome-hungarian-nlp: A curated list of free resources dedicated to Hungarian Natural Language Processing.
NLP in Portuguese
Volver arriba
- Portuguese-nlp - a List of resources and tools developed with focus on Portuguese.
Other Languages
- Russian: pymorphy2 - a good pos-tagger for Russian
- Asian Languages: Thai, Lao, Chinese, Japanese, and Korean ICU Tokenizer implementation in ElasticSearch
- Ancient Languages: CLTK: The Classical Language Toolkit is a Python library and collection of texts for doing NLP in ancient languages
- Hebrew: NLPH_Resources - A collection of papers, corpora and linguistic resources for NLP in Hebrew
Volver arriba
Credits for initial curators and sources
Licencia
License - CC0