The NLP Pandect - The NLP Pandect

The-NLP-Pandect

Este pandecto (πανδέκτης es el griego antiguo para la enciclopedia) fue creado para ayudarlo a encontrar casi cualquier cosa relacionada con el procesamiento del lenguaje natural que esté disponible en línea.

Nota Legend rápida en los tipos de recursos disponibles:
- Proyecto de código abierto, generalmente un repositorio de GitHub con su número de estrellas
? - Recurso que puede leer, generalmente una publicación de blog o un artículo
- Una colección de recursos adicionales
? - Herramienta de origen no abierta, marco o servicio pagado
? ️ - Un recurso que puedes ver
? ️ - Un recurso que puedes escuchar

Tabla de contenido

? Sección principal	? ️ Muestra de subsecciones
Recursos de PNL	Resúmenes en papel, resúmenes de conferencias, conjuntos de datos de PNL
Podcasts NLP	Podcasts solo por NLP, podcasts con muchos episodios de PNL
Boletines de la PNL	-
Meetups de PNL	-
Canales de YouTube NLP	-
Puntos de referencia de PNL	NLU general, respuesta de preguntas, multilingüe
Recursos de investigación	Recurso sobre modelos de transformadores, destilación y poda, resumen automatizado
Recursos de la industria	Las mejores prácticas para los sistemas PNL, MLOP para PNL
Reconocimiento de voz	Recursos generales, texto a discurso, discurso a texto, conjuntos de datos
Modelado de temas	Blogs, marcos, repositorios y proyectos
Extracción de palabras clave	Rango de texto, rastrillo, otros enfoques
PNL responsable	NLP y ML Interpretabilidad, ética, sesgo e igualdad en PNL, ataques adversos para PNL
Marcos de PNL	Propósito general, aumento de datos, traducción automática, ataques adversos, sistemas de diálogo y habla, coincidencia de entidad y cadena, marcos no ingleses, anotación de texto
Aprendiendo PNL	Cursos, libros, tutoriales
Comunidades de PNL	-
Otros temas de PNL	Tokenización, aumento de datos, reconocimiento de entidad nombrado, corrección de errores, Autonlp, Generación de texto

Nota Palabras clave de la sección: resúmenes en papel, compendio, lista impresionante

Compendios y listas impresionantes sobre el tema de la PNL:

El índice NLP - índice de búsqueda de documentos NLP por Quantum STAT / NLP Cypher
Impresionante PNL de Keon [Github, 16528 Stars]
Procesamiento de habla y lenguaje natural Lista impresionante de Elaboshira [Github, 2189 estrellas]
Aprendizaje profundo impresionante para el procesamiento del lenguaje natural (PNL) [Github, 1274 estrellas]
Recursos de minería de texto y procesamiento del lenguaje natural por paso a paso [Github, 557 estrellas]
Brainseurces para los entusiastas de #NLP por Philip Vollet
Impresionante AI/ML/DL - Sección NLP [GitHub, 1473 estrellas]
Artículos de PNL por Devopedia

Conferencias de PNL, resúmenes en papel y compendios de papel:

Documentos y resúmenes de papel

100 documentos de la PNL de lectura imprescindible 100 documentos de la PNL de lectura obligada [Github, 3732 estrellas]
Resúmenes de papel de la PNL por Dair-AI [Github, 1475 estrellas]
Colección curada de documentos para el practicante de la PNL [Github, 1075 estrellas]
Documentos sobre ataque adversario textual y defensa [Github, 1501 estrellas]
Documentos recientes de aprendizaje profundo en NLU y RL por Valentin Malykh [Github, 296 estrellas]
Una encuesta de encuestas (NLP y ML): Colección de documentos de encuestas de PNL [Github, Stars de 1997]
Una lista de papel para la transferencia de estilo en el texto [Github, 1609 estrellas]
? Índice de grabaciones de video para documentos

Resúmenes de la conferencia

Compendio de las 10 conferencias principales de la PNL por Soulbliss [Github, 459 estrellas]
? Tendencias de ICLR 2020
? Conferencia Spacyirl 2019 en descripción general
? Digest de papel: conferencias y documentos en descripción general

Progreso de PNL y tareas de PNL:

Progreso de la PNL por Sebastianruder [Github, 22568 estrellas]
Tareas de PNL por Kyubyong [Github, 3017 estrellas]

Conjuntos de datos NLP:

Conjuntos de datos NLP de Niderhoff [Github, 5741 estrellas]
Conjuntos de datos de Huggingface [Github, 19096 estrellas]
Base de datos NLP Big Bad
Anotaciones de palabras inequívocas de UWA - conjunto de datos de desambiguación del sentido de las palabras
MLDOC - Corpus para la clasificación de documentos multilingües en ocho idiomas [Github, 152 estrellas]

Incrustaciones de palabras y oraciones:

Impresionantes modelos de incrustación de Hironsan [Github, 1752 estrellas]
Impresionante lista de incrustaciones de oraciones de Separius [Github, 2219 estrellas]
Awesome Bert de Jiakui [Github, 1846 estrellas]

Cuadernos, guiones y repositorios

El repositorio de Super Duper NLP [Sitio web, 2020]

Recursos y compendios que no son ingleses

Recursos de PNL para Bahasa Indonesia [Github, 480 estrellas]
CATÁLOGO DE NLP IND [GITHUB, 552 estrellas]
Modelos lingüísticos previamente capacitados para vietnamitas [Github, 653 estrellas]
Kit de herramientas de lenguaje natural para idiomas indic (inltk) [Github, 814 estrellas]
Biblioteca indic NLP [GitHub, 550 estrellas]
Portal Ai4bharat-Indicnlp
ARBML - Implementación de muchos proyectos de NLP y ML en árabe [GitHub, 387 estrellas]
Zemberek -NLP - Herramientas NLP para turco [Github, 1146 estrellas]
TDD AI: una plataforma de código abierto para todos los conjuntos de datos turcos, modelos de idiomas y herramientas de PNL.
Klue - Evaluación de comprensión del idioma coreano [Github, 560 estrellas]
Persian NLP Benchmark: punto de referencia para la evaluación y comparación de varias tareas de PNL en idioma persa [Github, 73 estrellas]
NLP -Greek - Fuentes de idiomas griegos [Github, 5 estrellas]
Impresionantes recursos de la PNL para húngaro [Github, 221 estrellas]

Modelos PNL previamente capacitados

Lista de modelos de PNL pretrontrados [Github, 170 estrellas]
Modelos lingüísticos previos a la aparición desarrollados por el laboratorio Ark de Huawei Noah [Github, 3019 estrellas]
Modelos y recursos en el idioma español [Github, 251 estrellas]

Historia de la PNL

General

Técnicas modernas de aprendizaje profundo aplicados al procesamiento del lenguaje natural [Github, 1328 estrellas]
? Una revisión de la historia neuronal del procesamiento del lenguaje natural [Blog, octubre de 2018]

2020 año en revisión

? Procesamiento del lenguaje natural en 2020: El año en revisión [Blog, diciembre de 2020]
? Lo más destacado de la investigación de ML y NLP de 2020 [Blog, enero de 2021]

? Volver a la tabla de contenido

Podcasts solo para PNL

? ️ NLP destacados [Años: 2017 - Ahora, Estado: Activo]
"Episodios de la zona NLP [años: 2021 - Ahora, estado: activo]

Muchos episodios de PNL

? ️ Twiml ai [Años: 2016 - ahora, estado: activo]
"AI práctico [Años: 2018 - Ahora, Estado: Activo]
? ️ El intercambio de datos [años: 2019 - Ahora, estado: activo]
? ️ Gradiente disidencia [Años: 2020 - Ahora, estado: activo]
? ️ Machine Learning Street Talk [Años: 2020 - Ahora, Estado: Activo]
? ️ Arrancar datos: las últimas tendencias e ideas sobre cómo escalar el impacto de la ciencia de datos en las organizaciones [años: 2019 - ahora, estado: activo]

Algunos episodios de PNL

? ️ El podcast de Super Data Science [Años: 2016 - Ahora, Estado: Activo]
? ️ Data Hack Radio [Años: 2018 - Ahora, Estado: Activo]
? ️ Changers de juego de IA [Años: 2020, Estado: Activo]
"El análisis de análisis [Años: 2019 - Ahora, estado: activo]

? PNLP News de Sebastian Ruder
? Esta semana en la PNL por Robert Dale
? Documentos con código
? El lote de Deeplearning.ai
? Digest de papel por PaperDigest
? NLP Cypher de QuantumStat

? NLP Zurich [grabaciones de YouTube]
? Pirateo-maquina-aprendizaje [grabaciones de YouTube]
? NY-NLP (Nueva York)

? Yannic Kilcher
? Cara de abrazo
? Grupo de lectura de Kaggle
? Reading de papel rasa
? Stanford CS224N: PNL con aprendizaje profundo
? Nlpxing
? ML explicó - AI Círculos Socráticos - AISC
? Deeplearning.ai
? Talk de Street de aprendizaje automático

? Volver a la tabla de contenido

NLU general

Glue: punto de referencia de evaluación general de comprensión del lenguaje (pegamento)
SUPERGULAR - PELÍCULO DE REGRESO A Tras el pegamento con un nuevo conjunto de tareas de comprensión de idiomas más difíciles
DECANLP - El lenguaje natural Decatlon (Decanlp) para estudiar modelos generales de PNL
Dialoglue - Dialoglue: un punto de referencia de comprensión de lenguaje natural para el diálogo orientado a tareas [GitHub, 280 estrellas]
Dynabench - Dynabench es una plataforma de investigación para la recopilación y la evaluación comparativa de datos dinámicos
Big Bench: punto de referencia colaborativo para medir y extrapolar las capacidades de los modelos de idiomas [Github, 2835 estrellas]

Resumen

Wikiasp-wikiasp: conjunto de datos de resumen basado en aspectos de varios documentos
Wikilingua: un conjunto de datos de resumen abstractivo multilingüe

Respuesta de preguntas

Escuadrón - Stanford Pregunta Contestador de datos (Escuadrón)
XQUAD-XQUAD (conjunto de datos de respuesta a preguntas interlingües) para la respuesta de preguntas interlingües
Grailqa - Respuesta de preguntas muy generalizable (Grailqa)
CSQA - Respuesta de preguntas secuenciales complejas

Puntos de referencia multilingües y no ingleses

? Xtreme: un punto de referencia multilingüe multilingüe masivo
Gluecos: un punto de referencia para NLP conmutado por código
INDGLUE - Lenguaje natural Comprensión de la referencia para idiomas indicados
LINCE - CONTRACIÓN DE EVALUACIÓN DE CÓDIGO LINGUNSTICO
Supergegador ruso - Partido de Supergle de Rusia

Bio, ley y otros dominios científicos

PROBAJE - PARTIR ENTENDIMIENTO DEL LENGUA BIOMEDICAL Y RAPAYO DE RETILLA
Blue - Lenguaje biomédico Comprensión de la evaluación de referencia de evaluación
LexGlue: un conjunto de datos de referencia para la comprensión del lenguaje legal en inglés

Eficiencia del transformador

Arena de largo alcance: arena de largo alcance para transformadores eficientes de evaluación comparativa (preimpresión) [GitHub, 716 estrellas]

Procesamiento del habla

Excelente - Procesamiento de voz de referencia de rendimiento universal

Otro

CodExGlue: un conjunto de datos de referencia para Code Intelligence
Crossner - Crossner: Evaluación de reconocimiento de entidad con nombre de dominio cruzado
Multinli - Corpus de inferencia de lenguaje natural de múltiples generos
Isarcasmo: un conjunto de datos del sarcasmo previsto: el isarcasmo es un conjunto de datos de tweets, cada uno etiquetado como sarcástico o no_sarcástico

? Volver a la tabla de contenido

General

? Una receta para capacitar a las redes neuronales de Andrej Karpathy [Palabras clave: investigación, capacitación, 2019]
? Avances recientes en PNL a través de grandes modelos de idiomas previamente capacitados: una encuesta [documento, noviembre de 2021]

Incrustaciones

Repositorios

Representaciones de elmo previamente capacitadas para muchos idiomas [Github, 1458 estrellas]
Sense2Vec - Vectores de palabras de teclas contextualmente [GitHub, 1617 estrellas]
wikipedia2vec [Github, 935 estrellas]
StarSpace [Github, 3938 estrellas]
FastText [Github, 25871 estrellas]

Blogs

? Modelos de idiomas e incrustaciones de palabras contextualizadas por David S. Batista [Blog, 2018]
? Una guía esencial para incrustaciones de palabras previas a los practicantes para los profesionales de PNL por Analyticsvidhya [Blog, 2020]
? Polyglot Word Incremedings Descubre clústeres de lenguaje [Blog, 2020]
? El Ilustrado Word2Vec de Jay Alammar [Blog, 2019]

Incrustaciones de palabras y oraciones interlingües

VECMAP - VECMAP (Mapeos de incrustación de palabras interlingües) [GitHub, 644 estrellas]
Transformadores de oraciones: incrustaciones multilingües de oraciones e imágenes con Bert [Github, 14981 estrellas]

Codificación de pares de bytes

BPEMB-Incruscaciones de subvención previamente entrenadas en 275 idiomas, basados en la codificación de pares de bytes (BPE) [GitHub, 1179 estrellas]
SUB PALABRA -NMT - Segmentación de palabras no supervisada para la traducción y generación de texto de la máquina neuronal [GitHub, 2185 estrellas]
Python -BPE - Byte Par Coding for Python [Github, 223 estrellas]

Arquitecturas basadas en transformadores

General

? La familia Transformer de Lilian Weng [Blog, 2020]
? Jugar la lotería con recompensas y varios idiomas, sobre el efecto de la inicialización aleatoria [documento ICLR 2020]
? ¿Atención? ¡Atención! por Lilian Weng [Blog, 2018]
? el transformador ... "explicado"? [Blog, 2019]
? ️ La atención es todo lo que necesitas; Modelos de redes neuronales atencionales de łukasz Kaiser [Talk, 2017]
? La atención está apagada por uno [julio de 2023]
? ️ Comprender y aplicar la autoatención para la PNL [Talk, 2018]
? El libro de cocina de la PNL: recetas modernas para arquitecturas de aprendizaje profundo basados en transformadores [documento, abril de 2021]
? Modelos previamente capacitados: pasado, presente y futuro [documento, junio de 2021]
? Una encuesta de Transformers [documento, junio de 2021]

Transformador

? El transformador anotado de Harvard NLP [Blog, 2018]
? El transformador ilustrado de Jay Alammar [Blog, 2018]
? Guía ilustrada para transformadores de Hong Jing [Blog, 2020]
? Transformador secuencial con capacidad de atención adaptativa por Facebook. Blog [Blog, 2019]
? Evolución de las representaciones en el transformador de Lena Voita [Blog, 2019]
? Reformador: El transformador eficiente [Blog, 2020]
? Longformer: el transformador de documentos largos de Viktor Karlsson [Blog, 2020]
? Transformers de Scratch [Blog, 2019]
? Transformadores en el procesamiento del lenguaje natural: una breve encuesta de George Ho [Blog, mayo de 2020]
Transformador Lite - Transformador Lite con atención a largo plazo [Github, 596 estrellas]
? Transformers de Scratch [Blog, octubre de 2021]

Bert

? Una guía visual para usar Bert por primera vez de Jay Alammar [Blog, 2019]
? The Dark Secrets of Bert de Anna Rogers [Blog, 2020]
? Comprender las búsquedas mejor que nunca [Blog, 2019]
? Desmitificante de Bert: una guía completa para el innovador marco de la PNL [Blog, 2019]
Sembert - Semántica -Consciente Bert para la comprensión del idioma [Github, 286 estrellas]
Bertweet - Bertweet: un modelo de idioma pre -entrenado para tweets en inglés [Github, 574 estrellas]
Extracción de subarquitectura óptima para Bert [Github, 470 estrellas]
CARACTERBERT: Reconciliando Elmo y Bert [Github, 195 estrellas]
? Cuando Bert toca la lotería, todas las entradas están ganando [Blog, diciembre de 2020]
Documentos relacionados con Bert una lista de documentos relacionados con Bert [Github, 2032 estrellas]

Otras variantes del transformador

T5

? T5 Comprensión de arquitecturas auto-supervisadas basadas en transformadores [Blog, agosto de 2020]
? T5: El transformador de transferencia de texto a texto [Blog, 2020]
Multilingüe-T5-T5 multilingüe (MT5) es un modelo de transformador de texto a texto pretralado masivamente multilingüe [GitHub, 1245 estrellas]

Pájaro grande

? Big Bird: Transformers para secuencias más largas Documento original de Google Research [Documento, julio de 2020]

Reformador / Linformer / Longformer / artistas

Reformador: el transformador eficiente - [Documento, febrero de 2020] [Video, octubre de 2020]
? ️ Longformer: El transformador de documentos largos - [Paper, abril de 2020] [Video, abril de 2020]
? ️ Linformer: Autoatención con complejidad lineal - [Paper, junio de 2020] [Video, junio de 2020]
? ️ Repensar la atención con los artistas - [Documento, septiembre de 2020] [Video, septiembre de 2020]
Performer-Pytorch: una implementación de Performer, un transformador basado en la atención lineal, en Pytorch [Github, 1084 Stars]

Transformador de interruptor

? Transformadores de interruptor: escala a modelos de parámetros de billones de parámetros Papel original por Google Research [documento, enero de 2021]

GPT-Familia

General

? El ilustrado GPT-2 de Jay Alammar [Blog, 2019]
? El anotado GPT-2 por Aman Arora
? GPT-2 de OpenAI: The Model, The Hype y The Controversy de Ryan Lowe [Blog, 2019]
? Cómo generar texto de Patrick Von Platen [Blog, 2020]

GPT-3

Recursos de aprendizaje

? Aprendizaje de SHOT cero para la clasificación de texto por Amit Chaudhary [Blog, 2020]
? GPT-3 Un breve resumen de Leo Gao [Blog, 2020]
? GPT-3, un paso gigante para el aprendizaje profundo y la PNL de Yoel Zeldes [Blog, junio de 2020]
? Modelo de idioma GPT-3: una descripción técnica de Chuan Li [Blog, junio de 2020]
? ¿Es posible que los modelos de idiomas logren la comprensión del lenguaje? por Christopher Potts

Aplicaciones

Impresionante GPT-3-Lista de todos los recursos relacionados con GPT-3 [GitHub, 4589 estrellas]
Proyectos GPT-3: un mapa de todas las nuevas empresas GPT-3 y proyectos comerciales
GPT-3 Demo Showcase-GPT-3 Demo Showcase, más de 180 aplicaciones, ejemplos y recursos
? OPERAI API - API Demo para usar OpenAI GPT para aplicaciones comerciales

Esfuerzos de código abierto

? GPT-NEO-HUB GPT-3 Open Source Replication Hub
GPT -J - Un parámetro de 6 mil millones, modelo de generación de texto autorregresivo entrenado en la pila
? Uso de manera efectiva GPT-J con aprendizaje de pocos disparos [Blog, julio de 2021]

Otro

? ¿Qué es la autoatención de dos flores en XLNet por Xu Liang [Blog, 2019]
? Resumen del documento visual: Albert (A Lite Bert) de Amit Chaudhary [Blog, 2020]
? Turing NLG de Microsoft
? Clasificación de texto de múltiples etiquetas con XLNet por Josh Xin Jie Lee [Blog, 2019]
Electra [Github, 2326 estrellas]
Implementación del artista del artista, un transformador lineal basado en la atención, en Pytorch [Github, 1084 estrellas]

Destilación, poda y cuantificación

Material de lectura

? Destilar el conocimiento de las redes neuronales para construir modelos más pequeños y más rápidos de Floydhub [Blog, 2019]
? Compresión de modelos de aprendizaje profundo para texto: una encuesta [documento, abril de 2021]

Herramientas

BERT-SQUEEZE-Código para reducir el tamaño de los modelos basados en transformadores o disminuir su latencia en un tiempo de inferencia [GitHub, 79 estrellas]
Xtremedistil - Xtremedistiltransformers para destilar redes neuronales multilingües masivas [Github, 153 estrellas]

Resumen automatizado

? Pegaso: un modelo de vanguardia para resumen de texto abstractivo por Google AI [Blog, junio de 2020]
Ctrlsum - Ctrlsum: hacia el resumen genérico de texto controlable [Github, 146 estrellas]
XL-SUM-XL-SUM: resumen abstracto multilingüe a gran escala para 44 idiomas [GitHub, 252 estrellas]
Summertime: un conjunto de herramientas de resumen de texto de código abierto para no expertos [GitHub, 265 estrellas]
Primer-Primer: pretruamiento enmascarado de oración enmascarada a base de pirámide para resumen de documentos múltiples [GitHub, 151 estrellas]
Resumen: modelos para resumen de abstracción automática [Github, 170 estrellas]

Gráficos de conocimiento y PNL

? Fusionar el conocimiento en el modelo de idioma [Presentación, octubre de 2021]

Nota Palabras clave de la sección: Mejores prácticas, MLOPS

? Volver a la tabla de contenido

Las mejores prácticas para construir proyectos de PNL

? En busca de las mejores prácticas para proyectos de PNL [diapositivas, diciembre de 2020]
? EMNLP 2020: Procesamiento de lenguaje natural de alto rendimiento por Google Research, grabación, noviembre de 2020]
? Procesamiento práctico de lenguaje natural: una guía completa para construir sistemas de PNL del mundo real [Libro, junio de 2020]
? Cómo estructurar y administrar proyectos de PNL [Blog, mayo de 2021]
? Pensamiento de PNL aplicado - Pensamiento de PNL aplicado: Cómo traducir problemas en soluciones [Blog, junio de 2021]
? Introducción a la PNL para uso de la industria - Presentación de DataTalksClub sobre Introducción a PNL para uso de la industria [Registro, diciembre de 2021]
? Medición de la deriva de incrustación: las mejores prácticas para monitorear la deriva de los modelos de PNL [blog, diciembre de 2022]

MLOP para PNL

Los MLOP, especialmente cuando se aplican a PNL, son un conjunto de mejores prácticas en torno a la automatización de varias partes del flujo de trabajo al construir y implementar tuberías de PNL.

En general, MLOPS para PNL incluye tener los siguientes procesos en su lugar:

Versión de datos : asegúrese de que su entrenamiento, anotación y otros tipos de datos estén versiones y rastreados
Seguimiento de experimentos : asegúrese de que todos sus experimentos se rastreen y guarden automáticamente donde se puedan replicar o volver a reproducirse fácilmente
Registro de modelos : asegúrese de que los modelos neuronales que entrenen sean versados y rastreados y es fácil volver a cualquiera de ellos
Pruebas automatizadas y pruebas de comportamiento : además de las pruebas regulares de la unidad y la integración, desea tener pruebas de comportamiento que verifiquen el sesgo o los posibles ataques adversos
Despliegue y servicio del modelo : automatizar la implementación del modelo, idealmente también con implementos de tiempo cero hacia abajo como azules/verdes, implementos canarios, etc.
Observabilidad de datos y modelo : rastrear la deriva de datos, la deriva de precisión del modelo, etc.

Además, hay dos componentes más que no son tan frecuentes para NLP y se utilizan principalmente para la visión por computadora y otros subcampos de IA:

Tienda de funciones : almacenamiento centralizado de todas las características desarrolladas para modelos ML que el proyecto ML puede reutilizar fácilmente
Gestión de metadatos : almacenamiento para toda la información relacionada con el uso de modelos ML, principalmente para reproducir el comportamiento de los modelos ML implementados, el seguimiento de artefactos, etc.

Compilaciones de MLOPS y listas impresionantes

Awesome-Mlops [Github, 12526 estrellas]
Mejor de ML-Python [Github, 16309 estrellas]
Mlops.toys: una lista curada de proyectos de MLOPS

Material de lectura

? Operaciones de aprendizaje automático (MLOPS): descripción general, definición y arquitectura [documento, mayo de 2022]
? Requisitos y arquitectura de referencia para MLOP: información de la industria [Paper, octubre de 2022]
? MLOPS: Qué es, por qué importa y cómo implementarlo por Neptune AI [Blog, julio de 2021]
? Las mejores herramientas de MLOPS que necesita conocer como científico de datos de Neptune AI [Blog, julio de 2021]
? Estado de MLOPS 2021 por Valohai [Blog, agosto de 2021]
? The Mlops Stack de Valohai [Blog, octubre de 2020]
? Control de versiones de datos para aplicaciones de aprendizaje automático de Megagon AI [Blog, julio de 2021]
? La rápida evolución de la pila canónica para el aprendizaje automático [blog, julio de 2021]
? MLOPS: Guía integral para principiantes [Blog, marzo de 2021]
? Lo que aprendí sobre MLOPS al hablar con más de 100 ML Practicantes [Blog, mayo de 2021]
? Modelos Challenger Datarobot: modelos de campeón/retador de MLOPS
? Blog del estado de MLOP por el Dr. Ori Cohen
? Descripción general del ecosistema MLOPS [Blog, 2021]

Material de aprendizaje

? MLOPS Cource por Made with ML
? MLOPS GITHUB - Recursos de recursos sobre cómo facilitar las operaciones de aprendizaje automático con GitHub
? Curso de fundamentos de observabilidad de ML Aprenda a monitorear y problemas de causa raíz con los modelos de producción de PNL de producción

Comunidades MLOPS

La comunidad MLOPS - Blogs, Slack Group, Newsletter y más sobre MLOPS

Versión de datos

DVC - Control de versiones de datos (DVC) rastrea modelos ML y conjuntos de datos [código abierto y abierto] Enlace a GitHub
? Pesos y prejuicios: herramientas para el seguimiento de experimentos y la versión de conjunto de datos [Servicio pagado]
? Pachyderm-Control de versiones para datos con las herramientas para construir tuberías ML/AI escalables [servicio pagado con nivel gratuito]

Seguimiento de experimentos

MLFLOW - Plataforma de código abierto para el enlace del ciclo de vida de aprendizaje automático [código libre y de código abierto] a GitHub
? Pesos y prejuicios: herramientas para el seguimiento de experimentos y la versión de conjunto de datos [Servicio pagado]
? Neptune AI: seguimiento de experimentos y registro de modelos construido para equipos de investigación y producción [Servicio pagado]
? Comet ML: permite a los científicos y equipos de datos rastrear, comparar, explicar y optimizar experimentos y modelos [servicio pagado]
? SIGOPT - Automatizar la capacitación y ajuste, visualizar y comparar ejecuciones [servicio pagado]
Optuna - Marco de optimización de hiperparameter [GitHub, 10650 estrellas]
Clear ML: experimentar, orquestar, implementar y construir tiendas de datos, todo en un lugar [código libre y abierto] enlace a Github
Metaflow-Biblioteca Python/R amigable para los humanos que ayuda a los científicos e ingenieros a construir y administrar proyectos de ciencia de datos de la vida real [Github, 8093 estrellas]

Registro modelo

DVC - Control de versiones de datos (DVC) rastrea modelos ML y conjuntos de datos [código abierto y abierto] Enlace a GitHub
MLFLOW - Plataforma de código abierto para el enlace del ciclo de vida de aprendizaje automático [código libre y de código abierto] a GitHub
ModelDB - Sistema de código abierto para versiones del modelo de aprendizaje automático, metadatos y gestión de experimentos [GitHub, 1696 estrellas]
? Neptune AI: seguimiento de experimentos y registro de modelos construido para equipos de investigación y producción [Servicio pagado]
? Valohai-Tuberías ML de extremo a extremo [Servicio pagado]
? Pachyderm-Control de versiones para datos con las herramientas para construir tuberías ML/AI escalables [servicio pagado con nivel gratuito]
? Polyaxon: reproducir, automatizar y escalar sus flujos de trabajo de ciencia de datos con herramientas MLOPS de grado de producción [Servicio pagado]
? Comet ML: permite a los científicos y equipos de datos rastrear, comparar, explicar y optimizar experimentos y modelos [servicio pagado]

Pruebas automatizadas y pruebas de comportamiento

Lista de verificación: más allá de la precisión: pruebas de comportamiento de los modelos de PNL [GitHub, 2003 Stars]
TextAtack - Marco para ataques adversos, aumento de datos y entrenamiento de modelos en PNL [GitHub, 2922 estrellas]
WILDNLP - Corrupe un texto de entrada para probar la robustez de los modelos NLP [GitHub, 76 estrellas]
Grandes expectativas: escriba pruebas para sus datos [Github, 9874 estrellas]
DeepChecks: paquete de Python para validar de manera integral sus modelos y datos de aprendizaje automático [GitHub, 3582 estrellas]

Desmodimento del modelo y servir

MLFLOW - Plataforma de código abierto para el enlace del ciclo de vida de aprendizaje automático [código libre y de código abierto] a GitHub
? Amazon Sagemaker [Servicio pagado]
? Valohai-Tuberías ML de extremo a extremo [Servicio pagado]
? NLP Cloud - API NLP lista para producción [Servicio pagado]
? Saturn Cloud [servicio pagado]
? SELDON - Implementación de aprendizaje automático para empresas [servicio pagado]
? Comet ML: permite a los científicos y equipos de datos rastrear, comparar, explicar y optimizar experimentos y modelos [servicio pagado]
? Polyaxon: reproducir, automatizar y escalar sus flujos de trabajo de ciencia de datos con herramientas MLOPS de grado de producción [Servicio pagado]
Torchserve: herramienta flexible y fácil de usar para servir modelos Pytorch [Github, 4174 estrellas]
? Kubeflow: el conjunto de herramientas de aprendizaje automático para Kubernetes [Github, 10600 estrellas]
KFSERVING - Inferencia sin servidor en Kubernetes [GitHub, 3504 estrellas]
? TFX - TensorFlow Extended - Plataforma de extremo a extremo para implementar tuberías ML de producción [Servicio pagado]
? Pachyderm-Control de versiones para datos con las herramientas para construir tuberías ML/AI escalables [servicio pagado con nivel gratuito]
? Cortex: contenedores como servicio en AWS [servicio pagado]
? Azure Machine Learning-Ciclo de vida de aprendizaje automático de extremo a extremo [Servicio pagado]
End2END Servidor Transformers en AWS Lambda [GitHub, 121 estrellas]
Servicio de NLP: demo de muestra de PNL como plataforma de servicio construida con Fastapi y abrazando la cara [GitHub, 13 estrellas]
? Dagster - Orquestador de datos para aprendizaje automático [código abierto y abierto]
? VERTA - AI y implementación y operaciones de aprendizaje automático [Servicio pagado]
Metaflow-Biblioteca Python/R amigable para los humanos que ayuda a los científicos e ingenieros a construir y administrar proyectos de ciencia de datos de la vida real [Github, 8093 estrellas]
FlyTE - Plataforma de automatización de flujo de trabajo para datos complejos y críticos de misión y procesos ML a escala [Github, 5525 estrellas]
MLRUN - Automatización y seguimiento del aprendizaje automático [GitHub, 1425 estrellas]
? Datarobot MLOPS - Datarobot Mlops proporciona un centro de excelencia para su IA de producción

Depuración modelo

iModels - Paquete para modelado predictivo conciso, transparente y preciso [GitHub, 1375 estrellas]
Cockpit: una herramienta de depuración práctica para entrenar redes neuronales profundas [Github, 474 estrellas]

Predicción de precisión del modelo

Weightwatcher - Herramienta de observación de peso para predecir la precisión de las redes neuronales profundas [GitHub, 1453 estrellas]

Observabilidad de datos y modelo

General

Arize AI: incrustación de monitoreo de deriva para modelos PNL
Arize -Phoenix - ML Observabilidad para LLM, visión, lenguaje y modelos tabulares
WhyLogs: estándar de código abierto para datos y registro de ML [GitHub, 2636 estrellas]
Rubrix - Herramienta de código abierto para explorar e iterando datos para proyectos de inteligencia artificial [Github, 3843 estrellas]
MLRUN - Automatización y seguimiento del aprendizaje automático [GitHub, 1425 estrellas]
? Datarobot MLOPS - Datarobot Mlops proporciona un centro de excelencia para su IA de producción
? Cortex: contenedores como servicio en AWS [servicio pagado]

Modelo centrado

? Algoritmia: minimice el riesgo con informes avanzados y seguridad y gobernanza de grado empresarial en todos los datos, modelos e infraestructura [servicio pagado]
? DataKu - Dataiku es para equipos que desean entregar análisis avanzados utilizando las últimas técnicas a Big Data Scale [Servicio pagado]
Evidentemente, AI - Herramientas para analizar y monitorear modelos de aprendizaje automático [código abierto y abierto] enlace a GitHub
? Fiddler - Herramienta de gestión del rendimiento del modelo ML [Servicio pagado]
? Hidrosfera: plataforma de código abierto para administrar modelos ML [servicio pagado]
? VERTA - AI y implementación y operaciones de aprendizaje automático [Servicio pagado]
? Ops de modelos Domino: implementa y administra modelos para impulsar el impacto comercial [servicio pagado]

Datos centrados

? Datafold: calidad de datos a través de diferencias, perfiles y detección de anomalías [servicio pagado]
? Aceldata: mejorar la confiabilidad, acelerar la escala y reducir los costos en todas las tuberías de datos [servicio pagado]
? Bigeye: monitoreo y alerta a sus conjuntos de datos en minutos [servicio pagado]
? Datakin-Solución de linaje de datos de extremo a extremo en tiempo real [Servicio pagado]
? Monte Carlo - Integridad de datos, deriva, esquema, linaje [servicio pagado]
? Soda - Monitoreo de datos, pruebas y validación [Servicio pagado]

Tiendas de funciones

? Tecton - Tienda de funciones empresariales para aprendizaje automático [servicio pagado]
Fiesta - Tienda de funciones de código abierto para el sitio web de aprendizaje automático [Github, 5525 estrellas]
? Hopsworks Store: Sistema de gestión de datos para administrar funciones de aprendizaje automático [Servicio pagado]

Gestión de metadatos

METATATOS ML: una biblioteca para grabar y recuperar metadatos asociados con flujos de trabajo de desarrolladores y científicos de datos de ML [Github, 617 estrellas]
? Neptune AI: seguimiento de experimentos y registro de modelos construido para equipos de investigación y producción [Servicio pagado]

Marcos de mlops

Metaflow-Biblioteca Python/R amigable para los humanos que ayuda a los científicos e ingenieros a construir y administrar proyectos de ciencia de datos de la vida real [Github, 8093 estrellas]
KEDRO - Marco de Python para crear código de ciencia de datos reproducible, mantenible y modular [Github, 9883 estrellas]
Seldon Core - MLOPS Framework para empaquetar, implementar, monitorear y administrar miles de modelos de aprendizaje automático de producción [GitHub, 4353 estrellas]
ZENML - Marco MLOPS para crear tuberías ML reproducibles para el aprendizaje de la máquina de producción [GitHub, 3972 estrellas]
? Google Vertex AI: modelos ML de compilación, implementación y escala más rápido, con herramientas previas y personalizadas dentro de una plataforma AI unificada [Servicio pagado]
Diffgram: plataforma de datos de capacitación completa para el aprendizaje automático entregado como una sola aplicación [Github, 1834 estrellas]
? Continual.AI: construya, implementa y operacionaliza los modelos ML de manera más fácil y rápida con una interfaz declarativa en almacenes de datos en la nube como Snowflake, BigQuery, Redshift y Databricks. [Servicio pagado]

Arquitecturas basadas en transformadores

? Volver a la tabla de contenido

General

? Por qué Bert falla en entornos comerciales por Intel Ai [Blog, 2020]
? Tuning de Bert para la clasificación de texto con la granja de Sebastian Guggisberg [Blog, 2020]
Modelos de transformadores de pretrano en Pytorch utilizando transformadores de cara abrazados [Github, 254 estrellas]
"PNLP práctico para el mundo real [Presentación, 2019]
? ️ De papel a otro: cómo implementamos Bert por Christoph Henkelmann [Talk, 2020]

Transformadores de múltiples GPU

ParallFormers: un conjunto de herramientas de paralelización de modelo eficiente para la implementación [GitHub, 776 estrellas]

Transformadores de entrenamiento de manera efectiva

Capacitación de Bert con presupuesto de cómputo/tiempo (académico) [Github, 309 estrellas]

Incrustaciones como servicio

incrustación como servicio [Github, 204 estrellas]
Bert como servicio [Github, 12399 estrellas]

Recetas de PNL Aplicaciones industriales:

Recetas de PNL por Microsoft [Github, 6367 estrellas]
PNLP con Python por Susanli2016 [Github, 2721 estrellas]
Utilidades básicas para Pytorch NLP de PetroChukm [Github, 2210 estrellas]

Aplicaciones de PNL en biografía, finanzas, legales y otras industrias

Blackstone: una tubería y modelo de Spacy para PNL en texto legal no estructurado [Github, 636 estrellas]
Sci Spacy - Spacy Pipeline y modelos para documentos científicos/biomédicos [Github, 1688 estrellas]
FINBERT: Precañado en presentaciones de la SEC para tareas financieras de PNL [GitHub, 197 estrellas]
LEXNLP - Recuperación de información y extracción para texto legal real y no estructurado [GitHub, 692 estrellas]
Nerdl y Nercrf - Tutorial sobre reconocimiento de entidad nombrado para la atención médica con Sparknlp
Análisis de texto legal: una lista de recursos seleccionados dedicados a análisis de texto legal [Github, 613 estrellas]
BIOIE - Una lista curada de recursos relevantes para hacer extracción de información biomédica [Github, 338 estrellas]

Nota Palabras clave de la sección: Reconocimiento de voz

? Volver a la tabla de contenido

Reconocimiento general de voz

WAV2LETTER - KIT automático de herramientas de reconocimiento de voz [GitHub, 6370 estrellas]
Deepspeech - Arquitectura de baidu's DeepSpeech [Github, 25166 estrellas]
? INCREGOS DE PALABRAS ACULTICAS POR MARIA OBEDKOVA [BLOG, 2020]
Kaldi - Kaldi es un conjunto de herramientas para el reconocimiento de voz [Github, 14177 estrellas]
Awesome -Kaldi - Recursos para usar Kaldi [Github, 532 estrellas]
ESPNET-Kit de herramientas de procesamiento de voz de extremo a extremo [Github, 8355 estrellas]
? Hubert - Aprendizaje de representación auto -supervisada para el reconocimiento de voz, generación y compresión [Blog, junio de 2021]

Texto a la generación del habla / habla

FastSpeech: la implementación de FastSpeech basada en Pytorch [Github, 857 estrellas]
TTS: un conjunto de herramientas de aprendizaje profundo para texto a voz [Github, 34356 estrellas]
? Notebooklm - Generador de asistente personal / podcast de Google Gemini Gemini

Discurso a texto

Whisper - Reconocimiento de voz robusto a través de una supervisión débil a gran escala, por OpenAi [Github, 68884 estrellas]
VIBE - Herramienta GUI para trabajar con Whisper, soporte multilingüe y CUDA incluyó [GitHub, 931 estrellas]

Conjuntos de datos

Voxpopuli - Corpus de discurso multilingüe a gran escala para el aprendizaje de representación [GitHub, 507 estrellas]

Nota Sección Palabras clave: modelado de temas

? Volver a la tabla de contenido

Blogs

? Modelado de temas con Pyspark y Spark NLP de Maria Obedkova [Spark, Blog, 2020]
? Un enfoque único para la agrupación de texto corto (teoría algorítmica) de Brittany Bowers [Blog, 2020]

Marcos para modelado de temas

Gensim - Marco para el modelado de temas [Github, 15597 estrellas]
Spark NLP [Github, 3826 estrellas]

Repositorios

Top2Vec [Github, 2924 estrellas]
Modelado de temas de explicación de correlación anclada [Github, 303 estrellas]
Modelado de temas en espacios de incrustación [Github, 540 estrellas] papel
TopicNet: una interfaz de alto nivel para la biblioteca Bigartm [Github, 140 estrellas]
BERTopic - Leveraging BERT and a class-based TF-IDF to create easily interpretable topics [GitHub, 6038 stars]
OCTIS - A python package to optimize and evaluate topic models [GitHub, 718 stars]
Contextualized Topic Models [GitHub, 1196 stars]
GSDMM - GSDMM: Short text clustering [GitHub, 353 stars]

Note Section keywords: keyword extraction

? Back to the Table of Contents

Text Rank

PyTextRank - PyTextRank is a Python implementation of TextRank as a spaCy pipeline extension [GitHub, 2132 stars]
textrank - TextRank implementation for Python 3 [GitHub, 1248 stars]

RAKE - Rapid Automatic Keyword Extraction

rake-nltk - Rapid Automatic Keyword Extraction algorithm using NLTK [GitHub, 1061 stars]
yake - Single-document unsupervised keyword extraction [GitHub, 1632 stars]
RAKE-tutorial - A python implementation of the Rapid Automatic Keyword Extraction [GitHub, 375 stars]
rake-nltk - Rapid Automatic Keyword Extraction algorithm using NLTK [GitHub, 1061 stars]

Other Approaches

flashtext - Extract Keywords from sentence or Replace keywords in sentences [GitHub, 5583 stars]
BERT-Keyword-Extractor - Deep Keyphrase Extraction using BERT [GitHub, 254 stars]
keyBERT - Minimal keyword extraction with BERT [GitHub, 3471 stars]
KeyphraseVectorizers - vectorizers that extract keyphrases with part-of-speech patterns [GitHub, 251 stars]

NLP and ML Interpretability

NLP-centric

Explainability for Natural Language Processing - KDD'2021 Tutorial Slides [Presentation, August 2021]
ecco - Tools to visuals and explore NLP language models [GitHub, 1974 stars]
NLP Profiler - A simple NLP library allows profiling datasets with text columns [GitHub, 243 stars]
transformers-interpret - Model explainability that works seamlessly with transformers [GitHub, 1278 stars]
Awesome-explainable-AI - collection of research materials on explainable AI/ML [GitHub, 1400 stars]
LAMA - LAMA is a probe for analyzing the factual and commonsense knowledge contained in pretrained language models [GitHub, 1346 stars]

General

Language Interpretability Tool (LIT) [GitHub, 3474 stars]
WhatLies - Toolkit to help visualise - what lies in word embeddings [GitHub, 468 stars]
Interpret-Text - Interpretability techniques and visualization dashboards for NLP models [GitHub, 413 stars]
InterpretML - Fit interpretable models. Explain blackbox machine learning [GitHub, 6238 stars]
thermostat - Collection of NLP model explanations and accompanying analysis tools [GitHub, 143 stars]
Dodrio - Exploring attention weights in transformer-based models with linguistic knowledge [GitHub, 342 stars]
imodels - package for concise, transparent, and accurate predictive modeling [GitHub, 1375 stars]

Ethics, Bias, and Equality in NLP

? Bias in Natural Language Processing @EMNLP 2020 [Blog, Nov 2020]
?️ Machine Learning as a Software Engineering Enterprise - NeurIPS 2020 Keynote [Presentation, Dec 2020]
Ethics in NLP - resources from ACLs Ethics in NLP track
The Institute for Ethical AI & Machine Learning
? Understanding the Capabilities, Limitations, and Societal Impact of Large Language Models [Paper, Feb 2021]
Fairness-in-AI - this package is used to detect and mitigate biases in NLP tasks [GitHub, 77 stars]
nlg-bias - dataset + classifier tools to study social perception biases in natural language generation [GitHub, 65 stars]
bias-in-nlp - list of papers related to bias in NLP [GitHub, 9 stars]

Adversarial Attacks for NLP

? Privacy Considerations in Large Language Models [Blog, Dec 2020]
DeepWordBug - Generation of Adversarial Text Sequences to Evade Deep Learning Classifiers [GitHub, 73 stars]
Adversarial-Misspellings - Combating Adversarial Misspellings with Robust Word Recognition [GitHub, 62 stars]

Hate Speech Analysis

HateXplain - BERT for detecting abusive language [GitHub, 187 stars]

Note Section keywords: frameworks

? Back to the Table of Contents

Propósito general

spaCy by Explosion AI [GitHub, 29784 stars]
flair by Zalando [GitHub, 13855 stars]
AllenNLP by AI2 [GitHub, 11740 stars]
stanza (former Stanford NLP) [GitHub, 7253 stars]
spaCy stanza [GitHub, 723 stars]
nltk [GitHub, 13489 stars]
gensim - framework for topic modeling [GitHub, 15597 stars]
pororo - Platform of neural models for natural language processing [GitHub, 1279 stars]
NLP Architect - A Deep Learning NLP/NLU library by Intel® AI Lab [GitHub, 2936 stars]
FARM [GitHub, 1734 stars]
gobbli by RTI International [GitHub, 275 stars]
headliner - training and deployment of seq2seq models [GitHub, 229 stars]
SyferText - A privacy preserving NLP framework [GitHub, 197 stars]
DeText - Text Understanding Framework for Ranking and Classification Tasks [GitHub, 1263 stars]
TextHero - Text preprocessing, representation and visualization [GitHub, 2882 stars]
textblob - TextBlob: Simplified Text Processing [GitHub, 9109 stars]
AdaptNLP - A high level framework and library for NLP [GitHub, 407 stars]
textacy - NLP, before and after spaCy [GitHub, 2209 stars]
texar - Toolkit for Machine Learning, Natural Language Processing, and Text Generation, in TensorFlow [GitHub, 2388 stars]
jiant - jiant is an NLP toolkit [GitHub, 1639 stars]

Data Augmentation

WildNLP Text manipulation library to test NLP models [GitHub, 76 stars]
snorkel Framework to generate training data [GitHub, 5791 stars]
NLPAug Data augmentation for NLP [GitHub, 4419 stars]
SentAugment Data augmentation by retrieving similar sentences from larger datasets [GitHub, 363 stars]
faker - Python package that generates fake data for you [GitHub, 17648 stars]
textflint - Unified Multilingual Robustness Evaluation Toolkit for NLP [GitHub, 639 stars]
Parrot - Practical and feature-rich paraphrasing framework [GitHub, 871 stars]
AugLy - data augmentations library for audio, image, text, and video [GitHub, 4950 stars]
TextAugment - Python 3 library for augmenting text for natural language processing applications [GitHub, 396 stars]

Adversarial NLP Attacks & Behavioral Testing

TextAttack - framework for adversarial attacks, data augmentation, and model training in NLP [GitHub, 2922 stars]
CleverHans - adversarial example library for constructing NLP attacks and building defenses [GitHub, 6172 stars]
CheckList - Beyond Accuracy: Behavioral Testing of NLP models [GitHub, 2003 stars]

Transformer-oriented

transformers by HuggingFace [GitHub, 132974 stars]
Adapter Hub and its documentation - Adapter modules for Transformers [GitHub, 2543 stars]
haystack - Transformers at scale for question answering & neural search. [GitHub, 16997 stars]

Dialogue Systems and Speech

DeepPavlov by MIPT [GitHub, 6676 stars]
ParlAI by FAIR [GitHub, 10477 stars]
rasa - Framework for Conversational Agents [GitHub, 18726 stars]
wav2letter - Automatic Speech Recognition Toolkit [GitHub, 6370 stars]
ChatterBot - conversational dialog engine for creating chatbots [GitHub, 14039 stars]
SpeechBrain - open-source and all-in-one speech toolkit based on PyTorch [GitHub, 8674 stars]
dialoguefactory Generate continuous dialogue data in a simulated textual world [GitHub, 5 stars]

Word/Sentence-embeddings oriented

MUSE A library for Multilingual Unsupervised or Supervised word Embeddings [GitHub, 3181 stars]
vecmap A framework to learn cross-lingual word embedding mappings [GitHub, 644 stars]
sentence-transformers - Multilingual Sentence & Image Embeddings with BERT [GitHub, 14981 stars]

Social Media Oriented

Ekphrasis - text processing tool, geared towards text from social networks [GitHub, 661 stars]

Fonética

DeepPhonemizer - grapheme to phoneme conversion with deep learning [GitHub, 352 stars]

Morfología

LemmInflect - python module for English lemmatization and inflection [GitHub, 259 stars]
Inflect - generate plurals, ordinals, indefinite articles [GitHub, 964 stars]
simplemma - simple multilingual lemmatizer for Python [GitHub, 964 stars]

Multi-lingual tools

polyglot - Multi-lingual NLP Framework [GitHub, 2309 stars]
trankit - Light-Weight Transformer-based Python Toolkit for Multilingual NLP [GitHub, 730 stars]

Distributed NLP / Multi-GPU NLP

Spark NLP [GitHub, 3826 stars]
Parallelformers: An Efficient Model Parallelization Toolkit for Deployment [GitHub, 776 stars]

Traducción automática

COMET -A Neural Framework for MT Evaluation [GitHub, 493 stars]
marian-nmt - Fast Neural Machine Translation in C++ [GitHub, 1236 stars]
argos-translate - Open source neural machine translation in Python [GitHub, 3771 stars]
Opus-MT - Open neural machine translation models and web services [GitHub, 605 stars]
dl-translate - A deep learning-based translation library built on Huggingface transformers [GitHub, 440 stars]
CTranslate2 - CTranslate2 end-to-end machine translation [GitHub, 3300 stars]

Entity and String Matching

PolyFuzz - Fuzzy string matching, grouping, and evaluation [GitHub, 736 stars]
pyahocorasick - Python module implementing Aho-Corasick algorithm for string matching [GitHub, 937 stars]
fuzzywuzzy - Fuzzy String Matching in Python [GitHub, 9220 stars]
jellyfish - approximate and phonetic matching of strings [GitHub, 2049 stars]
textdistance - Compute distance between sequences [GitHub, 3367 stars]
DeepMatcher - Compute distance between sequences [GitHub, 555 stars]
RE2 - Simple and Effective Text Matching with Richer Alignment Features [GitHub, 339 stars]
Machamp - Machamp: A Generalized Entity Matching Benchmark [GitHub, 17 stars]

Análisis del discurso

ConvoKit - Cornell Conversational Analysis Toolkit [GitHub, 543 stars]

PII scrubbing

scrubadub - Clean personally identifiable information from dirty dirty text [GitHub, 394 stars]

Hastag Segmentation

hashformers - automatically inserting the missing spaces between the words in a hashtag [GitHub, 68 stars]

Books Analysis / Literary Analysis / Semantic Search

booknlp - a natural language processing pipeline that scales to books and other long documents (in English) [GitHub, 785 stars]
bookworm - ingests novels, builds an implicit character network and a deeply analysable graph [GitHub, 76 stars]
SemanticFinder - frontend-only live semantic search with transformers.js [GitHub, 224 stars]

Non-English oriented

japonés

fugashi - Cython MeCab wrapper for fast, pythonic Japanese tokenization and morphological analysis [GitHub, 391 stars]
SudachiPy - SudachiPy is a Python version of Sudachi, a Japanese morphological analyzer [GitHub, 390 stars]
Konoha - easy-to-use Japanese Text Processing tool, which makes it possible to switch tokenizers with small changes of code [GitHub, 226 stars]
jProcessing - Japanese Natural Langauge Processing Libraries [GitHub, 148 stars]
Ginza - Japanese NLP Library using spaCy as framework based on Universal Dependencies [GitHub, 745 stars]
kuromoji - self-contained and very easy to use Japanese morphological analyzer designed for search [GitHub, 953 stars]
nagisa - Japanese tokenizer based on recurrent neural networks [GitHub, 382 stars]
KyTea - Kyoto Text Analysis Toolkit for word segmentation and pronunciation estimation [GitHub, 201 stars]
Jigg - Pipeline framework for easy natural language processing [GitHub, 74 stars]
Juman++ - Juman++ (a Morphological Analyzer Toolkit) [GitHub, 376 stars]
RakutenMA - morphological analyzer (word segmentor + PoS Tagger) for Chinese and Japanese written purely in JavaScript [GitHub, 473 stars]
toiro - a comparison tool of Japanese tokenizers [GitHub, 118 stars]

tailandés

AttaCut - Fast and Reasonably Accurate Word Tokenizer for Thai [GitHub, 79 stars]
ThaiLMCut - Word Tokenizer for Thai Language [GitHub, 15 stars]

Chino

Spacy-pkuseg - The pkuseg toolkit for multi-domain Chinese word segmentation [GitHub, 53 stars]

ucranio

recruitment-dataset - Recruitment Dataset Preprocessing and Recommender System (Ukrainian, English)

Otro

textblob-de - TextBlob: Simplified Text Processing for German [GitHub, 103 stars]
Kashgari Transfer Learning with focus on Chinese [GitHub, 2389 stars]
Underthesea - Vietnamese NLP Toolkit [GitHub, 1383 stars]
PTT5 - Pretraining and validating the T5 model on Brazilian Portuguese data [GitHub, 84 stars]

Text Data Labelling & Classification

Small-Text - Active Learning for Text Classifcation in Python [GitHub, 549 stars]
Doccano - open source annotation tool for machine learning practitioners [GitHub, 9460 stars]
Adala - Autonomous DAta (Labeling) Agent framework [GitHub, 927 stars]
EDA - Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks [GitHub, 1585 stars]
? Prodigy - annotation tool powered by active learning [Paid Service]

Note Section keywords: learn NLP

? Back to the Table of Contents

General

? Learn NLP the practical way [Blog, Nov. 2019]
? Learn NLP the Stanford way (+Part 2) [Blog, Nov 2020]
? Choosing the right course for a Practical NLP Engineer
? 12 Best Natural Language Processing Courses & Tutorials to Learn Online
Treasure of Transformers - Natural Language processing papers, videos, blogs, official repos along with colab Notebooks [GitHub, 912 stars]
?️ Rasa Algorithm Whiteboard - YouTube series by Rasa explaining various Data Science and NLP Algorithms
?️ ExplosionAI Videos - YouTube series by ExplosionAI teaching you how to use spacy and apply it for NLP

Cursos

?️ CS25: Transformers United Stanford - Fall 2021 [Course, Fall 2021]
? NLP Course | For You - Great and interactive course on NLP
? Advanced NLP with spaCy - how to use spaCy to build advanced natural language understanding systems
? Transformer models for NLP by HuggingFace
?️ Stanford NLP Seminar - slides from the Stanford NLP course

Libros

? Natural Language Processing with Transformers - [Book, February 2022]
? Applied Natural Language Processing in the Enterprise - [Book, May 2021]
? Practical Natural Language Processing - [Book, June 2020]
? Dive into Deep Learning - An interactive deep learning book with code, math, and discussions
? Natural Language Processing and Computational Linguistics - Speech, Morphology and Syntax (Cognitive Science)
? Top NLP Books to Read 2020 - Blog post by Raymong Cheng [Blog, Sep 2020]

Tutoriales

nlp-tutorial - A list of NLP(Natural Language Processing) tutorials built on PyTorch [GitHub, 1366 stars]
nlp-tutorial - Natural Language Processing Tutorial for Deep Learning Researchers [GitHub, 14110 stars]
Hands-On NLTK Tutorial [GitHub, 540 stars]
Modern Practical Natural Language Processing [GitHub, 266 stars]
Transformers-Tutorials - demos with the Transformers library by HuggingFace [GitHub, 9176 stars]
CalmCode Tutorials - Set of Python Data Science Tutorials

r/LanguageTechnology - NLP Reddit forum

? Back to the Table of Contents

Tokenization

tokenizers - Fast State-of-the-Art Tokenizers optimized for Research and Production [GitHub, 8940 stars]
SentencePiece - Unsupervised text tokenizer for Neural Network-based text generation [GitHub, 10141 stars]
SoMaJo - A tokenizer and sentence splitter for German and English web and social media texts [GitHub, 135 stars]

Data Augmentation and Weak Supervision

Libraries and Frameworks

WildNLP Text manipulation library to test NLP models [GitHub, 76 stars]
NLPAug Data augmentation for NLP [GitHub, 4419 stars]
SentAugment Data augmentation by retrieving similar sentences from larger datasets [GitHub, 363 stars]
TextAttack - framework for adversarial attacks, data augmentation, and model training in NLP [GitHub, 2922 stars]
skweak - software toolkit for weak supervision applied to NLP tasks [GitHub, 917 stars]
NL-Augmenter - Collaborative Repository of Natural Language Transformations [GitHub, 773 stars]
EDA - Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks [GitHub, 1585 stars]
snorkel Framework to generate training data [GitHub, 5791 stars]
dialoguefactory Generate continuous dialogue data in a simulated textual world [GitHub, 5 stars]

Reading Material and Tutorials

A Survey of Data Augmentation Approaches for NLP [Paper, May 2021] GitHub Link
? A Visual Survey of Data Augmentation in NLP [Blog, 2020]
? Weak Supervision: A New Programming Paradigm for Machine Learning [Blog, March 2019]

Named Entity Recognition (NER)

Datasets for Entity Recognition [GitHub, 1497 stars]
Datasets to train supervised classifiers for Named-Entity Recognition [GitHub, 338 stars]
Bootleg - Self-Supervision for Named Entity Disambiguation at the Tail [GitHub, 212 stars]
Few-NERD - Large-scale, fine-grained manually annotated named entity recognition dataset [GitHub, 385 stars]

Extracción de relación

tacred-relation TACRED: position-aware attention model for relation extraction [GitHub, 355 stars]
tacrev TACRED Revisited: A Thorough Evaluation of the TACRED Relation Extraction Task [GitHub, 69 stars]
tac-self-attention Relation extraction with position-aware self-attention [GitHub, 64 stars]
Re-TACRED Re-TACRED: Addressing Shortcomings of the TACRED Dataset [GitHub, 51 stars]

Resolución de coreferencia

NeuralCoref 4.0: Coreference Resolution in spaCy with Neural Networks by HuggingFace [GitHub, 2850 stars]
coref - BERT and SpanBERT for Coreference Resolution [GitHub, 443 stars]

Análisis de sentimientos

Reading list for Awesome Sentiment Analysis papers by declare-lab [GitHub, 517 stars]
Awesome Sentiment Analysis by xiamx [GitHub, 913 stars]

Domain Adaptation

Neural Adaptation in Natural Language Processing - curated list [GitHub, 261 stars]

Low Resource NLP

CMU LTI Low Resource NLP Bootcamp 2020 - CMU Language Technologies Institute low resource NLP bootcamp 2020 [GitHub, 597 stars]

Spell Correction / Error Correction

Gramformer - ramework for detecting, highlighting and correcting grammatical errors [GitHub, 1502 stars]
NeuSpell - A Neural Spelling Correction Toolkit [GitHub, 665 stars]
SymSpellPy - Python port of SymSpell [GitHub, 796 stars]
? Speller100 by Microsoft [Blog, Feb 2021]
JamSpell - spell checking library - accurate, fast, multi-language [GitHub, 608 stars]
pycorrector - spell correction for Chinese [GitHub, 5517 stars]
contractions - Fixes contractions such as you're to you are [GitHub, 308 stars]
? Fine Tuning T5 for Grammar Correction by Sachin Abeywardana [Blog, Nov 2022]

Style Transfer for NLP

Styleformer - Neural Language Style Transfer framework [GitHub, 475 stars]
StylePTB - A Compositional Benchmark for Fine-grained Controllable Text Style Transfer [GitHub, 60 stars]

Automata Theory for NLP

pyahocorasick - Python module implementing Aho-Corasick algorithm for string matching [GitHub, 937 stars]

Obscene words detection

LDNOOBW - List of Dirty, Naughty, Obscene, and Otherwise Bad Words [GitHub, 2899 stars]

Reddit Analysis

Subreddit Analyzer - comprehensive Data and Text Mining workflow for submissions and comments from any given public subreddit [GitHub, 489 stars]

Skill Detection

SkillNER - rule based NLP module to extract job skills from text [GitHub, 153 stars]

Reinforcement Learning for NLP

nlp-gym - NLPGym - A toolkit to develop RL agents to solve NLP tasks [GitHub, 192 stars]

AutoML / AutoNLP

AutoNLP - Faster and easier training and deployments of SOTA NLP models [GitHub, 3836 stars]
TPOT - Python Automated Machine Learning tool [GitHub, 9691 stars]
Auto-PyTorch - Automatic architecture search and hyperparameter optimization for PyTorch [GitHub, 2359 stars]
HungaBunga - Brute-Force all sklearn models with all parameters using .fit .predict [GitHub, 710 stars]
? AutoML Natural Language - Google's paid AutoML NLP service
Optuna - hyperparameter optimization framework [GitHub, 10650 stars]
FLAML - fast and lightweight AutoML library [GitHub, 3871 stars]
Gradsflow - open-source AutoML & PyTorch Model Training Library [GitHub, 306 stars]

OCR - Optical Character Recognition

?️ A framework for designing document processing solutions [Blog, June 2022]

Document AI

? Table Transformer + HuggingFace Models

Generación de texto

keytotext - a model which will take keywords as inputs and generate sentences as outputs [GitHub, 445 stars]
? Controllable Neural Text Generation [Blog, Jan 2021]
BARTScore Evaluating Generated Text as Text Generation [GitHub, 317 stars]