
Este pandecto (πανδέκτης es el griego antiguo para la enciclopedia) fue creado para ayudarlo a encontrar casi cualquier cosa relacionada con el procesamiento del lenguaje natural que esté disponible en línea.
Nota Legend rápida en los tipos de recursos disponibles:
- Proyecto de código abierto, generalmente un repositorio de GitHub con su número de estrellas
? - Recurso que puede leer, generalmente una publicación de blog o un artículo
- Una colección de recursos adicionales
? - Herramienta de origen no abierta, marco o servicio pagado
? ️ - Un recurso que puedes ver
? ️ - Un recurso que puedes escuchar
| ? Sección principal | ? ️ Muestra de subsecciones |
|---|
| Recursos de PNL | Resúmenes en papel, resúmenes de conferencias, conjuntos de datos de PNL |
| Podcasts NLP | Podcasts solo por NLP, podcasts con muchos episodios de PNL |
| Boletines de la PNL | - |
| Meetups de PNL | - |
| Canales de YouTube NLP | - |
| Puntos de referencia de PNL | NLU general, respuesta de preguntas, multilingüe |
| Recursos de investigación | Recurso sobre modelos de transformadores, destilación y poda, resumen automatizado |
| Recursos de la industria | Las mejores prácticas para los sistemas PNL, MLOP para PNL |
| Reconocimiento de voz | Recursos generales, texto a discurso, discurso a texto, conjuntos de datos |
| Modelado de temas | Blogs, marcos, repositorios y proyectos |
| Extracción de palabras clave | Rango de texto, rastrillo, otros enfoques |
| PNL responsable | NLP y ML Interpretabilidad, ética, sesgo e igualdad en PNL, ataques adversos para PNL |
| Marcos de PNL | Propósito general, aumento de datos, traducción automática, ataques adversos, sistemas de diálogo y habla, coincidencia de entidad y cadena, marcos no ingleses, anotación de texto |
| Aprendiendo PNL | Cursos, libros, tutoriales |
| Comunidades de PNL | - |
| Otros temas de PNL | Tokenización, aumento de datos, reconocimiento de entidad nombrado, corrección de errores, Autonlp, Generación de texto |

Nota Palabras clave de la sección: resúmenes en papel, compendio, lista impresionante
Compendios y listas impresionantes sobre el tema de la PNL:
- El índice NLP - índice de búsqueda de documentos NLP por Quantum STAT / NLP Cypher
- Impresionante PNL de Keon [Github, 16528 Stars]
- Procesamiento de habla y lenguaje natural Lista impresionante de Elaboshira [Github, 2189 estrellas]
- Aprendizaje profundo impresionante para el procesamiento del lenguaje natural (PNL) [Github, 1274 estrellas]
- Recursos de minería de texto y procesamiento del lenguaje natural por paso a paso [Github, 557 estrellas]
- Brainseurces para los entusiastas de #NLP por Philip Vollet
- Impresionante AI/ML/DL - Sección NLP [GitHub, 1473 estrellas]
- Artículos de PNL por Devopedia
Conferencias de PNL, resúmenes en papel y compendios de papel:
Documentos y resúmenes de papel
- 100 documentos de la PNL de lectura imprescindible 100 documentos de la PNL de lectura obligada [Github, 3732 estrellas]
- Resúmenes de papel de la PNL por Dair-AI [Github, 1475 estrellas]
- Colección curada de documentos para el practicante de la PNL [Github, 1075 estrellas]
- Documentos sobre ataque adversario textual y defensa [Github, 1501 estrellas]
- Documentos recientes de aprendizaje profundo en NLU y RL por Valentin Malykh [Github, 296 estrellas]
- Una encuesta de encuestas (NLP y ML): Colección de documentos de encuestas de PNL [Github, Stars de 1997]
- Una lista de papel para la transferencia de estilo en el texto [Github, 1609 estrellas]
- ? Índice de grabaciones de video para documentos
Resúmenes de la conferencia
- Compendio de las 10 conferencias principales de la PNL por Soulbliss [Github, 459 estrellas]
- ? Tendencias de ICLR 2020
- ? Conferencia Spacyirl 2019 en descripción general
- ? Digest de papel: conferencias y documentos en descripción general
Progreso de PNL y tareas de PNL:
- Progreso de la PNL por Sebastianruder [Github, 22568 estrellas]
- Tareas de PNL por Kyubyong [Github, 3017 estrellas]
Conjuntos de datos NLP:
- Conjuntos de datos NLP de Niderhoff [Github, 5741 estrellas]
- Conjuntos de datos de Huggingface [Github, 19096 estrellas]
- Base de datos NLP Big Bad
- Anotaciones de palabras inequívocas de UWA - conjunto de datos de desambiguación del sentido de las palabras
- MLDOC - Corpus para la clasificación de documentos multilingües en ocho idiomas [Github, 152 estrellas]
Incrustaciones de palabras y oraciones:
- Impresionantes modelos de incrustación de Hironsan [Github, 1752 estrellas]
- Impresionante lista de incrustaciones de oraciones de Separius [Github, 2219 estrellas]
- Awesome Bert de Jiakui [Github, 1846 estrellas]
Cuadernos, guiones y repositorios
- El repositorio de Super Duper NLP [Sitio web, 2020]
Recursos y compendios que no son ingleses
- Recursos de PNL para Bahasa Indonesia [Github, 480 estrellas]
- CATÁLOGO DE NLP IND [GITHUB, 552 estrellas]
- Modelos lingüísticos previamente capacitados para vietnamitas [Github, 653 estrellas]
- Kit de herramientas de lenguaje natural para idiomas indic (inltk) [Github, 814 estrellas]
- Biblioteca indic NLP [GitHub, 550 estrellas]
- Portal Ai4bharat-Indicnlp
- ARBML - Implementación de muchos proyectos de NLP y ML en árabe [GitHub, 387 estrellas]
- Zemberek -NLP - Herramientas NLP para turco [Github, 1146 estrellas]
- TDD AI: una plataforma de código abierto para todos los conjuntos de datos turcos, modelos de idiomas y herramientas de PNL.
- Klue - Evaluación de comprensión del idioma coreano [Github, 560 estrellas]
- Persian NLP Benchmark: punto de referencia para la evaluación y comparación de varias tareas de PNL en idioma persa [Github, 73 estrellas]
- NLP -Greek - Fuentes de idiomas griegos [Github, 5 estrellas]
- Impresionantes recursos de la PNL para húngaro [Github, 221 estrellas]
Modelos PNL previamente capacitados
- Lista de modelos de PNL pretrontrados [Github, 170 estrellas]
- Modelos lingüísticos previos a la aparición desarrollados por el laboratorio Ark de Huawei Noah [Github, 3019 estrellas]
- Modelos y recursos en el idioma español [Github, 251 estrellas]
Historia de la PNL
General
- Técnicas modernas de aprendizaje profundo aplicados al procesamiento del lenguaje natural [Github, 1328 estrellas]
- ? Una revisión de la historia neuronal del procesamiento del lenguaje natural [Blog, octubre de 2018]
2020 año en revisión
- ? Procesamiento del lenguaje natural en 2020: El año en revisión [Blog, diciembre de 2020]
- ? Lo más destacado de la investigación de ML y NLP de 2020 [Blog, enero de 2021]
? Volver a la tabla de contenido
Podcasts solo para PNL
- ? ️ NLP destacados [Años: 2017 - Ahora, Estado: Activo]
- "Episodios de la zona NLP [años: 2021 - Ahora, estado: activo]
Muchos episodios de PNL
- ? ️ Twiml ai [Años: 2016 - ahora, estado: activo]
- "AI práctico [Años: 2018 - Ahora, Estado: Activo]
- ? ️ El intercambio de datos [años: 2019 - Ahora, estado: activo]
- ? ️ Gradiente disidencia [Años: 2020 - Ahora, estado: activo]
- ? ️ Machine Learning Street Talk [Años: 2020 - Ahora, Estado: Activo]
- ? ️ Arrancar datos: las últimas tendencias e ideas sobre cómo escalar el impacto de la ciencia de datos en las organizaciones [años: 2019 - ahora, estado: activo]
Algunos episodios de PNL
- ? ️ El podcast de Super Data Science [Años: 2016 - Ahora, Estado: Activo]
- ? ️ Data Hack Radio [Años: 2018 - Ahora, Estado: Activo]
- ? ️ Changers de juego de IA [Años: 2020, Estado: Activo]
- "El análisis de análisis [Años: 2019 - Ahora, estado: activo]
- ? PNLP News de Sebastian Ruder
- ? Esta semana en la PNL por Robert Dale
- ? Documentos con código
- ? El lote de Deeplearning.ai
- ? Digest de papel por PaperDigest
- ? NLP Cypher de QuantumStat
- ? NLP Zurich [grabaciones de YouTube]
- ? Pirateo-maquina-aprendizaje [grabaciones de YouTube]
- ? NY-NLP (Nueva York)
- ? Yannic Kilcher
- ? Cara de abrazo
- ? Grupo de lectura de Kaggle
- ? Reading de papel rasa
- ? Stanford CS224N: PNL con aprendizaje profundo
- ? Nlpxing
- ? ML explicó - AI Círculos Socráticos - AISC
- ? Deeplearning.ai
- ? Talk de Street de aprendizaje automático
? Volver a la tabla de contenido
NLU general
- Glue: punto de referencia de evaluación general de comprensión del lenguaje (pegamento)
- SUPERGULAR - PELÍCULO DE REGRESO A Tras el pegamento con un nuevo conjunto de tareas de comprensión de idiomas más difíciles
- DECANLP - El lenguaje natural Decatlon (Decanlp) para estudiar modelos generales de PNL
- Dialoglue - Dialoglue: un punto de referencia de comprensión de lenguaje natural para el diálogo orientado a tareas [GitHub, 280 estrellas]
- Dynabench - Dynabench es una plataforma de investigación para la recopilación y la evaluación comparativa de datos dinámicos
- Big Bench: punto de referencia colaborativo para medir y extrapolar las capacidades de los modelos de idiomas [Github, 2835 estrellas]
Resumen
- Wikiasp-wikiasp: conjunto de datos de resumen basado en aspectos de varios documentos
- Wikilingua: un conjunto de datos de resumen abstractivo multilingüe
Respuesta de preguntas
- Escuadrón - Stanford Pregunta Contestador de datos (Escuadrón)
- XQUAD-XQUAD (conjunto de datos de respuesta a preguntas interlingües) para la respuesta de preguntas interlingües
- Grailqa - Respuesta de preguntas muy generalizable (Grailqa)
- CSQA - Respuesta de preguntas secuenciales complejas
Puntos de referencia multilingües y no ingleses
- ? Xtreme: un punto de referencia multilingüe multilingüe masivo
- Gluecos: un punto de referencia para NLP conmutado por código
- INDGLUE - Lenguaje natural Comprensión de la referencia para idiomas indicados
- LINCE - CONTRACIÓN DE EVALUACIÓN DE CÓDIGO LINGUNSTICO
- Supergegador ruso - Partido de Supergle de Rusia
Bio, ley y otros dominios científicos
- PROBAJE - PARTIR ENTENDIMIENTO DEL LENGUA BIOMEDICAL Y RAPAYO DE RETILLA
- Blue - Lenguaje biomédico Comprensión de la evaluación de referencia de evaluación
- LexGlue: un conjunto de datos de referencia para la comprensión del lenguaje legal en inglés
Eficiencia del transformador
- Arena de largo alcance: arena de largo alcance para transformadores eficientes de evaluación comparativa (preimpresión) [GitHub, 716 estrellas]
Procesamiento del habla
- Excelente - Procesamiento de voz de referencia de rendimiento universal
Otro
- CodExGlue: un conjunto de datos de referencia para Code Intelligence
- Crossner - Crossner: Evaluación de reconocimiento de entidad con nombre de dominio cruzado
- Multinli - Corpus de inferencia de lenguaje natural de múltiples generos
- Isarcasmo: un conjunto de datos del sarcasmo previsto: el isarcasmo es un conjunto de datos de tweets, cada uno etiquetado como sarcástico o no_sarcástico
? Volver a la tabla de contenido
General
- ? Una receta para capacitar a las redes neuronales de Andrej Karpathy [Palabras clave: investigación, capacitación, 2019]
- ? Avances recientes en PNL a través de grandes modelos de idiomas previamente capacitados: una encuesta [documento, noviembre de 2021]
Incrustaciones
Repositorios
- Representaciones de elmo previamente capacitadas para muchos idiomas [Github, 1458 estrellas]
- Sense2Vec - Vectores de palabras de teclas contextualmente [GitHub, 1617 estrellas]
- wikipedia2vec [Github, 935 estrellas]
- StarSpace [Github, 3938 estrellas]
- FastText [Github, 25871 estrellas]
Blogs
- ? Modelos de idiomas e incrustaciones de palabras contextualizadas por David S. Batista [Blog, 2018]
- ? Una guía esencial para incrustaciones de palabras previas a los practicantes para los profesionales de PNL por Analyticsvidhya [Blog, 2020]
- ? Polyglot Word Incremedings Descubre clústeres de lenguaje [Blog, 2020]
- ? El Ilustrado Word2Vec de Jay Alammar [Blog, 2019]
Incrustaciones de palabras y oraciones interlingües
- VECMAP - VECMAP (Mapeos de incrustación de palabras interlingües) [GitHub, 644 estrellas]
- Transformadores de oraciones: incrustaciones multilingües de oraciones e imágenes con Bert [Github, 14981 estrellas]
Codificación de pares de bytes
- BPEMB-Incruscaciones de subvención previamente entrenadas en 275 idiomas, basados en la codificación de pares de bytes (BPE) [GitHub, 1179 estrellas]
- SUB PALABRA -NMT - Segmentación de palabras no supervisada para la traducción y generación de texto de la máquina neuronal [GitHub, 2185 estrellas]
- Python -BPE - Byte Par Coding for Python [Github, 223 estrellas]
Arquitecturas basadas en transformadores
General
- ? La familia Transformer de Lilian Weng [Blog, 2020]
- ? Jugar la lotería con recompensas y varios idiomas, sobre el efecto de la inicialización aleatoria [documento ICLR 2020]
- ? ¿Atención? ¡Atención! por Lilian Weng [Blog, 2018]
- ? el transformador ... "explicado"? [Blog, 2019]
- ? ️ La atención es todo lo que necesitas; Modelos de redes neuronales atencionales de łukasz Kaiser [Talk, 2017]
- ? La atención está apagada por uno [julio de 2023]
- ? ️ Comprender y aplicar la autoatención para la PNL [Talk, 2018]
- ? El libro de cocina de la PNL: recetas modernas para arquitecturas de aprendizaje profundo basados en transformadores [documento, abril de 2021]
- ? Modelos previamente capacitados: pasado, presente y futuro [documento, junio de 2021]
- ? Una encuesta de Transformers [documento, junio de 2021]
Transformador
- ? El transformador anotado de Harvard NLP [Blog, 2018]
- ? El transformador ilustrado de Jay Alammar [Blog, 2018]
- ? Guía ilustrada para transformadores de Hong Jing [Blog, 2020]
- ? Transformador secuencial con capacidad de atención adaptativa por Facebook. Blog [Blog, 2019]
- ? Evolución de las representaciones en el transformador de Lena Voita [Blog, 2019]
- ? Reformador: El transformador eficiente [Blog, 2020]
- ? Longformer: el transformador de documentos largos de Viktor Karlsson [Blog, 2020]
- ? Transformers de Scratch [Blog, 2019]
- ? Transformadores en el procesamiento del lenguaje natural: una breve encuesta de George Ho [Blog, mayo de 2020]
- Transformador Lite - Transformador Lite con atención a largo plazo [Github, 596 estrellas]
- ? Transformers de Scratch [Blog, octubre de 2021]
Bert
- ? Una guía visual para usar Bert por primera vez de Jay Alammar [Blog, 2019]
- ? The Dark Secrets of Bert de Anna Rogers [Blog, 2020]
- ? Comprender las búsquedas mejor que nunca [Blog, 2019]
- ? Desmitificante de Bert: una guía completa para el innovador marco de la PNL [Blog, 2019]
- Sembert - Semántica -Consciente Bert para la comprensión del idioma [Github, 286 estrellas]
- Bertweet - Bertweet: un modelo de idioma pre -entrenado para tweets en inglés [Github, 574 estrellas]
- Extracción de subarquitectura óptima para Bert [Github, 470 estrellas]
- CARACTERBERT: Reconciliando Elmo y Bert [Github, 195 estrellas]
- ? Cuando Bert toca la lotería, todas las entradas están ganando [Blog, diciembre de 2020]
- Documentos relacionados con Bert una lista de documentos relacionados con Bert [Github, 2032 estrellas]
Otras variantes del transformador
T5
- ? T5 Comprensión de arquitecturas auto-supervisadas basadas en transformadores [Blog, agosto de 2020]
- ? T5: El transformador de transferencia de texto a texto [Blog, 2020]
- Multilingüe-T5-T5 multilingüe (MT5) es un modelo de transformador de texto a texto pretralado masivamente multilingüe [GitHub, 1245 estrellas]
Pájaro grande
- ? Big Bird: Transformers para secuencias más largas Documento original de Google Research [Documento, julio de 2020]
Reformador / Linformer / Longformer / artistas
- Reformador: el transformador eficiente - [Documento, febrero de 2020] [Video, octubre de 2020]
- ? ️ Longformer: El transformador de documentos largos - [Paper, abril de 2020] [Video, abril de 2020]
- ? ️ Linformer: Autoatención con complejidad lineal - [Paper, junio de 2020] [Video, junio de 2020]
- ? ️ Repensar la atención con los artistas - [Documento, septiembre de 2020] [Video, septiembre de 2020]
- Performer-Pytorch: una implementación de Performer, un transformador basado en la atención lineal, en Pytorch [Github, 1084 Stars]
Transformador de interruptor
- ? Transformadores de interruptor: escala a modelos de parámetros de billones de parámetros Papel original por Google Research [documento, enero de 2021]
GPT-Familia
General
- ? El ilustrado GPT-2 de Jay Alammar [Blog, 2019]
- ? El anotado GPT-2 por Aman Arora
- ? GPT-2 de OpenAI: The Model, The Hype y The Controversy de Ryan Lowe [Blog, 2019]
- ? Cómo generar texto de Patrick Von Platen [Blog, 2020]
GPT-3
Recursos de aprendizaje
- ? Aprendizaje de SHOT cero para la clasificación de texto por Amit Chaudhary [Blog, 2020]
- ? GPT-3 Un breve resumen de Leo Gao [Blog, 2020]
- ? GPT-3, un paso gigante para el aprendizaje profundo y la PNL de Yoel Zeldes [Blog, junio de 2020]
- ? Modelo de idioma GPT-3: una descripción técnica de Chuan Li [Blog, junio de 2020]
- ? ¿Es posible que los modelos de idiomas logren la comprensión del lenguaje? por Christopher Potts
Aplicaciones
- Impresionante GPT-3-Lista de todos los recursos relacionados con GPT-3 [GitHub, 4589 estrellas]
- Proyectos GPT-3: un mapa de todas las nuevas empresas GPT-3 y proyectos comerciales
- GPT-3 Demo Showcase-GPT-3 Demo Showcase, más de 180 aplicaciones, ejemplos y recursos
- ? OPERAI API - API Demo para usar OpenAI GPT para aplicaciones comerciales
Esfuerzos de código abierto
- ? GPT-NEO-HUB GPT-3 Open Source Replication Hub
- GPT -J - Un parámetro de 6 mil millones, modelo de generación de texto autorregresivo entrenado en la pila
- ? Uso de manera efectiva GPT-J con aprendizaje de pocos disparos [Blog, julio de 2021]
Otro
- ? ¿Qué es la autoatención de dos flores en XLNet por Xu Liang [Blog, 2019]
- ? Resumen del documento visual: Albert (A Lite Bert) de Amit Chaudhary [Blog, 2020]
- ? Turing NLG de Microsoft
- ? Clasificación de texto de múltiples etiquetas con XLNet por Josh Xin Jie Lee [Blog, 2019]
- Electra [Github, 2326 estrellas]
- Implementación del artista del artista, un transformador lineal basado en la atención, en Pytorch [Github, 1084 estrellas]
Destilación, poda y cuantificación
Material de lectura
- ? Destilar el conocimiento de las redes neuronales para construir modelos más pequeños y más rápidos de Floydhub [Blog, 2019]
- ? Compresión de modelos de aprendizaje profundo para texto: una encuesta [documento, abril de 2021]
Herramientas
- BERT-SQUEEZE-Código para reducir el tamaño de los modelos basados en transformadores o disminuir su latencia en un tiempo de inferencia [GitHub, 79 estrellas]
- Xtremedistil - Xtremedistiltransformers para destilar redes neuronales multilingües masivas [Github, 153 estrellas]
Resumen automatizado
- ? Pegaso: un modelo de vanguardia para resumen de texto abstractivo por Google AI [Blog, junio de 2020]
- Ctrlsum - Ctrlsum: hacia el resumen genérico de texto controlable [Github, 146 estrellas]
- XL-SUM-XL-SUM: resumen abstracto multilingüe a gran escala para 44 idiomas [GitHub, 252 estrellas]
- Summertime: un conjunto de herramientas de resumen de texto de código abierto para no expertos [GitHub, 265 estrellas]
- Primer-Primer: pretruamiento enmascarado de oración enmascarada a base de pirámide para resumen de documentos múltiples [GitHub, 151 estrellas]
- Resumen: modelos para resumen de abstracción automática [Github, 170 estrellas]
Gráficos de conocimiento y PNL
- ? Fusionar el conocimiento en el modelo de idioma [Presentación, octubre de 2021]
Nota Palabras clave de la sección: Mejores prácticas, MLOPS
? Volver a la tabla de contenido
Las mejores prácticas para construir proyectos de PNL
- ? En busca de las mejores prácticas para proyectos de PNL [diapositivas, diciembre de 2020]
- ? EMNLP 2020: Procesamiento de lenguaje natural de alto rendimiento por Google Research, grabación, noviembre de 2020]
- ? Procesamiento práctico de lenguaje natural: una guía completa para construir sistemas de PNL del mundo real [Libro, junio de 2020]
- ? Cómo estructurar y administrar proyectos de PNL [Blog, mayo de 2021]
- ? Pensamiento de PNL aplicado - Pensamiento de PNL aplicado: Cómo traducir problemas en soluciones [Blog, junio de 2021]
- ? Introducción a la PNL para uso de la industria - Presentación de DataTalksClub sobre Introducción a PNL para uso de la industria [Registro, diciembre de 2021]
- ? Medición de la deriva de incrustación: las mejores prácticas para monitorear la deriva de los modelos de PNL [blog, diciembre de 2022]
MLOP para PNL
Los MLOP, especialmente cuando se aplican a PNL, son un conjunto de mejores prácticas en torno a la automatización de varias partes del flujo de trabajo al construir y implementar tuberías de PNL.
En general, MLOPS para PNL incluye tener los siguientes procesos en su lugar:
- Versión de datos : asegúrese de que su entrenamiento, anotación y otros tipos de datos estén versiones y rastreados
- Seguimiento de experimentos : asegúrese de que todos sus experimentos se rastreen y guarden automáticamente donde se puedan replicar o volver a reproducirse fácilmente
- Registro de modelos : asegúrese de que los modelos neuronales que entrenen sean versados y rastreados y es fácil volver a cualquiera de ellos
- Pruebas automatizadas y pruebas de comportamiento : además de las pruebas regulares de la unidad y la integración, desea tener pruebas de comportamiento que verifiquen el sesgo o los posibles ataques adversos
- Despliegue y servicio del modelo : automatizar la implementación del modelo, idealmente también con implementos de tiempo cero hacia abajo como azules/verdes, implementos canarios, etc.
- Observabilidad de datos y modelo : rastrear la deriva de datos, la deriva de precisión del modelo, etc.
Además, hay dos componentes más que no son tan frecuentes para NLP y se utilizan principalmente para la visión por computadora y otros subcampos de IA:
- Tienda de funciones : almacenamiento centralizado de todas las características desarrolladas para modelos ML que el proyecto ML puede reutilizar fácilmente
- Gestión de metadatos : almacenamiento para toda la información relacionada con el uso de modelos ML, principalmente para reproducir el comportamiento de los modelos ML implementados, el seguimiento de artefactos, etc.
Compilaciones de MLOPS y listas impresionantes
- Awesome-Mlops [Github, 12526 estrellas]
- Mejor de ML-Python [Github, 16309 estrellas]
- Mlops.toys: una lista curada de proyectos de MLOPS
Material de lectura
- ? Operaciones de aprendizaje automático (MLOPS): descripción general, definición y arquitectura [documento, mayo de 2022]
- ? Requisitos y arquitectura de referencia para MLOP: información de la industria [Paper, octubre de 2022]
- ? MLOPS: Qué es, por qué importa y cómo implementarlo por Neptune AI [Blog, julio de 2021]
- ? Las mejores herramientas de MLOPS que necesita conocer como científico de datos de Neptune AI [Blog, julio de 2021]
- ? Estado de MLOPS 2021 por Valohai [Blog, agosto de 2021]
- ? The Mlops Stack de Valohai [Blog, octubre de 2020]
- ? Control de versiones de datos para aplicaciones de aprendizaje automático de Megagon AI [Blog, julio de 2021]
- ? La rápida evolución de la pila canónica para el aprendizaje automático [blog, julio de 2021]
- ? MLOPS: Guía integral para principiantes [Blog, marzo de 2021]
- ? Lo que aprendí sobre MLOPS al hablar con más de 100 ML Practicantes [Blog, mayo de 2021]
- ? Modelos Challenger Datarobot: modelos de campeón/retador de MLOPS
- ? Blog del estado de MLOP por el Dr. Ori Cohen
- ? Descripción general del ecosistema MLOPS [Blog, 2021]
Material de aprendizaje
- ? MLOPS Cource por Made with ML
- ? MLOPS GITHUB - Recursos de recursos sobre cómo facilitar las operaciones de aprendizaje automático con GitHub
- ? Curso de fundamentos de observabilidad de ML Aprenda a monitorear y problemas de causa raíz con los modelos de producción de PNL de producción
Comunidades MLOPS
- La comunidad MLOPS - Blogs, Slack Group, Newsletter y más sobre MLOPS
Versión de datos
- DVC - Control de versiones de datos (DVC) rastrea modelos ML y conjuntos de datos [código abierto y abierto] Enlace a GitHub
- ? Pesos y prejuicios: herramientas para el seguimiento de experimentos y la versión de conjunto de datos [Servicio pagado]
- ? Pachyderm-Control de versiones para datos con las herramientas para construir tuberías ML/AI escalables [servicio pagado con nivel gratuito]
Seguimiento de experimentos
- MLFLOW - Plataforma de código abierto para el enlace del ciclo de vida de aprendizaje automático [código libre y de código abierto] a GitHub
- ? Pesos y prejuicios: herramientas para el seguimiento de experimentos y la versión de conjunto de datos [Servicio pagado]
- ? Neptune AI: seguimiento de experimentos y registro de modelos construido para equipos de investigación y producción [Servicio pagado]
- ? Comet ML: permite a los científicos y equipos de datos rastrear, comparar, explicar y optimizar experimentos y modelos [servicio pagado]
- ? SIGOPT - Automatizar la capacitación y ajuste, visualizar y comparar ejecuciones [servicio pagado]
- Optuna - Marco de optimización de hiperparameter [GitHub, 10650 estrellas]
- Clear ML: experimentar, orquestar, implementar y construir tiendas de datos, todo en un lugar [código libre y abierto] enlace a Github
- Metaflow-Biblioteca Python/R amigable para los humanos que ayuda a los científicos e ingenieros a construir y administrar proyectos de ciencia de datos de la vida real [Github, 8093 estrellas]
Registro modelo
- DVC - Control de versiones de datos (DVC) rastrea modelos ML y conjuntos de datos [código abierto y abierto] Enlace a GitHub
- MLFLOW - Plataforma de código abierto para el enlace del ciclo de vida de aprendizaje automático [código libre y de código abierto] a GitHub
- ModelDB - Sistema de código abierto para versiones del modelo de aprendizaje automático, metadatos y gestión de experimentos [GitHub, 1696 estrellas]
- ? Neptune AI: seguimiento de experimentos y registro de modelos construido para equipos de investigación y producción [Servicio pagado]
- ? Valohai-Tuberías ML de extremo a extremo [Servicio pagado]
- ? Pachyderm-Control de versiones para datos con las herramientas para construir tuberías ML/AI escalables [servicio pagado con nivel gratuito]
- ? Polyaxon: reproducir, automatizar y escalar sus flujos de trabajo de ciencia de datos con herramientas MLOPS de grado de producción [Servicio pagado]
- ? Comet ML: permite a los científicos y equipos de datos rastrear, comparar, explicar y optimizar experimentos y modelos [servicio pagado]
Pruebas automatizadas y pruebas de comportamiento
- Lista de verificación: más allá de la precisión: pruebas de comportamiento de los modelos de PNL [GitHub, 2003 Stars]
- TextAtack - Marco para ataques adversos, aumento de datos y entrenamiento de modelos en PNL [GitHub, 2922 estrellas]
- WILDNLP - Corrupe un texto de entrada para probar la robustez de los modelos NLP [GitHub, 76 estrellas]
- Grandes expectativas: escriba pruebas para sus datos [Github, 9874 estrellas]
- DeepChecks: paquete de Python para validar de manera integral sus modelos y datos de aprendizaje automático [GitHub, 3582 estrellas]
Desmodimento del modelo y servir
- MLFLOW - Plataforma de código abierto para el enlace del ciclo de vida de aprendizaje automático [código libre y de código abierto] a GitHub
- ? Amazon Sagemaker [Servicio pagado]
- ? Valohai-Tuberías ML de extremo a extremo [Servicio pagado]
- ? NLP Cloud - API NLP lista para producción [Servicio pagado]
- ? Saturn Cloud [servicio pagado]
- ? SELDON - Implementación de aprendizaje automático para empresas [servicio pagado]
- ? Comet ML: permite a los científicos y equipos de datos rastrear, comparar, explicar y optimizar experimentos y modelos [servicio pagado]
- ? Polyaxon: reproducir, automatizar y escalar sus flujos de trabajo de ciencia de datos con herramientas MLOPS de grado de producción [Servicio pagado]
- Torchserve: herramienta flexible y fácil de usar para servir modelos Pytorch [Github, 4174 estrellas]
- ? Kubeflow: el conjunto de herramientas de aprendizaje automático para Kubernetes [Github, 10600 estrellas]
- KFSERVING - Inferencia sin servidor en Kubernetes [GitHub, 3504 estrellas]
- ? TFX - TensorFlow Extended - Plataforma de extremo a extremo para implementar tuberías ML de producción [Servicio pagado]
- ? Pachyderm-Control de versiones para datos con las herramientas para construir tuberías ML/AI escalables [servicio pagado con nivel gratuito]
- ? Cortex: contenedores como servicio en AWS [servicio pagado]
- ? Azure Machine Learning-Ciclo de vida de aprendizaje automático de extremo a extremo [Servicio pagado]
- End2END Servidor Transformers en AWS Lambda [GitHub, 121 estrellas]
- Servicio de NLP: demo de muestra de PNL como plataforma de servicio construida con Fastapi y abrazando la cara [GitHub, 13 estrellas]
- ? Dagster - Orquestador de datos para aprendizaje automático [código abierto y abierto]
- ? VERTA - AI y implementación y operaciones de aprendizaje automático [Servicio pagado]
- Metaflow-Biblioteca Python/R amigable para los humanos que ayuda a los científicos e ingenieros a construir y administrar proyectos de ciencia de datos de la vida real [Github, 8093 estrellas]
- FlyTE - Plataforma de automatización de flujo de trabajo para datos complejos y críticos de misión y procesos ML a escala [Github, 5525 estrellas]
- MLRUN - Automatización y seguimiento del aprendizaje automático [GitHub, 1425 estrellas]
- ? Datarobot MLOPS - Datarobot Mlops proporciona un centro de excelencia para su IA de producción
Depuración modelo
- iModels - Paquete para modelado predictivo conciso, transparente y preciso [GitHub, 1375 estrellas]
- Cockpit: una herramienta de depuración práctica para entrenar redes neuronales profundas [Github, 474 estrellas]
Predicción de precisión del modelo
- Weightwatcher - Herramienta de observación de peso para predecir la precisión de las redes neuronales profundas [GitHub, 1453 estrellas]
Observabilidad de datos y modelo
General
- Arize AI: incrustación de monitoreo de deriva para modelos PNL
- Arize -Phoenix - ML Observabilidad para LLM, visión, lenguaje y modelos tabulares
- WhyLogs: estándar de código abierto para datos y registro de ML [GitHub, 2636 estrellas]
- Rubrix - Herramienta de código abierto para explorar e iterando datos para proyectos de inteligencia artificial [Github, 3843 estrellas]
- MLRUN - Automatización y seguimiento del aprendizaje automático [GitHub, 1425 estrellas]
- ? Datarobot MLOPS - Datarobot Mlops proporciona un centro de excelencia para su IA de producción
- ? Cortex: contenedores como servicio en AWS [servicio pagado]
Modelo centrado
- ? Algoritmia: minimice el riesgo con informes avanzados y seguridad y gobernanza de grado empresarial en todos los datos, modelos e infraestructura [servicio pagado]
- ? DataKu - Dataiku es para equipos que desean entregar análisis avanzados utilizando las últimas técnicas a Big Data Scale [Servicio pagado]
- Evidentemente, AI - Herramientas para analizar y monitorear modelos de aprendizaje automático [código abierto y abierto] enlace a GitHub
- ? Fiddler - Herramienta de gestión del rendimiento del modelo ML [Servicio pagado]
- ? Hidrosfera: plataforma de código abierto para administrar modelos ML [servicio pagado]
- ? VERTA - AI y implementación y operaciones de aprendizaje automático [Servicio pagado]
- ? Ops de modelos Domino: implementa y administra modelos para impulsar el impacto comercial [servicio pagado]
Datos centrados
- ? Datafold: calidad de datos a través de diferencias, perfiles y detección de anomalías [servicio pagado]
- ? Aceldata: mejorar la confiabilidad, acelerar la escala y reducir los costos en todas las tuberías de datos [servicio pagado]
- ? Bigeye: monitoreo y alerta a sus conjuntos de datos en minutos [servicio pagado]
- ? Datakin-Solución de linaje de datos de extremo a extremo en tiempo real [Servicio pagado]
- ? Monte Carlo - Integridad de datos, deriva, esquema, linaje [servicio pagado]
- ? Soda - Monitoreo de datos, pruebas y validación [Servicio pagado]
Tiendas de funciones
- ? Tecton - Tienda de funciones empresariales para aprendizaje automático [servicio pagado]
- Fiesta - Tienda de funciones de código abierto para el sitio web de aprendizaje automático [Github, 5525 estrellas]
- ? Hopsworks Store: Sistema de gestión de datos para administrar funciones de aprendizaje automático [Servicio pagado]
Gestión de metadatos
- METATATOS ML: una biblioteca para grabar y recuperar metadatos asociados con flujos de trabajo de desarrolladores y científicos de datos de ML [Github, 617 estrellas]
- ? Neptune AI: seguimiento de experimentos y registro de modelos construido para equipos de investigación y producción [Servicio pagado]
Marcos de mlops
- Metaflow-Biblioteca Python/R amigable para los humanos que ayuda a los científicos e ingenieros a construir y administrar proyectos de ciencia de datos de la vida real [Github, 8093 estrellas]
- KEDRO - Marco de Python para crear código de ciencia de datos reproducible, mantenible y modular [Github, 9883 estrellas]
- Seldon Core - MLOPS Framework para empaquetar, implementar, monitorear y administrar miles de modelos de aprendizaje automático de producción [GitHub, 4353 estrellas]
- ZENML - Marco MLOPS para crear tuberías ML reproducibles para el aprendizaje de la máquina de producción [GitHub, 3972 estrellas]
- ? Google Vertex AI: modelos ML de compilación, implementación y escala más rápido, con herramientas previas y personalizadas dentro de una plataforma AI unificada [Servicio pagado]
- Diffgram: plataforma de datos de capacitación completa para el aprendizaje automático entregado como una sola aplicación [Github, 1834 estrellas]
- ? Continual.AI: construya, implementa y operacionaliza los modelos ML de manera más fácil y rápida con una interfaz declarativa en almacenes de datos en la nube como Snowflake, BigQuery, Redshift y Databricks. [Servicio pagado]
Arquitecturas basadas en transformadores
? Volver a la tabla de contenido
General
- ? Por qué Bert falla en entornos comerciales por Intel Ai [Blog, 2020]
- ? Tuning de Bert para la clasificación de texto con la granja de Sebastian Guggisberg [Blog, 2020]
- Modelos de transformadores de pretrano en Pytorch utilizando transformadores de cara abrazados [Github, 254 estrellas]
- "PNLP práctico para el mundo real [Presentación, 2019]
- ? ️ De papel a otro: cómo implementamos Bert por Christoph Henkelmann [Talk, 2020]
Transformadores de múltiples GPU
- ParallFormers: un conjunto de herramientas de paralelización de modelo eficiente para la implementación [GitHub, 776 estrellas]
Transformadores de entrenamiento de manera efectiva
- Capacitación de Bert con presupuesto de cómputo/tiempo (académico) [Github, 309 estrellas]
Incrustaciones como servicio
- incrustación como servicio [Github, 204 estrellas]
- Bert como servicio [Github, 12399 estrellas]
Recetas de PNL Aplicaciones industriales:
- Recetas de PNL por Microsoft [Github, 6367 estrellas]
- PNLP con Python por Susanli2016 [Github, 2721 estrellas]
- Utilidades básicas para Pytorch NLP de PetroChukm [Github, 2210 estrellas]
Aplicaciones de PNL en biografía, finanzas, legales y otras industrias
- Blackstone: una tubería y modelo de Spacy para PNL en texto legal no estructurado [Github, 636 estrellas]
- Sci Spacy - Spacy Pipeline y modelos para documentos científicos/biomédicos [Github, 1688 estrellas]
- FINBERT: Precañado en presentaciones de la SEC para tareas financieras de PNL [GitHub, 197 estrellas]
- LEXNLP - Recuperación de información y extracción para texto legal real y no estructurado [GitHub, 692 estrellas]
- Nerdl y Nercrf - Tutorial sobre reconocimiento de entidad nombrado para la atención médica con Sparknlp
- Análisis de texto legal: una lista de recursos seleccionados dedicados a análisis de texto legal [Github, 613 estrellas]
- BIOIE - Una lista curada de recursos relevantes para hacer extracción de información biomédica [Github, 338 estrellas]
Nota Palabras clave de la sección: Reconocimiento de voz
? Volver a la tabla de contenido
Reconocimiento general de voz
- WAV2LETTER - KIT automático de herramientas de reconocimiento de voz [GitHub, 6370 estrellas]
- Deepspeech - Arquitectura de baidu's DeepSpeech [Github, 25166 estrellas]
- ? INCREGOS DE PALABRAS ACULTICAS POR MARIA OBEDKOVA [BLOG, 2020]
- Kaldi - Kaldi es un conjunto de herramientas para el reconocimiento de voz [Github, 14177 estrellas]
- Awesome -Kaldi - Recursos para usar Kaldi [Github, 532 estrellas]
- ESPNET-Kit de herramientas de procesamiento de voz de extremo a extremo [Github, 8355 estrellas]
- ? Hubert - Aprendizaje de representación auto -supervisada para el reconocimiento de voz, generación y compresión [Blog, junio de 2021]
Texto a la generación del habla / habla
- FastSpeech: la implementación de FastSpeech basada en Pytorch [Github, 857 estrellas]
- TTS: un conjunto de herramientas de aprendizaje profundo para texto a voz [Github, 34356 estrellas]
- ? Notebooklm - Generador de asistente personal / podcast de Google Gemini Gemini
Discurso a texto
- Whisper - Reconocimiento de voz robusto a través de una supervisión débil a gran escala, por OpenAi [Github, 68884 estrellas]
- VIBE - Herramienta GUI para trabajar con Whisper, soporte multilingüe y CUDA incluyó [GitHub, 931 estrellas]
Conjuntos de datos
- Voxpopuli - Corpus de discurso multilingüe a gran escala para el aprendizaje de representación [GitHub, 507 estrellas]
Nota Sección Palabras clave: modelado de temas
? Volver a la tabla de contenido
Blogs
- ? Modelado de temas con Pyspark y Spark NLP de Maria Obedkova [Spark, Blog, 2020]
- ? Un enfoque único para la agrupación de texto corto (teoría algorítmica) de Brittany Bowers [Blog, 2020]
Marcos para modelado de temas
- Gensim - Marco para el modelado de temas [Github, 15597 estrellas]
- Spark NLP [Github, 3826 estrellas]
Repositorios
- Top2Vec [Github, 2924 estrellas]
- Modelado de temas de explicación de correlación anclada [Github, 303 estrellas]
- Modelado de temas en espacios de incrustación [Github, 540 estrellas] papel
- TopicNet: una interfaz de alto nivel para la biblioteca Bigartm [Github, 140 estrellas]
- BERTopic - Leveraging BERT and a class-based TF-IDF to create easily interpretable topics [GitHub, 6038 stars]
- OCTIS - A python package to optimize and evaluate topic models [GitHub, 718 stars]
- Contextualized Topic Models [GitHub, 1196 stars]
- GSDMM - GSDMM: Short text clustering [GitHub, 353 stars]
Note Section keywords: keyword extraction
? Back to the Table of Contents
Text Rank
- PyTextRank - PyTextRank is a Python implementation of TextRank as a spaCy pipeline extension [GitHub, 2132 stars]
- textrank - TextRank implementation for Python 3 [GitHub, 1248 stars]
RAKE - Rapid Automatic Keyword Extraction
- rake-nltk - Rapid Automatic Keyword Extraction algorithm using NLTK [GitHub, 1061 stars]
- yake - Single-document unsupervised keyword extraction [GitHub, 1632 stars]
- RAKE-tutorial - A python implementation of the Rapid Automatic Keyword Extraction [GitHub, 375 stars]
- rake-nltk - Rapid Automatic Keyword Extraction algorithm using NLTK [GitHub, 1061 stars]
Other Approaches
- flashtext - Extract Keywords from sentence or Replace keywords in sentences [GitHub, 5583 stars]
- BERT-Keyword-Extractor - Deep Keyphrase Extraction using BERT [GitHub, 254 stars]
- keyBERT - Minimal keyword extraction with BERT [GitHub, 3471 stars]
- KeyphraseVectorizers - vectorizers that extract keyphrases with part-of-speech patterns [GitHub, 251 stars]
Further Reading
- ? Adding a custom tokenizer to spaCy and extracting keywords from Chinese texts by Haowen Jiang [Blog, Feb 2021]
- ? How to Extract Relevant Keywords with KeyBERT [Blog, June 2021]
Note Section keywords: ethics, responsible NLP
? Back to the Table of Contents
NLP and ML Interpretability
NLP-centric
- Explainability for Natural Language Processing - KDD'2021 Tutorial Slides [Presentation, August 2021]
- ecco - Tools to visuals and explore NLP language models [GitHub, 1974 stars]
- NLP Profiler - A simple NLP library allows profiling datasets with text columns [GitHub, 243 stars]
- transformers-interpret - Model explainability that works seamlessly with transformers [GitHub, 1278 stars]
- Awesome-explainable-AI - collection of research materials on explainable AI/ML [GitHub, 1400 stars]
- LAMA - LAMA is a probe for analyzing the factual and commonsense knowledge contained in pretrained language models [GitHub, 1346 stars]
General
- Language Interpretability Tool (LIT) [GitHub, 3474 stars]
- WhatLies - Toolkit to help visualise - what lies in word embeddings [GitHub, 468 stars]
- Interpret-Text - Interpretability techniques and visualization dashboards for NLP models [GitHub, 413 stars]
- InterpretML - Fit interpretable models. Explain blackbox machine learning [GitHub, 6238 stars]
- thermostat - Collection of NLP model explanations and accompanying analysis tools [GitHub, 143 stars]
- Dodrio - Exploring attention weights in transformer-based models with linguistic knowledge [GitHub, 342 stars]
- imodels - package for concise, transparent, and accurate predictive modeling [GitHub, 1375 stars]
Ethics, Bias, and Equality in NLP
- ? Bias in Natural Language Processing @EMNLP 2020 [Blog, Nov 2020]
- ?️ Machine Learning as a Software Engineering Enterprise - NeurIPS 2020 Keynote [Presentation, Dec 2020]
- Ethics in NLP - resources from ACLs Ethics in NLP track
- The Institute for Ethical AI & Machine Learning
- ? Understanding the Capabilities, Limitations, and Societal Impact of Large Language Models [Paper, Feb 2021]
- Fairness-in-AI - this package is used to detect and mitigate biases in NLP tasks [GitHub, 77 stars]
- nlg-bias - dataset + classifier tools to study social perception biases in natural language generation [GitHub, 65 stars]
- bias-in-nlp - list of papers related to bias in NLP [GitHub, 9 stars]
Adversarial Attacks for NLP
- ? Privacy Considerations in Large Language Models [Blog, Dec 2020]
- DeepWordBug - Generation of Adversarial Text Sequences to Evade Deep Learning Classifiers [GitHub, 73 stars]
- Adversarial-Misspellings - Combating Adversarial Misspellings with Robust Word Recognition [GitHub, 62 stars]
Hate Speech Analysis
- HateXplain - BERT for detecting abusive language [GitHub, 187 stars]
Note Section keywords: frameworks
? Back to the Table of Contents
Propósito general
- spaCy by Explosion AI [GitHub, 29784 stars]
- flair by Zalando [GitHub, 13855 stars]
- AllenNLP by AI2 [GitHub, 11740 stars]
- stanza (former Stanford NLP) [GitHub, 7253 stars]
- spaCy stanza [GitHub, 723 stars]
- nltk [GitHub, 13489 stars]
- gensim - framework for topic modeling [GitHub, 15597 stars]
- pororo - Platform of neural models for natural language processing [GitHub, 1279 stars]
- NLP Architect - A Deep Learning NLP/NLU library by Intel® AI Lab [GitHub, 2936 stars]
- FARM [GitHub, 1734 stars]
- gobbli by RTI International [GitHub, 275 stars]
- headliner - training and deployment of seq2seq models [GitHub, 229 stars]
- SyferText - A privacy preserving NLP framework [GitHub, 197 stars]
- DeText - Text Understanding Framework for Ranking and Classification Tasks [GitHub, 1263 stars]
- TextHero - Text preprocessing, representation and visualization [GitHub, 2882 stars]
- textblob - TextBlob: Simplified Text Processing [GitHub, 9109 stars]
- AdaptNLP - A high level framework and library for NLP [GitHub, 407 stars]
- textacy - NLP, before and after spaCy [GitHub, 2209 stars]
- texar - Toolkit for Machine Learning, Natural Language Processing, and Text Generation, in TensorFlow [GitHub, 2388 stars]
- jiant - jiant is an NLP toolkit [GitHub, 1639 stars]
Data Augmentation
- WildNLP Text manipulation library to test NLP models [GitHub, 76 stars]
- snorkel Framework to generate training data [GitHub, 5791 stars]
- NLPAug Data augmentation for NLP [GitHub, 4419 stars]
- SentAugment Data augmentation by retrieving similar sentences from larger datasets [GitHub, 363 stars]
- faker - Python package that generates fake data for you [GitHub, 17648 stars]
- textflint - Unified Multilingual Robustness Evaluation Toolkit for NLP [GitHub, 639 stars]
- Parrot - Practical and feature-rich paraphrasing framework [GitHub, 871 stars]
- AugLy - data augmentations library for audio, image, text, and video [GitHub, 4950 stars]
- TextAugment - Python 3 library for augmenting text for natural language processing applications [GitHub, 396 stars]
Adversarial NLP Attacks & Behavioral Testing
- TextAttack - framework for adversarial attacks, data augmentation, and model training in NLP [GitHub, 2922 stars]
- CleverHans - adversarial example library for constructing NLP attacks and building defenses [GitHub, 6172 stars]
- CheckList - Beyond Accuracy: Behavioral Testing of NLP models [GitHub, 2003 stars]
Transformer-oriented
- transformers by HuggingFace [GitHub, 132974 stars]
- Adapter Hub and its documentation - Adapter modules for Transformers [GitHub, 2543 stars]
- haystack - Transformers at scale for question answering & neural search. [GitHub, 16997 stars]
Dialogue Systems and Speech
- DeepPavlov by MIPT [GitHub, 6676 stars]
- ParlAI by FAIR [GitHub, 10477 stars]
- rasa - Framework for Conversational Agents [GitHub, 18726 stars]
- wav2letter - Automatic Speech Recognition Toolkit [GitHub, 6370 stars]
- ChatterBot - conversational dialog engine for creating chatbots [GitHub, 14039 stars]
- SpeechBrain - open-source and all-in-one speech toolkit based on PyTorch [GitHub, 8674 stars]
- dialoguefactory Generate continuous dialogue data in a simulated textual world [GitHub, 5 stars]
Word/Sentence-embeddings oriented
- MUSE A library for Multilingual Unsupervised or Supervised word Embeddings [GitHub, 3181 stars]
- vecmap A framework to learn cross-lingual word embedding mappings [GitHub, 644 stars]
- sentence-transformers - Multilingual Sentence & Image Embeddings with BERT [GitHub, 14981 stars]
Social Media Oriented
- Ekphrasis - text processing tool, geared towards text from social networks [GitHub, 661 stars]
Fonética
- DeepPhonemizer - grapheme to phoneme conversion with deep learning [GitHub, 352 stars]
Morfología
- LemmInflect - python module for English lemmatization and inflection [GitHub, 259 stars]
- Inflect - generate plurals, ordinals, indefinite articles [GitHub, 964 stars]
- simplemma - simple multilingual lemmatizer for Python [GitHub, 964 stars]
Multi-lingual tools
- polyglot - Multi-lingual NLP Framework [GitHub, 2309 stars]
- trankit - Light-Weight Transformer-based Python Toolkit for Multilingual NLP [GitHub, 730 stars]
Distributed NLP / Multi-GPU NLP
- Spark NLP [GitHub, 3826 stars]
- Parallelformers: An Efficient Model Parallelization Toolkit for Deployment [GitHub, 776 stars]
Traducción automática
- COMET -A Neural Framework for MT Evaluation [GitHub, 493 stars]
- marian-nmt - Fast Neural Machine Translation in C++ [GitHub, 1236 stars]
- argos-translate - Open source neural machine translation in Python [GitHub, 3771 stars]
- Opus-MT - Open neural machine translation models and web services [GitHub, 605 stars]
- dl-translate - A deep learning-based translation library built on Huggingface transformers [GitHub, 440 stars]
- CTranslate2 - CTranslate2 end-to-end machine translation [GitHub, 3300 stars]
Entity and String Matching
- PolyFuzz - Fuzzy string matching, grouping, and evaluation [GitHub, 736 stars]
- pyahocorasick - Python module implementing Aho-Corasick algorithm for string matching [GitHub, 937 stars]
- fuzzywuzzy - Fuzzy String Matching in Python [GitHub, 9220 stars]
- jellyfish - approximate and phonetic matching of strings [GitHub, 2049 stars]
- textdistance - Compute distance between sequences [GitHub, 3367 stars]
- DeepMatcher - Compute distance between sequences [GitHub, 555 stars]
- RE2 - Simple and Effective Text Matching with Richer Alignment Features [GitHub, 339 stars]
- Machamp - Machamp: A Generalized Entity Matching Benchmark [GitHub, 17 stars]
Análisis del discurso
- ConvoKit - Cornell Conversational Analysis Toolkit [GitHub, 543 stars]
PII scrubbing
- scrubadub - Clean personally identifiable information from dirty dirty text [GitHub, 394 stars]
Hastag Segmentation
- hashformers - automatically inserting the missing spaces between the words in a hashtag [GitHub, 68 stars]
Books Analysis / Literary Analysis / Semantic Search
- booknlp - a natural language processing pipeline that scales to books and other long documents (in English) [GitHub, 785 stars]
- bookworm - ingests novels, builds an implicit character network and a deeply analysable graph [GitHub, 76 stars]
- SemanticFinder - frontend-only live semantic search with transformers.js [GitHub, 224 stars]
Non-English oriented
japonés
- fugashi - Cython MeCab wrapper for fast, pythonic Japanese tokenization and morphological analysis [GitHub, 391 stars]
- SudachiPy - SudachiPy is a Python version of Sudachi, a Japanese morphological analyzer [GitHub, 390 stars]
- Konoha - easy-to-use Japanese Text Processing tool, which makes it possible to switch tokenizers with small changes of code [GitHub, 226 stars]
- jProcessing - Japanese Natural Langauge Processing Libraries [GitHub, 148 stars]
- Ginza - Japanese NLP Library using spaCy as framework based on Universal Dependencies [GitHub, 745 stars]
- kuromoji - self-contained and very easy to use Japanese morphological analyzer designed for search [GitHub, 953 stars]
- nagisa - Japanese tokenizer based on recurrent neural networks [GitHub, 382 stars]
- KyTea - Kyoto Text Analysis Toolkit for word segmentation and pronunciation estimation [GitHub, 201 stars]
- Jigg - Pipeline framework for easy natural language processing [GitHub, 74 stars]
- Juman++ - Juman++ (a Morphological Analyzer Toolkit) [GitHub, 376 stars]
- RakutenMA - morphological analyzer (word segmentor + PoS Tagger) for Chinese and Japanese written purely in JavaScript [GitHub, 473 stars]
- toiro - a comparison tool of Japanese tokenizers [GitHub, 118 stars]
tailandés
- AttaCut - Fast and Reasonably Accurate Word Tokenizer for Thai [GitHub, 79 stars]
- ThaiLMCut - Word Tokenizer for Thai Language [GitHub, 15 stars]
Chino
- Spacy-pkuseg - The pkuseg toolkit for multi-domain Chinese word segmentation [GitHub, 53 stars]
ucranio
- recruitment-dataset - Recruitment Dataset Preprocessing and Recommender System (Ukrainian, English)
Otro
- textblob-de - TextBlob: Simplified Text Processing for German [GitHub, 103 stars]
- Kashgari Transfer Learning with focus on Chinese [GitHub, 2389 stars]
- Underthesea - Vietnamese NLP Toolkit [GitHub, 1383 stars]
- PTT5 - Pretraining and validating the T5 model on Brazilian Portuguese data [GitHub, 84 stars]
Text Data Labelling & Classification
- Small-Text - Active Learning for Text Classifcation in Python [GitHub, 549 stars]
- Doccano - open source annotation tool for machine learning practitioners [GitHub, 9460 stars]
- Adala - Autonomous DAta (Labeling) Agent framework [GitHub, 927 stars]
- EDA - Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks [GitHub, 1585 stars]
- ? Prodigy - annotation tool powered by active learning [Paid Service]
Note Section keywords: learn NLP
? Back to the Table of Contents
General
- ? Learn NLP the practical way [Blog, Nov. 2019]
- ? Learn NLP the Stanford way (+Part 2) [Blog, Nov 2020]
- ? Choosing the right course for a Practical NLP Engineer
- ? 12 Best Natural Language Processing Courses & Tutorials to Learn Online
- Treasure of Transformers - Natural Language processing papers, videos, blogs, official repos along with colab Notebooks [GitHub, 912 stars]
- ?️ Rasa Algorithm Whiteboard - YouTube series by Rasa explaining various Data Science and NLP Algorithms
- ?️ ExplosionAI Videos - YouTube series by ExplosionAI teaching you how to use spacy and apply it for NLP
Cursos
- ?️ CS25: Transformers United Stanford - Fall 2021 [Course, Fall 2021]
- ? NLP Course | For You - Great and interactive course on NLP
- ? Advanced NLP with spaCy - how to use spaCy to build advanced natural language understanding systems
- ? Transformer models for NLP by HuggingFace
- ?️ Stanford NLP Seminar - slides from the Stanford NLP course
Libros
- ? Natural Language Processing with Transformers - [Book, February 2022]
- ? Applied Natural Language Processing in the Enterprise - [Book, May 2021]
- ? Practical Natural Language Processing - [Book, June 2020]
- ? Dive into Deep Learning - An interactive deep learning book with code, math, and discussions
- ? Natural Language Processing and Computational Linguistics - Speech, Morphology and Syntax (Cognitive Science)
- ? Top NLP Books to Read 2020 - Blog post by Raymong Cheng [Blog, Sep 2020]
Tutoriales
- nlp-tutorial - A list of NLP(Natural Language Processing) tutorials built on PyTorch [GitHub, 1366 stars]
- nlp-tutorial - Natural Language Processing Tutorial for Deep Learning Researchers [GitHub, 14110 stars]
- Hands-On NLTK Tutorial [GitHub, 540 stars]
- Modern Practical Natural Language Processing [GitHub, 266 stars]
- Transformers-Tutorials - demos with the Transformers library by HuggingFace [GitHub, 9176 stars]
- CalmCode Tutorials - Set of Python Data Science Tutorials
- r/LanguageTechnology - NLP Reddit forum
? Back to the Table of Contents
Tokenization
- tokenizers - Fast State-of-the-Art Tokenizers optimized for Research and Production [GitHub, 8940 stars]
- SentencePiece - Unsupervised text tokenizer for Neural Network-based text generation [GitHub, 10141 stars]
- SoMaJo - A tokenizer and sentence splitter for German and English web and social media texts [GitHub, 135 stars]
Data Augmentation and Weak Supervision
Libraries and Frameworks
- WildNLP Text manipulation library to test NLP models [GitHub, 76 stars]
- NLPAug Data augmentation for NLP [GitHub, 4419 stars]
- SentAugment Data augmentation by retrieving similar sentences from larger datasets [GitHub, 363 stars]
- TextAttack - framework for adversarial attacks, data augmentation, and model training in NLP [GitHub, 2922 stars]
- skweak - software toolkit for weak supervision applied to NLP tasks [GitHub, 917 stars]
- NL-Augmenter - Collaborative Repository of Natural Language Transformations [GitHub, 773 stars]
- EDA - Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks [GitHub, 1585 stars]
- snorkel Framework to generate training data [GitHub, 5791 stars]
- dialoguefactory Generate continuous dialogue data in a simulated textual world [GitHub, 5 stars]
Reading Material and Tutorials
- A Survey of Data Augmentation Approaches for NLP [Paper, May 2021] GitHub Link
- ? A Visual Survey of Data Augmentation in NLP [Blog, 2020]
- ? Weak Supervision: A New Programming Paradigm for Machine Learning [Blog, March 2019]
Named Entity Recognition (NER)
- Datasets for Entity Recognition [GitHub, 1497 stars]
- Datasets to train supervised classifiers for Named-Entity Recognition [GitHub, 338 stars]
- Bootleg - Self-Supervision for Named Entity Disambiguation at the Tail [GitHub, 212 stars]
- Few-NERD - Large-scale, fine-grained manually annotated named entity recognition dataset [GitHub, 385 stars]
Extracción de relación
- tacred-relation TACRED: position-aware attention model for relation extraction [GitHub, 355 stars]
- tacrev TACRED Revisited: A Thorough Evaluation of the TACRED Relation Extraction Task [GitHub, 69 stars]
- tac-self-attention Relation extraction with position-aware self-attention [GitHub, 64 stars]
- Re-TACRED Re-TACRED: Addressing Shortcomings of the TACRED Dataset [GitHub, 51 stars]
Resolución de coreferencia
- NeuralCoref 4.0: Coreference Resolution in spaCy with Neural Networks by HuggingFace [GitHub, 2850 stars]
- coref - BERT and SpanBERT for Coreference Resolution [GitHub, 443 stars]
Análisis de sentimientos
- Reading list for Awesome Sentiment Analysis papers by declare-lab [GitHub, 517 stars]
- Awesome Sentiment Analysis by xiamx [GitHub, 913 stars]
Domain Adaptation
- Neural Adaptation in Natural Language Processing - curated list [GitHub, 261 stars]
Low Resource NLP
- CMU LTI Low Resource NLP Bootcamp 2020 - CMU Language Technologies Institute low resource NLP bootcamp 2020 [GitHub, 597 stars]
Spell Correction / Error Correction
- Gramformer - ramework for detecting, highlighting and correcting grammatical errors [GitHub, 1502 stars]
- NeuSpell - A Neural Spelling Correction Toolkit [GitHub, 665 stars]
- SymSpellPy - Python port of SymSpell [GitHub, 796 stars]
- ? Speller100 by Microsoft [Blog, Feb 2021]
- JamSpell - spell checking library - accurate, fast, multi-language [GitHub, 608 stars]
- pycorrector - spell correction for Chinese [GitHub, 5517 stars]
- contractions - Fixes contractions such as
you're to you are [GitHub, 308 stars] - ? Fine Tuning T5 for Grammar Correction by Sachin Abeywardana [Blog, Nov 2022]
Style Transfer for NLP
- Styleformer - Neural Language Style Transfer framework [GitHub, 475 stars]
- StylePTB - A Compositional Benchmark for Fine-grained Controllable Text Style Transfer [GitHub, 60 stars]
Automata Theory for NLP
- pyahocorasick - Python module implementing Aho-Corasick algorithm for string matching [GitHub, 937 stars]
Obscene words detection
- LDNOOBW - List of Dirty, Naughty, Obscene, and Otherwise Bad Words [GitHub, 2899 stars]
Reddit Analysis
- Subreddit Analyzer - comprehensive Data and Text Mining workflow for submissions and comments from any given public subreddit [GitHub, 489 stars]
Skill Detection
- SkillNER - rule based NLP module to extract job skills from text [GitHub, 153 stars]
Reinforcement Learning for NLP
- nlp-gym - NLPGym - A toolkit to develop RL agents to solve NLP tasks [GitHub, 192 stars]
AutoML / AutoNLP
- AutoNLP - Faster and easier training and deployments of SOTA NLP models [GitHub, 3836 stars]
- TPOT - Python Automated Machine Learning tool [GitHub, 9691 stars]
- Auto-PyTorch - Automatic architecture search and hyperparameter optimization for PyTorch [GitHub, 2359 stars]
- HungaBunga - Brute-Force all sklearn models with all parameters using .fit .predict [GitHub, 710 stars]
- ? AutoML Natural Language - Google's paid AutoML NLP service
- Optuna - hyperparameter optimization framework [GitHub, 10650 stars]
- FLAML - fast and lightweight AutoML library [GitHub, 3871 stars]
- Gradsflow - open-source AutoML & PyTorch Model Training Library [GitHub, 306 stars]
OCR - Optical Character Recognition
- ?️ A framework for designing document processing solutions [Blog, June 2022]
Document AI
- ? Table Transformer + HuggingFace Models
Generación de texto
- keytotext - a model which will take keywords as inputs and generate sentences as outputs [GitHub, 445 stars]
- ? Controllable Neural Text Generation [Blog, Jan 2021]
- BARTScore Evaluating Generated Text as Text Generation [GitHub, 317 stars]
Title / Headlines Generation
- TitleStylist Learning to Generate Headlines with Controlled Styles [GitHub, 76 stars]
NLP research reproducibility
- ? A Systematic Review of Reproducibility Research in Natural Language Processing [Paper, March 2021]
License CC0
Atribuciones
Recursos
- All linked resources belong to original authors
Íconos
- Akropolis by parkjisun from the Noun Project
- Book of Ester by Gilad Sotil from the Noun Project
- quill by Juan Pablo Bravo from the Noun Project
- acting by Flatart from the Noun Project
- olympic by supalerk laipawat from the Noun Project
- aristocracy by Eucalyp from the Noun Project
- Horn by Eucalyp from the Noun Project
- temple by Eucalyp from the Noun Project
- constellation by Eucalyp from the Noun Project
- ancient greek round pattern by Olena Panasovska from the Noun Project
- Harp by Vectors Point from the Noun Project
- Atlas by parkjisun from the Noun Project
- Parthenon by Eucalyp from the Noun Project
- papyrus by IconMark from the Noun Project
- papyrus by Smalllike from the Noun Project
- pegasus by Saeful Muslim from the Noun Project
Fuentes
The Pandect Series also includes