Una lista curada de recursos para principiantes en el procesamiento del lenguaje natural
Mantenedor
Dibya Chakravorty
Contribuciones
No dude en enviar solicitudes de extracción o envíeme un correo electrónico ([email protected])
Cómo comenzó esta lista
El 10 de noviembre de 2016, el usuario de Hacker News (HN) Aarohmankad le pidió a la comunidad HN sugerencias sobre los recursos para principiantes de PNL. Este hilo de Ask HN se hizo popular y se quedó en la portada durante algún tiempo. En este tiempo, reunió muchas sugerencias generadas por la comunidad sobre los recursos para principiantes de PNL. Esta lista es un intento de resumir esta discusión en una lista coherente de recursos. También escribí una publicación de blog sobre esto.
Tabla de contenido
- Libros
- MOOCS
- Videos de YouTube
- Cursos universitarios en línea
- Paquetes para jugar con
- Documentos académicos
- Aprendiendo haciendo
- Proyectos de código abierto
- Ideas divertidas
- API
- Grupos de usuarios
- Otras guías
Libros
- Procesamiento del habla y el lenguaje: libro de texto clásico y estándar en PNL. PROYECTO DE Publicación de la tercera edición disponible aquí.
- Procesamiento del lenguaje natural con Python: libro orientado a la aplicación. Los ejemplos están en Python (NLTK). Versión en línea gratuita aquí.
- Taming Text: Libro orientado a la aplicación. Los ejemplos están en Java.
- Fundamentos del procesamiento estadístico del lenguaje natural: texto clásico sobre la PNL estadística. Profundiza en la implementación de analizadores, etiquetadores, etc.
- Manual de procesamiento del lenguaje natural: un tratamiento completo de la PNL que comienza desde las raíces históricas y termina con los métodos modernos de la PNL.
- Traducción de la máquina estadística: Aprenda a hacer un servicio como Google Translate
- Introducción a la recuperación de la información: aprenda las nueces y los pernos de los servicios como Google Search y Google News (búsqueda, clasificación de texto, clúster, etc.)
- Análisis de Prolog y Language Natural: Implementar AlgortiHMS de PNL en Prolog.
MOOCS
- Curso Coursera ofrecido por la Universidad de Michigan: curso introductorio que cubre todos los materiales previos. El lenguaje de programación favorecido es Python.
- Curso de Coursera Dicontinued ofrecido por la Universidad de Comlumbia, disponible en torrentes académicos: teoría y curso orientado a conceptos. Solo los materiales del curso están disponibles en este momento.
Videos de YouTube
- Serie de videos de Jurafsky y Martin: Jurafsky y Martin son profesores en Stanford, y han escrito múltiples libros de texto clásicos en PNL.
- Stanford CS224D: Aprendizaje profundo en PNL: Aplicación del aprendizaje profundo en PNL
- NLP con Python y NLTK: series de videos orientados a la aplicación usando Python y NLTK.
Cursos universitarios en línea
- Curso de traducción automática en la Universidad de Pensilvania
Paquetes para jugar con
- NLTK: Biblioteca NLP más popular en Python. Excelente documentación en forma de libro/versión en línea gratuita. Poderoso y extensible.
- Stanford Corenlp: Library NLP Rich NLP rápida y de características, escrita en Java. Una demostración en línea está disponible aquí.
- SPACY: Otra biblioteca emergente de PNL en Python. Rápido y estado del arte. Intenta mantener una API uniforme al implementar algoritmos de última generación. Tienen un blog y una demostración en línea.
- Apache Tika: ofrece una interfaz unificada para extraer datos de texto y meta datos de muchos formatos de archivo diferentes (PPT, PDF, etc.) y análisis.
Documentos académicos
- Aprendizaje profundo en PNL: un repositorio de GitHub que recolecta documentos sobre el aprendizaje profundo en la PNL.
Aprendiendo haciendo
A menudo, la mejor manera de aprender es contribuir a un proyecto NLP de código abierto existente o implementar una idea divertida.
Proyectos de código abierto
- Betty: Betty es un proyecto de código abierto con uso de la vida real y consideraciones prácticas de PNL, y está buscando nuevos mantenedores.
Ideas divertidas
- Ficción interactiva basada en ficción/analizador: un videojuego donde las interacciones del jugador implican principalmente texto. Escuche este podcast de hilo dental iluminante sobre el tema.
API
- IBM Watson Cloud: De los fabricantes de IBM Watson. Le permite integrar la funcionalidad de NLP en su aplicación a través de una API. Hay un nivel gratuito/prueba gratuita.
Grupos de usuarios
- Grupo de interés especial de ACM en IA: si anhela algún contacto humano cara a cara.
Otras guías
- Pregunta de Quora sobre cómo ingresar a la PNL
- Awesome-NLP en GitHub: un repositorio de GitHub que contiene una lista curada de recursos de PNL.