(¡Trabajo en progreso!)
El procesamiento del lenguaje natural (PNL) ha realizado avances sustanciales en los últimos años debido al éxito de las técnicas modernas que se basan en el aprendizaje profundo. Con el surgimiento de la popularidad de la PNL y la disponibilidad de diferentes formas de datos a gran escala, ahora es aún más imperativo comprender el funcionamiento interno de las técnicas y conceptos de PNL, desde los primeros principios, al encontrar su camino hacia el uso del mundo real y las aplicaciones que afectan a la sociedad en general. Construir intuiciones y tener una sólida comprensión de los conceptos son importantes para crear técnicas innovadoras, mejorar la investigación y construir tecnologías seguras de IA y PNL centradas en los humanos.
Presentamos una nueva serie llamada fundamentos de la PNL, donde nuestro objetivo es enseñar sobre técnicas y conceptos importantes de PNL a partir de los primeros principios. Introduciremos el aspecto teórico y la motivación de cada concepto cubierto a lo largo de la serie. Luego obtendremos experiencia práctica utilizando métodos de arranque, herramientas estándar de la industria y otras bibliotecas de código abierto para implementar las diferentes técnicas. En el camino, también cubriremos las mejores prácticas, compartiremos referencias importantes, señalaremos errores comunes para evitar al capacitar y construir modelos PNL, y discutir lo que se avecina.
Únase a nuestra comunidad Slack para encontrar nuestra más información sobre este y otros proyectos en curso. No dude en comunicarse conmigo en Twitter para una invitación a nuestro grupo Slack.
Capítulo 1: Tokenización, lemmatización, derivación y segmentación de oraciones - Notebook Colab, versión web
nlp_fundamentals . Los problemas con la good first issue son buenas tareas para comenzar.