PNL hecho fácil
Notas de código simple para explicar bloques de construcción de PNL
- Técnicas de segmentación de subvenciones
- Comparemos varios tokenizadores, es decir, NLTK, BPE, SentencePiece y Bert Tokenizer.
- Decodificación del haz
- La decodificación del haz es esencial para las tareas SEQ2SEQ. Pero es notoriamente complicado de implementar. Aquí hay uno relativamente fácil, candidatos a lotes.
- Cómo obtener el último vector oculto de RNN correctamente
- Veremos cómo obtener los últimos estados ocultos de RNN en TensorFlow y Pytorch.
- Tensorflow SEQ2SEQ Plantilla basada en la tarea G2P
- Escribiremos una plantilla simple para SEQ2SEQ usando TensorFlow. Para la demostración, atacamos la tarea G2P. G2P es una tarea de convertir grafemas (ortografía) a fonemas (pronunciación). Es una muy buena fuente para este propósito, ya que es lo suficientemente simple para que te subas y ejecutes.
- Plantilla Pytorch SEQ2SEQ basada en la tarea G2P
- Escribiremos una plantilla simple para SEQ2SEQ usando Pytorch. Para la demostración, atacamos la tarea G2P. G2P es una tarea de convertir grafemas (ortografía) a fonemas (pronunciación). Es una muy buena fuente para este propósito, ya que es lo suficientemente simple para que te subas y ejecutes.
- [Mecanismo de atención] (trabajo en progreso)
- POS-Tagging con Bert ajustado
- Se sabe que Bert es bueno en tareas de etiquetado de secuencia como el reconocimiento de entidad nombrado. Veamos si es cierto para la etiqueta POS.
- Abandonado en un minuto
- La deserción es posiblemente la técnica de regularización más popular en el aprendizaje profundo. Vamos a ver cómo funciona.
- Ngram lm vs. rnnlm (wip)
- Aumento de datos para pares de preguntas de quora
- Veamos si es efectivo aumentar los datos de capacitación en la tarea de los pares de preguntas de Quora.