PNL es poco común
Introducción: este proyecto es una entrevista de Notas y materiales de estudio preparados por Natural Language Processing (PNL) basada en entrevistas y experiencias personales. Este material actualmente contiene la acumulación de preguntas de la entrevista en varios campos del procesamiento del lenguaje natural.

> NLP Entrevista e Exchange Group (nota: si está lleno, puede agregar el editor WX: ¡YZYYKM666 para unirse al grupo!)

4. Entrevistas comunes para algoritmos de aprendizaje de PNL
4.1 Entrevistas comunes para extracción de información
4.1.1 Entrevistas comunes para nombrar el reconocimiento de entidades
- Algoritmo de Markov oculto hmm entrevistas comunes
- 1. Introducción a la información básica
- 1.1 ¿Qué es un modelo de gráfico de probabilidad?
- 1.2 ¿Qué es el aeropuerto aleatorio?
- 2. Introducción al proceso de Markov
- 2.1 ¿Cuál es el proceso de Markov?
- 2.2 ¿Cuál es la idea central del proceso de Markov?
- Iii. Algoritmo oculto de Markov
- 3.1 Introducción al algoritmo oculto de Markov
- 3.1.1 ¿Cuál es el algoritmo oculto de Markov?
- 3.1.2 ¿Cuáles son las dos secuencias en el algoritmo oculto de Markov?
- 3.1.3 ¿Cuáles son las tres matrices en el algoritmo oculto de Markov?
- 3.1.4 ¿Cuáles son los dos suposiciones en el algoritmo de Markov oculto?
- 3.1.5 ¿Cuál es el flujo de trabajo en el algoritmo oculto de Markov?
- 3.2 Proceso de cálculo del modelo de algoritmo de Markov oculto
- 3.2.1 ¿Cuál es el proceso de capacitación del aprendizaje del algoritmo de Markov oculto?
- 3.2.2 ¿Cuál es el proceso de anotación de secuencia (decodificación) del algoritmo oculto de Markov?
- 3.2.3 ¿Cuál es el proceso de probabilidad de secuencia del algoritmo oculto de Markov?
- 3.3 Problema de algoritmo de Markov oculto
Haga clic para ver la respuesta
- Entrevistas comunes del modelo de entropía máxima de Markov MEMM
- 4. Modelo de entropía máxima Markov (MEMM)
- 4.1 Motivación de Modelo de entropía máxima (MEMM)
- 4.1.1 ¿Cuáles son los problemas con HMM?
- 4.2 Introducción al modelo de entropía máxima (MEMM)
- 4.2.1 ¿Cómo se ve el modelo máximo de entropía Markov (MEMM)?
- 4.2.2 Modelo de entropía máxima Markov (MEMM) ¿Cómo resolver el problema HMM?
- 4.3 Problema máximo de modelo de entropía Markov (MEMM)
Haga clic para ver la respuesta
- Entrevistas comunes de aeropuerto aleatorio condicional (CRF)
- 5. Campo aleatorio condicional (CRF)
- 5.1 Motivo de CRF
- 5.1.1 ¿Cuáles son los problemas con HMM y MEMM?
- 5.2 Introducción de CRF
- 5.2.1 ¿Qué es CRF?
- 5.2.2 ¿Cuál es la idea principal de CRF?
- 5.2.3 ¿Cuál es la definición de CRF?
- 5.2.4 ¿Cuál es el proceso de CRF?
- 5.3 Pros y contras de CRF
- 5.3.1 ¿Cuáles son las ventajas de CRF?
- 5.3.2 ¿Cuáles son las desventajas de CRF?
- 5.4 Reproducción de CRF?
- 6. Comparación
- 6.1 ¿Cuál es la diferencia entre el modelo CRF y el modelo HMM y MEMM?
Haga clic para ver la respuesta
- Entrevistas comunes de DNN-CRF
- 1. Información básica
- 1.1 ¿Cuáles son los indicadores de evaluación para nombrar el reconocimiento de entidades?
- 2. Método de reconocimiento de entidad de nombres tradicionales
- 2.1 ¿Cuál es el método basado en reglas para nombrar el reconocimiento de entidades?
- 2.2 ¿Cuál es el método de reconocimiento de entidad de nombres basado en el aprendizaje no supervisado?
- 2.3 ¿Cuál es el método de reconocimiento de entidad nombrado basado en el aprendizaje supervisado basado en características?
- 3. Método de reconocimiento de entidades de nombres basado en el aprendizaje profundo
- 3.1 ¿Cuáles son las ventajas de los métodos de reconocimiento de entidades nombrados basados en el aprendizaje profundo en comparación con los métodos de reconocimiento de entidades nombrados basados en el aprendizaje automático?
- 3.2 ¿Cuál es la estructura del método de reconocimiento de entidad nombrado basado en el aprendizaje profundo?
- 3.3 ¿Qué es una capa de entrada distribuida y cuáles son los métodos?
- 3.4 codificador de texto
- 3.4.1 bilstm-crf
- 3.4.1.1 ¿Qué es Bilstm-CRF?
- 3.4.1.2 ¿Por qué usar bilstm?
- 3.4.2 IDCNN-CRF
- 3.4.2.1 ¿Qué es CNN dilatado?
- 3.4.2.2 ¿Por qué hay un CNN dilatado?
- 3.4.2.3 ¿Cuáles son las ventajas de CNN dilatado?
- 3.4.2.4 Introducción a IDCNN-CRF
- 3.5 decodificador de etiquetas
- 3.5.1 ¿Cuál es el decodificador de la etiqueta?
- 3.5.2 Introducción a la capa MLP+Softmax?
- 3.5.3 Introducción a la capa de CRF de campo aleatorio condicional?
- 3.5.4 Introducción a la capa RNN de la red neuronal recurrente?
- 3.5.3 Introducción a la capa de red de puntero?
- 4. Comparación
- 4.1 CNN-CRF VS BILSTM-CRF VS IDCNN-CRF?
- 4.2 ¿Por qué DNN necesita agregar CRF?
- 4.3 CRF en TensorFlow vs CRF en el kit de herramientas discretos?
Haga clic para ver la respuesta
- Entrevistas comunes de campo chino
- 1. Motivo
- 1.1 ¿Cuál es la diferencia entre el reconocimiento de entidades con nombre chino y el reconocimiento de entidades nombrado inglés?
- 2. Mejora del vocabulario
- 2.1 ¿Qué es la mejora del vocabulario?
- 2.2 ¿Por qué es efectivo el método de "mejora del vocabulario" para las tareas ner chinas?
- 2.3 ¿Cuáles son los métodos de mejora del vocabulario?
- 2.4 Arquitectura dinámica
- 2.4.1 ¿Qué es la arquitectura dinámica?
- 2.4.2 ¿Cuáles son los métodos comunes?
- 2.4.3 ¿Qué es Lattice LSTM y cuáles son los problemas?
- 2.4.4 ¿Qué es plano y cuáles son los problemas?
- 2.5 Paradigma de incrustación adaptativa
- 2.5.1 ¿Cuál es el paradigma adaptativo de incrustación?
- 2.5.2 ¿Cuáles son los métodos comunes?
- 2.5.3 ¿Qué es WC-LSTM y cuáles son los problemas?
- 3. Mejora de la información de tipo vocabulario/entidad
- 3.1 ¿Qué es la mejora de la información del tipo de vocabulario/entidad?
- 3.2 ¿Por qué el método de "mejora de la información del tipo de vocabulario/entidad" es efectivo para las tareas ner chinas?
- 3.3 ¿Cuáles son los métodos para mejorar la información de vocabulario/entidad?
- 3.4 ¿Qué es Lex-Bert?
Haga clic para ver la respuesta
- Entrevistas comunes de truco de reconocimiento de entidad nombrada
- Truco 1: Diccionario de dominio Matching
- Truco 2: extracción de reglas
- Trick 3: Word Vector Selection: Word Vector o Word Vector?
- Truco 4: ¿Cómo elegir un extractor de características?
- Truco 5: ¿Cómo lidiar con un nombre distinguido?
- Truco 6: ¿Cómo lidiar con datos de etiquetado insuficientes?
- Truco 7: Cómo lidiar con el reconocimiento de entidad con nombre anidado
- 7.1 ¿Qué es la anidación de la entidad?
- 7.2 Diferencias de las tareas tradicionales de reconocimiento de entidades con nombre tradicional
- 7.3 Solución:
- 7.3.1 Método 1: Anotación de secuencia
- 7.3.2 Método 2: Anotación de puntero
- 7.3.3 Método 3: Anotación de encabezado largo
- 7.3.4 Método 4: Acuerdo de fragmento
- Trick 8: ¿Por qué es efectivo el método de "mejora del vocabulario" para las tareas ner chinas?
- Trick 9: ¿Qué debo hacer si la amplia entidad es demasiado larga?
- Trick 10: ¿Problema de ruido de datos de etiquetado NER?
- Trick 11: Dadas dos tareas de reconocimiento de entidad con nombre, una tarea tiene suficientes datos y la otra tiene muy pocos datos. ¿Qué puedo hacer?
- Truco 12: ¿Es el problema del desequilibrio de datos de etiquetado NER?
Haga clic para ver la respuesta
4.1.2 Entrevistas comunes para el dibujo de relaciones
- Dibujo de relaciones entrevistas comunes
- 1. Motivo
- 1.1 ¿Qué es la extracción de relaciones?
- 1.2 ¿Cuáles son los tipos de técnicas de extracción de relaciones?
- 1.3 ¿Cómo se realizan los procesos de extracción de relaciones comunes?
- 2. Extracción de relaciones clásicas
- 2.1 ¿A qué se refiere el método de coincidencia de la plantilla? ¿Cuáles son los pros y los contras?
- 2.2 ¿A qué se refiere la extracción de relación de supervisión remota? ¿Cuáles son sus pros y contras?
- 2.3 ¿Qué es la superposición de la relación? ¿Problemas de relación complejos?
- 2.4 ¿Qué es la extracción articular? ¿Cuáles son las dificultades?
- 2.5 ¿Cuáles son los métodos generales de extracción articular? ¿Cuáles son sus deficiencias?
- 2.6 Introducción al método de extracción conjunta basado en parámetros compartidos?
- 2.7 Introducción a la decodificación articular basada en la decodificación de las articulaciones?
- 2.8 ¿Cuáles son las tecnologías y desafíos de vanguardia en la extracción de la relación de entidad? ¿Cómo resolver la extracción de relaciones de entidad bajo bajos recursos y muestras complejas?
- 3. Extracción de relaciones a nivel de documento
- 3.1 ¿Cuál es la diferencia entre la extracción de relación a nivel de documento y la extracción de relaciones clásicas?
- 3.2 ¿Qué problemas se enfrentan en la extracción de relaciones a nivel de documento?
- 3.3 ¿Cuáles son los métodos para la extracción de relaciones a nivel de documento?
- 3.3.1 ¿Cómo se basa la extracción de la relación de documento en Bert?
- 3.3.2 ¿Cómo se realiza la extracción de relación de documentos basada en gráficos?
- 3.4 ¿Cuáles son los conjuntos de datos comunes para la extracción de relaciones a nivel de documento y sus métodos de evaluación?
Haga clic para ver la respuesta
4.1.3 Entrevistas comunes de extracción de eventos
- Entrevistas comunes de dibujo de eventos
- 1. Principios
- 1.1 ¿Qué es un evento?
- 1.2 ¿Qué es la extracción de eventos?
- 1.3 ¿Cuáles son los términos y tareas básicos involucrados en la extracción de eventos en la evaluación de ACE?
- 1.4 ¿Cómo se desarrolla la extracción de eventos?
- 1.5 ¿Cuáles son los problemas con la extracción de eventos?
- 2. Tareas básicas
- 2.1 Detección de palabras de activación
- 2.1.1 ¿Qué es la detección de palabras desencadenantes?
- 2.1.2 ¿Cuáles son los métodos para la detección de palabras de activación?
- 2.2 Identificación de tipo
- 2.2.1 ¿Qué es el reconocimiento de tipo?
- 2.2.2 ¿Cuáles son los métodos de identificación de tipo?
- 2.3 Reconocimiento de roles
- 2.3.1 ¿Qué es el reconocimiento de roles?
- 2.3.2 ¿Cuáles son los métodos de reconocimiento de roles?
- 2.4 Detección de argumentos
- 2.4.1 ¿Qué es la detección de argumentos?
- 2.4.2 ¿Cuáles son los métodos de detección de argumentos?
- 3. Métodos comunes
- 3.1 ¿Cómo usar el método de coincidencia de patrones en la extracción de eventos?
- 3.2 ¿Cómo se utilizan los métodos estadísticos de aprendizaje automático en la extracción de eventos?
- 3.3 ¿Cómo se utilizan los métodos de aprendizaje profundo en la extracción de eventos?
- IV. Conjuntos de datos e indicadores de evaluación
- 4.1 ¿Cuáles son los conjuntos de datos en inglés comunes en la extracción de eventos?
- 4.2 ¿Cuáles son los conjuntos de datos chinos comunes en la extracción de eventos?
- 4.3 ¿Cuáles son los indicadores de evaluación para la extracción de eventos? ¿Cómo calcularlo?
- 5. Comparación
- 5.1 ¿Cuáles son las similitudes y diferencias entre la extracción de eventos y el reconocimiento de entidad nombrado (es decir, la extracción de entidad)?
- 5.2 ¿Cuáles son las similitudes y diferencias entre la extracción de eventos y la extracción de relaciones?
- 5.3 ¿Qué es un mapa de hecho? ¿Cuáles son los tipos de relaciones para eventos? ¿Cómo construir un mapa racional? ¿Cuáles son los principales campos técnicos y los puntos críticos de desarrollo actuales?
- 6. Aplicación
- 7. Expansión
- 7.1 Resumen de documentos de extracción de eventos
- 7.2 Extracción de eventos Preguntas frecuentes
4.2 Entrevistas comunes para los algoritmos de pre-entrenamiento de PNL
- 【Acerca de tf-idf】 cosas que no sabes
- 1. One-Hot
- 1.1 ¿Por qué hay un solo puesto?
- 1.2 ¿Qué es un solo puesto?
- 1.3 ¿Cuáles son las características de One-Hot?
- 1.4 ¿Cuáles son los problemas con un solo punto?
- 2. TF-IDF
- 2.1 ¿Qué es TF-IDF?
- 2.2 ¿Cómo evalúa TF-IDF la importancia de las palabras?
- 2.3 ¿Cuál es la idea de TF-IDF?
- 2.4 ¿Cuál es la fórmula de cálculo para TF-IDF?
- 2.5 ¿Cómo describir TF-IDF?
- 2.6 ¿Cuáles son las ventajas de TF-IDF?
- 2.7 ¿Cuáles son las desventajas de TF-IDF?
- 2.8 Aplicación de TF-IDF?
Haga clic para ver la respuesta
- 【Acerca de Word2Vec】 Cosas que no sabes
- 1. Introducción a WordVec
- 1.1 ¿Qué significa WordVec?
- 1.2 ¿Qué significa CBOW en WordVec?
- 1.3 ¿Qué significa Skip-Gram en WordVec?
- 1.4 ¿Cuál es mejor para CBOW vs Skip-Gram?
- 2. Artículo de optimización de WordVec
- 2.1 ¿Cuál es el árbol Hoffman en Word2vec?
- 2.2 ¿Por qué necesitas usar Hoffman Tree en Word2Vec?
- 2.3 ¿Cuáles son los beneficios de usar árboles Hoffman en Word2Vec?
- 2.4 ¿Por qué se usa el muestreo negativo en Word2Vec?
- 2.5 ¿Cómo es el muestreo negativo en Word2Vec?
- 2.6 ¿Cuál es el método de muestreo de muestreo negativo en Word2Vec?
- 3. Comparación de WordVec
- 3.1 ¿Cuál es la diferencia entre Word2Vec y NNLM? (Word2Vec vs NNLM)
- 3.2 ¿Cuál es la diferencia entre Word2Vec y TF-IDF en el cálculo de similitud?
- 4. Word2Vec Capítulo práctico
- 4.1 Word2Vec Trick de entrenamiento, ¿Qué tan grande es la configuración de la ventana?
- 4.1 Word2Vec Trick de entrenamiento, Latitud de vector de palabras, ¿cuáles son los efectos de los grandes y pequeños, y otros parámetros?
Haga clic para ver la respuesta
- 【Acerca de FastText】 Cosas que no sabes
- 1. Motivación de Texo Fast
- 1.1 ¿Qué es el modelo a nivel de palabra?
- 1.2 ¿Cuáles son los problemas con el modelo a nivel de palabra?
- 1.3 ¿Qué es el modelo a nivel de personaje?
- 1.4 Ventajas del modelo a nivel de carácter?
- 1.5 ¿Hay algún problema con el modelo a nivel de personaje?
- 1.6 Solución al problema del modelo a nivel de personaje?
- 2. Introducción a la información de N-gram en palabras (información de la subvención n-gram)
- 2.1 Introducción
- 2.2 ¿Qué es FastText?
- 2.3 ¿Cuál es la estructura de FastText?
- 2.4 ¿Por qué FastText usa la información N-Gram en la palabra (información de la subvención n-gram)?
- 2.5 Introducción a la información de N-Gram en la palabra FastText (información de la subvención n-gram)?
- 2.6 ¿El proceso de capacitación de la información de N-gram en Word FastText?
- 2.7 ¿Hay algún problema con la información N-Gram en la palabra FastText?
- 3. Introducción a la regresión jerárquica Softmax (Softmax jerárquico)
- 3.1 ¿Por qué usar la regresión jerárquica Softmax?
- 3.2 ¿Cuál es la idea de la regresión jerárquica de Softmax?
- 3.3 ¿Cuáles son los pasos para la regresión jerárquica de Softmax?
- 4. ¿Hay algún problema con FastText?
Haga clic para ver la respuesta
- 【Acerca de Elmo】 Cosas que no sabes
- 1. Motivación de Elmo
- 2. INTRODUCCIÓN DE ELMO
- 2.1 ¿Cuáles son las características de Elmo?
- 2.2 ¿Qué es el pensamiento de Elmo?
- 3. Preguntas de Elmo
- 3.1 ¿Cuáles son los problemas con Elmo?
Haga clic para ver la respuesta
4.3 entrevistas comunes de Bert
- Entrevistas comunes de Bert
- 1. Motivo
- 1.1 [Historia de la evolución] ¿Hay algún problema con One-Hot?
- 1.2 [Historia de la evolución] ¿Hay un problema con WordVec?
- 1.3 [Historia de la evolución] ¿Hay algún problema con FastText?
- 1.4 [Historia de la evolución] ¿Hay algún problema con Elmo?
- 2. Bert
- 2.1 Bert Introducción
- 2.1.1 【Bert】 ¿Qué es Bert?
- 2.1.2 【bert】 bert tres puntos clave?
- 2.2 Caracterización de entrada y salida de Bert
- 2.2.1 [Bert] ¿Cómo se ve la caracterización de entrada y salida de Bert?
- 2.3 【Bert】 Bert Pre-Training
- 2.3.1 【Bert】 Bert Tareas de pre-entrenamiento Introducción
- 2.3.2 【Bert】 Tarea de pre-entrenamiento de Bert enmascaró el capítulo LM
- 2.3.2.1 【Bert】 ¿Por qué Bert necesita tareas de pre-entrenamiento enmascaradas LM?
- 2.3.2.2 【Bert】 ¿Cómo hacer la tarea de pre-entrenamiento de Bert enmascarada LM?
- 2.3.2.3 【Bert】 ¿Hay algún problema con la tarea de pre-entrenamiento de Bert enmascarada LM?
- 2.3.2.4 【Bert】 ¿Solución al desajuste entre la capacitación previa y el ajuste fino?
- 2.3.3 【Bert】 Tarea de pre-entrenamiento de BERT Predicción de oraciones Siguiente
- 2.3.3.1 [BERT] ¿Por qué Bert necesita tareas de pre-entrenamiento que la próxima predicción de oraciones?
- 2.3.3.2 【Bert】 ¿Cómo hacer la siguiente predicción de oraciones en la tarea de pre-entrenamiento de Bert?
- 2.4 【Bert】 ¿Artículo de cambio?
- 2.4.1 【Bert】 ¿Por qué Bert necesita giro?
- 2.4.2 【Bert】 ¿Cómo girar en Bert?
- 2.5 【Bert】 Bert Functions?
- 2.5.1 [Bert] ¿Cuál es la función de pérdida correspondiente a las dos tareas de pre-entrenamiento de Bert (expresadas en forma de fórmula)?
- 3. Comparación?
- 3.1 [Contraste] ¿Cuál es el problema de los polisintéticos?
- 3.2 [Comparación] ¿Por qué no puede Word2Vec resolver el problema de los polisinónimos?
- 3.3 [Comparación] ¿Cuál es la diferencia entre GPT y Bert?
- 3.4 [Comparación] ¿Por qué Elmo, GPT y Bert pueden resolver el problema de los polisinónimos? (Tome Elmo como ejemplo)
Haga clic para ver la respuesta
- 【Sobre el análisis del código fuente de Bert, el cuerpo principal de I] cosas que no sabes
- 【Acerca de Bert Código fuente Análisis II Capítulo de pre-entrenamiento】 Cosas que no sabe
- 【Acerca de Bert Código fuente Análisis III Capítulo de ajuste fino】 Cosas que no sabe
- [Acerca de el análisis del código fuente de Bert IV Artículo de generación de vectores de oración] Cosas que no sabe
- [Acerca de Bert Código fuente de análisis v Capítulo de similitud de texto] Cosas que no sabe
4.3.1 Entrevistas comunes para la compresión del modelo Bert
- Entrevista común de compresión del modelo Bert
- 1. Motivación de compresión del modelo Bert
- 2. Tabla de comparación de compresión del modelo Bert
- 3. Introducción al método de compresión del modelo Bert
- 3.1 Factorización de bajo rango y intercambio de parámetros de capa cruzada del método de compresión del modelo Bert
- 3.1.1 ¿Qué es la factorización de bajo rango?
- 3.1.2 ¿Qué es el intercambio de parámetros de capa cruzada?
- 3.1.3 ¿El método utilizado por Albert?
- 3.2 Bert Modelo Método de compresión Destilación
- 3.2.1 ¿Qué es la destilación?
- 3.2.2 ¿Qué documentos hay utilizando la destilación del modelo? ¿Déjame presentarlo brevemente?
- 3.3 Cuantificación del método de compresión del modelo BERT
- 3.3.1 ¿Qué es la cuantificación?
- 3.3.2 Q-Bert: cuantización de precisión ultra baja con base en Hessian de Bert 【Cuantificación】
- 3.4 Bert Modelo Método de compresión podado
- 4. ¿Hay algún problema con la compresión del modelo?
Haga clic para ver la respuesta
4.3.2 Entrevistas comunes para la serie Bert Model
- ¿Conoces XLNet? ¿Usted pude decirme? ¿Cuál es la diferencia entre Bert?
- ¿Conoces a Roberta? ¿Usted pude decirme? ¿Cuál es la diferencia entre Bert?
- ¿Conoces a Spanbert? ¿Usted pude decirme? ¿Cuál es la diferencia entre Bert?
- ¿Conoces misa? ¿Usted pude decirme? ¿Cuál es la diferencia entre Bert?
Haga clic para ver la respuesta
4.4 Entrevistas comunes para la clasificación de texto
- Entrevistas comunes para la clasificación de texto
- 1. Propuestas abstractas
- 1.1 ¿Cuáles son las categorías de tareas de clasificación? ¿Cuáles son sus características?
- 1.2 ¿Cuáles son las diferencias entre las tareas de clasificación de texto en comparación con las tareas de clasificación en otros campos?
- 1.3 ¿Cuál es la diferencia entre las tareas de clasificación de texto y otras tareas en el campo de texto?
- 1.4 ¿El proceso de clasificación de texto?
- 2. Preprocesamiento de datos
- 2.1 ¿Cuáles son los métodos de preprocesamiento de datos para tareas de clasificación de texto?
- 2.2 ¿Qué métodos y herramientas de participio de palabras ha utilizado?
- 2.3 ¿Cómo participar textos chinos?
- 2.4 ¿Cuál es el principio del método de segmentación de palabras basado en la coincidencia de cadenas?
- 2.5 ¿Cómo se aplican los modelos de lenguaje estadístico al participio de palabras? ¿Participio de probabilidad máxima N-gram?
- 2.6 ¿Cuál es el método de segmentación de palabras basado en la anotación de secuencia?
- 2.7 ¿Cuál es la anotación de parte del discurso basada en (bi-) LSTM?
- 2.8 ¿Cuál es la diferencia entre la extracción del vástago y la restauración de la forma de la palabra?
- 3. Extracción de características
- 3.1 (un específico) ¿Qué características se pueden usar en la tarea de clasificación de texto?
- 3.2 (para textos occidentales) ¿Cuál es la diferencia entre usar palabras y usar letras como características?
- 3.3 ¿Puede introducir brevemente el modelo Bag of Words?
- 3.4 N-gramo
- 3.4.1 ¿Qué es la sintaxis del método N? ¿Por qué usar N-Gram?
- 3.4.2 ¿Cuáles son las limitaciones del algoritmo N-Gram?
- 3.5 Modelado de temas
- 3.5.1 Introducción a la tarea de modelado de temas?
- 3.5.2 Métodos comunes de modelado de temas
- 3.5.3 ¿Qué hace el algoritmo TF-IDF? Una breve introducción al algoritmo TF-IDF
- 3.5.4 ¿Qué significa TF-IDF alto?
- 3.5.5 Las deficiencias de TF-IDF
- 3.6 Similitud de texto
- 3.6.1 ¿Cómo calcular la distancia entre dos párrafos de texto?
- 3.6.2 ¿Qué es la distancia de Jaccard?
- 3.6.3 ¿Cuál es la diferencia entre el coeficiente de dados y el coeficiente de Jaccard?
- 3.6.4 Lo mismo es la distancia de edición, ¿cuál es la diferencia entre la distancia de Levinstein y la distancia de hamming?
- 3.6.5 ¿Escribir una pregunta de programación sobre cómo calcular la distancia de edición (distancia de Lewinstein)?
- 4. Modelo
- 4.1 FastText
- 4.1.1 ¿El proceso de clasificación de FastText?
- 4.1.2 ¿Cuáles son las ventajas de FastText?
- 4.2 Textcnn
- 4.2.1 ¿El proceso de textcnn realiza la clasificación de texto?
- 4.2.2 ¿Qué parámetros pueden ajustar textcnn?
- 4.2.3 Al usar CNN como clasificador de texto, ¿qué información corresponde diferentes canales al texto?
- 4.2.4 ¿Qué representa la longitud y el ancho del núcleo de convolución en TextCnn?
- 4.2.5 ¿Cuál es la diferencia entre las operaciones de agrupación en textcnn y operaciones de agrupación en general CNN?
- 4.2.6 Limitaciones de TextCnn?
- 4.3 dpcnn
- 4.3.1 ¿Cómo resolver la tarea de clasificación de texto largo?
- 4.3.2 Introducir brevemente las mejoras del modelo DPCNN en comparación con TextCNN?
- 4.4 Textrcnn
- 4.4.1 Introducir brevemente las mejoras de TEXTRCNN en comparación con TextCNN?
- 4.5 RNN+Atención
- 4.5.1 La idea de RNN+atención para las tareas de clasificación de texto, y ¿por qué se necesita agregar el mecanismo de atención/atención?
- 4.6 Red neuronal de GNN Graph
- 4.6.1 ¿Cómo se aplica la red neuronal GNN Graph al campo de la clasificación de texto?
- 4.7 Transformador
- 4.7.1 ¿Cómo aplicar modelos previamente capacitados basados en el transformador en el campo de la clasificación de texto?
- 4.8 Modelo previamente capacitado
- 4.8.1 ¿Qué modelos previamente capacitados conoces? ¿Cuáles son sus características?
- V. función de pérdida
- 5.1 Función de activación Sigmoid
- 5.1.1 Introducción a la función de activación sigmoide utilizada para problemas de clasificación binaria?
- 5.1.2 ¿Cuáles son las desventajas de Sigmod?
- 5.2 Función de activación Softmax
- 5.2.1 ¿Cuál es la función Softmax?
- 5.2.2 ¿Cómo encontrar la derivada de la función Softmax?
- 5.3 ¿Qué otras funciones de pérdida se utilizan para problemas de clasificación?
- 6. Evaluación del modelo y comparación de algoritmos
- 6.1 ¿Cuáles son los algoritmos e indicadores de evaluación utilizados en las tareas de clasificación de texto?
- 6.2 Breve introducción a la matriz de confusión y kappa?
Haga clic para ver la respuesta
- Tricto de clasificación de texto Entrevistas comunes
- 1. ¿Cómo preprocesar datos de clasificación de texto?
- 2. ¿Cómo elegir un modelo de clasificación de texto pre-entrenado?
- 3. ¿Cómo optimizar los parámetros de clasificación de texto?
- 4. ¿Cuáles son las tareas difíciles de clasificación de texto?
- 5. Construcción del sistema de etiquetado de clasificación de texto?
- 6. Construcción de la estrategia de clasificación de texto?
Haga clic para ver la respuesta
- Use métodos de búsqueda para hacer entrevistas comunes para la clasificación de texto
- ¿Por qué necesitamos usar la búsqueda para clasificar el texto?
- ¿Cuál es la idea de la clasificación de texto basada en métodos de búsqueda?
- ¿Cómo construir una biblioteca de recuperación para el método recuperado?
- ¿Cómo hacer la etapa de entrenamiento del método de búsqueda?
- ¿Cómo hacer la etapa de predicción del método de búsqueda?
- ¿Cuáles son los escenarios aplicables para la clasificación de texto utilizando métodos de búsqueda?
Haga clic para ver la respuesta
4.5 Entrevistas comunes para la coincidencia de texto
- Modelo de coincidencia de texto entrevistas comunes ESIM
- ¿Por qué necesitas ESIM?
- ¿Qué pasa con la introducción del modelo ESIM?
Haga clic para ver la respuesta
- Entrevistas comunes para Bert en tareas de coincidencia de similitud semántica
- 1. Tarea de clasificación de pares de oraciones: use CLS
- 2. Similitud de coseno
- 3. La diferencia entre textos largos y cortos
- 4. Forma/incrustación de palabras
- 5. Método de red siamese
Haga clic para ver la respuesta
4.6 Entrevistas comunes para el sistema de preguntas y respuestas
4.6.1 Entrevistas comunes para el sistema de preguntas y respuestas basadas en la búsqueda de preguntas frecuentes
- 1. Motivación
- 1.1 Motivación del sistema de preguntas y respuestas?
- 1.2 ¿Cuál es el sistema de preguntas y respuestas?
- 2. Introducción al sistema de preguntas y respuestas basado en la búsqueda de preguntas frecuentes
- 2.1 ¿Cuál es el sistema de preguntas y respuestas basado en la búsqueda de preguntas frecuentes?
- 2.2 ¿Cuál es el núcleo de QA estándar de coincidencia de consultas?
- 3. Solución del sistema de preguntas y respuestas basadas en la búsqueda de preguntas frecuentes
- 3.1 ¿Cuáles son las soluciones de uso común?
- 3.2 ¿Por qué se usa más comúnmente QQ?
- 3.2.1 ¿Cuáles son las ventajas de la coincidencia de QQ?
- 3.2.2 ¿Cuál es el espacio semántico para la coincidencia de QQ?
- 3.2.3 ¿Cuál es la estabilidad del Corpus Matching QQ?
- 3.2.4 ¿Cuál es el desacoplamiento de las respuestas comerciales y el modelo de algoritmo de que coinciden QQ?
- 3.2.5 ¿Cuál es el descubrimiento y la deduplicación de los nuevos problemas de coincidencia de QQ?
- 3.2.6 ¿Cuál es la velocidad de ejecución en línea de QQ Matching?
- 3.3 ¿Cuál es el proceso de procesamiento general para la coincidencia de QQ? [Suponiendo que se haya procesado el banco de problemas estándar]
- 4. Construcción del banco de problemas estándar de preguntas frecuentes
- 4.1 ¿Cómo encontrar problemas estándar en las preguntas frecuentes?
- 4.2 ¿Cómo dividir las preguntas frecuentes?
- 4.3 ¿Cómo fusionar las preguntas frecuentes?
- 4.4 ¿Cómo actualizar la biblioteca estándar de preguntas frecuentes en tiempo real?
- 5. Preguntas frecuentes de preguntas estándar Banco de respuestas optimización
- 5.1 ¿Cómo optimizar las respuestas al banco de preguntas estándar de las preguntas frecuentes?
Haga clic para ver la respuesta
4.6.2 Herramientas del sistema de preguntas y respuestas Entrevistas comunes
- Entrevistas comunes de Faiss
- 1. Motivo
- 1.1 ¿Cuáles son los problemas con los algoritmos de similitud tradicionales?
- 2. Introducción
- 2.1 ¿Qué es Faiss?
- 2.2 ¿Cómo usar FAISS?
- 2.3 Principio FAISS y algoritmo central
- 3. Capítulo práctico FAISS
- 3.1 ¿Cómo instalar FAISS?
- 3.2 ¿Cuáles son los índices de índices de FAISS?
- 3.3 ¿Cómo usar el índice del índice de FAISS?
- 3.3.1 Preparación de datos
- 3.3.2 Estética violenta índiceflatl2
- 3.3.3 El flash indexivflat
- 3.3.4 Memory Manager IndexIVFPQ
- 3.4 FAISS ¿Entonces usa GPU?
- 4. Comparación FAISS
- 4.1 cuál es mejor, sklearn cosine_similarity o faiss
4.7 Entrevistas comunes para el sistema de diálogo
- Entrevistas comunes para el sistema de diálogo
- 1. Introducción al sistema de diálogo
- 1.1 ¿Cuáles son los sistemas de diálogo?
- 1.2 ¿Cuáles son las diferencias entre estos sistemas de diálogo?
- 2. Introducción al sistema de diálogo de múltiples rondas
- 2.1 ¿Por qué utilizar un sistema de diálogo de múltiples rondas?
- 2.2 ¿Cuáles son las soluciones comunes del sistema de diálogo múltiple de ronda?
- 3. Introducción al sistema de diálogo basado en tareas
- 3.1 ¿Qué es un sistema de diálogo basado en tareas?
- 3.2 ¿Cuál es el proceso de un sistema de diálogo basado en tareas?
- 3.3 Comprensión del lenguaje del sistema de diálogo basado en tareas (SLU)
- 3.3.1 ¿Qué es la comprensión del lenguaje (SLU)?
- 3.3.2 ¿Cuáles son la entrada y salida de la comprensión del lenguaje (SLU)?
- 3.3.3 ¿Cuáles son las técnicas utilizadas en la comprensión del lenguaje (SLU)?
- 3.4 Sistema de diálogo basado en tareas DST (seguimiento del estado del diálogo)
- 3.4.1 ¿Qué es DST (seguimiento del estado del diálogo)?
- 3.4.2 ¿Cuáles son la entrada y salida de DST (seguimiento del estado del diálogo)?
- 3.4.3 ¿DST (seguimiento del estado del diálogo) tiene problemas y soluciones?
- 3.4.4 ¿Cuál es el método de implementación de DST (seguimiento del estado del diálogo)?
- 3.5 DPO (aprendizaje de estrategia de diálogo) Capítulo del sistema de diálogo basado en tareas
- 3.5.1 ¿Qué es DPO (aprendizaje de la estrategia de diálogo)?
- 3.5.2 ¿Cuáles son las entradas y la salida de DPO (aprendizaje de la estrategia de diálogo)?
- 3.5.3 ¿Cuál es el método de implementación de DPO (aprendizaje de la estrategia de diálogo)?
- 3.6 Sistema de diálogo basado en tareas NLG (generación de lenguaje natural)
- 3.6.1 ¿Qué es NLG (generación del lenguaje natural)?
- 3.6.2 ¿Cuáles son la entrada y salida de NLG (generación del lenguaje natural)?
- 3.6.3 ¿Es la implementación de NLG (generación de lenguaje natural)?
Haga clic para ver la respuesta
4.8 Entrevistas comunes para gráficos de conocimiento
4.8.1 Entrevistas comunes para gráficos de conocimiento
- 1. Introducción al gráfico de conocimiento
- 1.1 Introducción
- 1.2 ¿Qué es un gráfico de conocimiento?
- 1.2.1 ¿Qué es el gráfico?
- 1.2.2 ¿Qué es el esquema?
- 1.3 ¿Cuáles son las categorías de gráficos de conocimiento?
- 1.4 ¿Cuál es el valor del gráfico de conocimiento?
- 2. ¿Cómo construir un gráfico de conocimiento?
- 2.1 ¿De dónde provienen los datos del gráfico de conocimiento?
- 2.2 ¿Cuáles son las dificultades en la extracción de información?
- 2.3 ¿Las tecnologías involucradas en la construcción de un gráfico de conocimiento?
- 2.4. ¿Cuáles son la tecnología específica para construir un gráfico de conocimiento?
- 2.4.1 Reconocimiento de entidad nombrado
- 2.4.2 Extracción de relación
- 2.4.3 Resolución de entidad
- 2.4.4 se refiere a la desambiguación
- 3. ¿Cómo almacenar gráficos de conocimiento?
- 4. ¿Qué puede hacer el gráfico de conocimiento?
Haga clic para ver la respuesta
4.8.2 entrevistas comunes de KBQA
- 1. Métodos basados en diccionario y reglas
- Implementar KBQA basado en diccionario y reglas?
- Implementando el proceso KBQA basado en diccionario y reglas?
- 2. Métodos basados en la extracción de información
- ¿Implementar el proceso KBQA basado en la extracción de información?
Haga clic para ver la respuesta
4.8.3 Entrevistas comunes de Neo4J
- 1. Neo4j Introducción e instalación
- 1.1 Introducción
- 1.2 ¿Cómo descargar Neo4J?
- 1.3 ¿Cómo instalar Neo4J?
- 1.4 Introducción a la interfaz web NEO4J
- 1.5 ¿Cuál es el lenguaje de la consulta Cypher?
- 2. Neo4j adición, eliminación, búsqueda y modificación
- 2.1 Introducción
- 2.2 ¿Cómo crear un nodo en Neo4J?
- 2.3 ¿Cómo crear una relación en Neo4J?
- 2.4 ¿Cómo crear una relación en el lugar de nacimiento en Neo4J?
- 2.5 ¿Cómo consultar Neo4J?
- 2.6 ¿Cómo eliminar y modificar Neo4J?
- 3. ¿Cómo usar Python para operar la base de datos de gráficos Neo4J?
- 3.1 Módulo Neo4J: ¿Cuál es la ejecución de la declaración CQL (Cypher)?
- 3.2 ¿Cuál es el módulo py2neo?
- 4. Base de datos del diagrama de importación de datos NEO4J
Haga clic para ver la respuesta
4.9 Resumen de texto Entrevistas comunes
- 1. Motivo
- 1.1 ¿Cuál es un resumen de texto?
- 1.2 ¿Cuáles son los tipos de técnicas de resumen de texto?
- 2. Resumen de extracción
- 2.1 ¿Cómo hacer un resumen decisivo?
- 2.1.1 ¿Cuáles son los algoritmos de evaluación de importancia de la oración?
- 2.1.2 ¿Cuáles son los métodos de generación de resumen basados en restricciones?
- 2.1.3 ¿Cómo extrae el algoritmo TextTeaser el resumen?
- 2.1.4 ¿Cómo extrae el algoritmo TexTrank el resumen?
- 2.2 ¿Cuál es el problema de legibilidad del resumen extraído?
- 3. Resumen comprimido
- 3.1 ¿Cómo hacer un resumen comprimido?
- 4. Resumen generativo
- 4.1 ¿Cómo hacer un resumen generativo?
- 4.2 ¿Cuáles son los problemas con el resumen generativo?
- 4.3 ¿Qué problemas resuelve Pointer-Generator Network?
- V. Método de evaluación de calidad de resumen
- 5.1 ¿Cuáles son los tipos de métodos de evaluación de calidad abstracta?
- 5.2 ¿Qué es Rouge?
- 5.3 ¿Cuál es la diferencia entre varios indicadores de Rouge?
- 5.4 ¿Cuál es la diferencia entre Bleu y Rouge?
Haga clic para ver la respuesta
4.10 Artículo de corrección de errores de texto Artículo de entrevista común
- 1. Introducción
- 1.1 ¿Qué es la corrección de errores de texto?
- 1.2 Tipos de error de texto comunes?
- 1.3 Métodos comunes para la corrección de errores de texto?
- 2. Introducción al método de tubería
- ¿Cómo implementar la detección de errores en la tubería?
- ¿Cómo implementar el retiro del candidato en Pipeline?
- ¿Cómo implementar la clasificación de corrección de errores en la tubería?
- ¿Cómo implementar la optimización de eco de ASR en la tubería?
Haga clic para ver la respuesta
4.11 Resumen de texto Entrevistas comunes
- 1. Motivo
- 1.1 ¿Cuál es un resumen de texto?
- 1.2 ¿Cuáles son los tipos de técnicas de resumen de texto?
- 2. Resumen de extracción
- 2.1 ¿Cómo hacer un resumen decisivo?
- 2.1.1 ¿Cuáles son los algoritmos de evaluación de importancia de la oración?
- 2.1.2 ¿Cuáles son los métodos de generación de resumen basados en restricciones?
- 2.1.3 ¿Cómo extrae el algoritmo TextTeaser el resumen?
- 2.1.4 ¿Cómo extrae el algoritmo TexTrank el resumen?
- 2.2 ¿Cuál es el problema de legibilidad del resumen extraído?
- 3. Resumen comprimido
- 3.1 ¿Cómo hacer un resumen comprimido?
- 4. Resumen generativo
- 4.1 ¿Cómo hacer un resumen generativo?
- 4.2 ¿Cuáles son los problemas con el resumen generativo?
- 4.3 ¿Qué problemas resuelve Pointer-Generator Network?
- V. Método de evaluación de calidad de resumen
- 5.1 ¿Cuáles son los tipos de métodos de evaluación de calidad abstracta?
- 5.2 ¿Qué es Rouge?
- 5.3 ¿Cuál es la diferencia entre varios indicadores de Rouge?
- 5.4 ¿Cuál es la diferencia entre Bleu y Rouge?
Haga clic para ver la respuesta
4.12 Entrevistas comunes para la generación de texto
- Entrevistas comunes para métodos de decodificación para generar modelos
- ¿Qué es un modelo generativo?
- ¿Cuáles son los métodos de decodificación basados en la búsqueda?
- ¿Cuáles son los métodos de decodificación basados en muestreo?
Haga clic para ver la respuesta
3. Entrevista común algoritmo de aprendizaje profundo
- Entrevistas comunes de CNN
- 1. Motivo
- 2. Claja convolucional CNN
- 2.1 ¿Cuál es la esencia de una capa convolucional?
- 2.2 ¿Cuál es la conexión entre la capa convolucional CNN y la capa totalmente conectada?
- 2.3 ¿Qué significa canal?
- 3. Cla de agrupación de CNN
- 3.1 ¿Cuál es la capa de agrupación para la región?
- 3.2 ¿Cuáles son los tipos de capas de agrupación?
- 3.3 ¿Cuál es la función de la capa de agrupación?
- 3.4 ¿Cómo es la backpropagation en la capa de agrupación?
- 3.5 ¿Qué es lo que significa agrupar la backpropagation?
- 3.6 ¿Cómo es la backpropagation de la capa de agrupación?
- 4. CNN en general
- 4.1 ¿Cuál es el proceso de CNN?
- 4.2 ¿Cuáles son las características de CNN?
- 4.3 ¿Por qué la red neuronal convolucional tiene invariancia traslacional?
- 4.4 ¿Cómo se implementa IM2COL en una red neuronal convolucional?
- 4.5 ¿Cuáles son las limitaciones de CNN?
- 5. CNN dilatado iterado
- 5.1 ¿Qué es la convolución nula de CNN dilatada?
- 5.2 ¿Qué es CNN dilatado iterado?
- 6. Desconvolución
- 6.1 Explicar los principios y usos de la deconvolución?
Haga clic para ver la respuesta
- Entrevistas comunes de RNN
- 1. RNN
- 1.2 ¿Por qué necesito RNN?
- 1.2 ¿Cuál es la estructura RNN?
- 1.3 RNN Fórmula de cálculo hacia adelante?
- 1.4 ¿Cuáles son los problemas con RNN?
- 2. Red de memoria a corto plazo a corto plazo (LSTM)
- 2.1 ¿Por qué necesitas LSTM?
- 2.2 ¿Cuál es la estructura de LSTM?
- 2.3 ¿Cómo mitiga LSTM los problemas de la desaparición y la explosión de gradiente de RNN?
- 2.3 ¿Cuál es el proceso de LSTM?
- 2.4 ¿Cuáles son las diferencias en las funciones de activación en LSTM?
- 2.5 complejidad LSTM?
- 2.6 ¿Qué problemas existen LSTM?
- 3. Gru (unidad recurrente cerrada)
- 3.1 ¿Por qué necesitas Gru?
- 3.2 ¿Cuál es la estructura de Gru?
- 3.3 Cálculo hacia adelante de Gru?
- 3.4 ¿Cuál es la diferencia entre GRU y otros modelos de la serie RNN?
- 4. Modelo de la serie RNN
- 4.1 ¿Cuáles son las características del modelo de la serie RNN?
Haga clic para ver la respuesta
- Atención entrevistas comunes
- 1. SEQ2SEQ
- 1.1 ¿Qué es SEQ2SEQ (Coder-Decoder)?
- 1.2 ¿Qué tal el codificador en SEQ2SEQ?
- 1.3 ¿Qué tal el decodificador en SEQ2SEQ?
- 1.4 ¿Sabes SEQ2SEQ desde una perspectiva matemática?
- 1.5 ¿Qué problemas tienen SEQ2SEQ?
- 2. Atención
- 2.1 ¿Qué es la atención?
- 2.2 ¿Por qué se introduce el mecanismo de atención?
- 2.3 ¿Cuál es la función de la atención?
- 2.4 ¿Cuál es el proceso de atención?
- Paso 1 para ejecutar codificador (consistente con SEQ2SEQ)
- Paso 2 Calcule el coeficiente de alineación a
- Paso 3: Calcule el contexto Vector semántico C
- Paso 4 Actualizar el estado del decodificador
- Paso 5 Calcule las palabras de predicción de salida
- 2.5 ¿Cuáles son las áreas de atención de aplicación?
- 3. Variante de atención
- 3.1 ¿Qué es la atención suave?
- 3.2 ¿Qué es la atención?
- 3.3 ¿Qué es la atención global?
- 3.4 ¿Qué es la atención local?
- 3.5 ¿Qué es la autoatención?
Haga clic para ver la respuesta
- Generación de entrevistas comunes de la red adversa
- 1. Motivación
- 2. Introducción
- 2.1 Ideas básicas de gan
- 2.2 Introducción básica a GaN
- 2.2.1 Estructura básica de GaN
- 2.2.2 Ideas básicas de gan
- 3. Entrenamiento
- 3.1 Introducción al generador
- 3.2 判别器介绍
- 3.3 训练过程
- 3.4 训练所涉及相关理论基础
- 4. Resumen
点击查看答案
3.1 Transformer 常见面试篇
- Transformer 常见面试篇
- 一、动机篇
- 1.1 为什么要有Transformer?
- 1.2 Transformer 作用是什么?
- 二、整体结构篇
- 2.1 Transformer 整体结构是怎么样?
- 2.2 Transformer-encoder 结构怎么样?
- 2.3 Transformer-decoder 结构怎么样?
- 三、模块篇
- 3.1 self-attention 模块
- 3.1.1 传统attention 是什么?
- 3.1.2 为什么会有self-attention?
- 3.1.3 self-attention 的核心思想是什么?
- 3.1.4 self-attention 的目的是什么?
- 3.1.5 self-attention 的怎么计算的?
- 3.1.6 self-attention 为什么Q和K使用不同的权重矩阵生成,为何不能使用同一个值进行自身的点乘?
- 3.1.7 为什么采用点积模型的self-attention 而不采用加性模型?
- 3.1.8 Transformer 中在计算self-attention 时为什么要除以 $sqrt{d}$ ?
- 3.1.9 self-attention 如何解决长距离依赖问题?
- 3.1.10 self-attention 如何并行化?
- 3.2 multi-head attention 模块
- 3.2.1 multi-head attention 的思路是什么样?
- 3.2.2 multi-head attention 的步骤是什么样?
- 3.2.3 Transformer为何使用多头注意力机制?(为什么不使用一个头)
- 3.2.4 为什么在进行多头注意力的时候需要对每个head进行降维?
- 3.2.5 multi-head attention 代码介绍
- 3.3 位置编码(Position encoding)模块
- 3.3.1 为什么要加入位置编码(Position encoding) ?
- 3.3.2 位置编码(Position encoding)的思路是什么?
- 3.3.3 位置编码(Position encoding)的作用是什么?
- 3.3.4 位置编码(Position encoding)的步骤是什么?
- 3.3.5 Position encoding为什么选择相加而不是拼接呢?
- 3.3.6 Position encoding和Position embedding的区别?
- 3.3.7 为何17年提出Transformer时采用的是Position Encoder 而不是Position Embedding?而Bert却采用的是Position Embedding ?
- 3.3.8 位置编码(Position encoding)的代码介绍
- 3.4 残差模块模块
- 3.5 Layer normalization 模块
- 3.5.1 为什么要加入Layer normalization 模块?
- 3.5.2 Layer normalization 模块的是什么?
- 3.5.3 Batch normalization 和Layer normalization 的区别?
- 3.5.4 Transformer 中为什么要舍弃Batch normalization 改用Layer normalization 呢?
- 3.5.5 Layer normalization 模块代码介绍
- 3.6 Mask 模块
- 3.6.1 什么是Mask?
- 3.6.2 Transformer 中用到几种Mask?
- 3.6.3 能不能介绍一下Transformer 中用到几种Mask?
点击查看答案
- 【关于Transformer 问题及改进】那些你不知道的事
- 一、Transformer 问题篇
- 1.1 既然Transformer 怎么牛逼,是否还存在一些问题?
- 二、每个问题的解决方法是什么?
- 2.1 问题一:Transformer 不能很好的处理超长输入问题
- 2.1.1 Transformer 固定了句子长度?
- 2.1.2 Transformer 固定了句子长度的目的是什么?
- 2.1.3 Transformer 针对该问题的处理方法?
- 2.2 问题二:Transformer 方向信息以及相对位置的缺失问题
- 2.3 问题三:缺少Recurrent Inductive Bias
- 问题四:问题四:Transformer是非图灵完备的: 非图灵完备通俗的理解,就是无法解决所有的问题
- 问题五:transformer缺少conditional computation;
- 问题六:transformer 时间复杂度和空间复杂度过大问题;
五、NLP 技巧面
5.1 少样本问题面
5.1.1 数据增强(EDA) 面试篇
- 一、动机篇
- 1.1 什么是数据增强?
- 1.2 为什么需要数据增强?
- 二、常见的数据增强方法篇
- 2.1 词汇替换篇
- 2.1.1 什么是基于词典的替换方法?
- 2.1.2 什么是基于词向量的替换方法?
- 2.1.3 什么是基于MLM 的替换方法?
- 2.1.4 什么是基于TF-IDF 的词替换?
- 2.2 词汇插入篇
- 2.3 词汇交换篇
- 2.4 词汇删除篇
- 2.5 回译篇
- 2.6 交叉增强篇
- 2.7 语法树篇
- 2.8 对抗增强篇
点击查看答案
5.1.2 主动学习面试篇
- 一、动机篇
- 1.1 主动学习是什么?
- 1.2 为什么需要主动学习?
- 二、主动学习篇
- 2.1 主动学习的思路是什么?
- 2.2 主动学习方法的价值点在哪里?
- 三、样本选取策略篇
- 3.1 以未标记样本的获取方式的差别进行划分
- 3.2 测试集内选取“信息”量最大的数据标记
- 3.2.1 测试集内选取“信息”量最大的数据标记
- 3.2.2 依赖不确定度的样本选取策略(Uncertainty Sampling, US)
- 3.2.3 基于委员会查询的方法(Query-By-Committee,QBC)
点击查看答案
5.1.3 数据增强之对抗训练面试篇
- 1. Introducción
- 1.1 什么是对抗训练?
- 1.2 为什么对抗训练能够提高模型效果?
- 1.3 对抗训练有什么特点?
- 1.4 对抗训练的作用?
- 二、概念篇
- 2.1 对抗训练的基本概念?
- 2.2 如何计算扰动?
- 2.3 如何优化?
- 三、实战篇
- 3.1 NLP 中经典对抗训练之Fast Gradient Method(FGM)
- 3.2 NLP 中经典对抗训练之Projected Gradient Descent(PGD)
点击查看答案
5.2 “脏数据”处理面试篇
- 一、动机
- 1.1 何为“脏数据”?
- 1.2 “脏数据” 会带来什么后果?
- 二、“脏数据” 处理篇
- 2.1 “脏数据” 怎么处理呢?
- 2.2 置信学习方法篇
- 2.2.1 什么是置信学习方法?
- 2.2.2 置信学习方法优点?
- 2.2.3 置信学习方法怎么做?
- 2.2.4 置信学习方法怎么用?有什么开源框架?
- 2.2.5 置信学习方法的工作原理?
点击查看答案
5.3 batch_size设置面试篇
- 一、训练模型时,batch_size的设置,学习率的设置?
点击查看答案
5.4 早停法EarlyStopping 面试篇
- 一、 为什么要用早停法EarlyStopping?
- 二、 早停法EarlyStopping 是什么?
- 三、早停法torch 版本怎么实现?
点击查看答案
5.5 标签平滑法LabelSmoothing 面试篇
- 一、为什么要有标签平滑法LabelSmoothing?
- 二、 标签平滑法是什么?
- 三、 标签平滑法torch 怎么复现?
点击查看答案
5.6 Bert Trick 面试篇
5.6.1 Bert 未登录词处理面试篇
- 什么是Bert 未登录词?
- Bert 未登录词如何处理?
- Bert 未登录词各种处理方法有哪些优缺点?
点击查看答案
5.6.2 BERT在输入层引入额外特征面试篇
点击查看答案
5.6.3 关于BERT 继续预训练面试篇
- 什么是继续预训练?
- 为什么会存在【数据分布/领域差异】大问题?
- 如何进行继续预训练?
- 还有哪些待解决问题?
- 训练数据问题解决方案?
- 知识缺乏问题解决方案?
- 知识理解缺乏问题解决方案?
点击查看答案
5.6.4 BERT如何处理篇章级长文本面试篇
- 为什么Bert 不能处理长文本?
- BERT 有哪些处理篇章级长文本?
点击查看答案
六、 Prompt Tuning 面试篇
6.1 Prompt 面试篇
- 什么是prompt?
- 如何设计prompt?
- prompt进阶——如何自动学习prompt?
- Prompt 有哪些关键要点?
- Prompt 如何实现?
点击查看答案
6.2 Prompt 文本生成面试篇
- Prompt之文本生成评估手段有哪些?
- Prompt文本生成具体任务有哪些?
点击查看答案
6.3 LoRA 面试篇
- 什么是lora?
- lora 是怎么做的呢?
- lora 为什么可以这样做?
- 用一句话描述lora?
- lora 优点是什么?
- lora 缺点是什么?
- lora 如何实现?
点击查看答案
6.4 PEFT(State-of-the-art Parameter-Efficient Fine-Tuning)面试篇
- 一、微调Fine-tuning 篇
- 1.1 什么是微调Fine-tuning ?
- 1.2 微调Fine-tuning 基本思想是什么?
- 二、轻度微调(lightweight Fine-tuning)篇
- 2.1 什么是轻度微调(lightweight Fine-tuning)?
- 三、适配器微调(Adapter-tuning)篇
- 3.1 什么是适配器微调(Adapter-tuning)?
- 3.2 适配器微调(Adapter-tuning)变体有哪些?
- 四、提示学习(Prompting)篇
- 4.1 什么是提示学习(Prompting)?
- 4.2 提示学习(Prompting)的目的是什么?
- 4.3 提示学习(Prompting) 代表方法有哪些?
- 4.3.1 前缀微调(Prefix-tining)篇
- 4.3.1.1 什么是前缀微调(Prefix-tining)?
- 4.3.1.2 前缀微调(Prefix-tining)的核心是什么?
- 4.3.1.3 前缀微调(Prefix-tining)的技术细节有哪些?
- 4.3.1.4 前缀微调(Prefix-tining)的优点是什么?
- 4.3.1.5 前缀微调(Prefix-tining)的缺点是什么?
- 4.3.2 指示微调(Prompt-tuning)篇
- 4.3.2.1 什么是指示微调(Prompt-tuning)?
- 4.3.2.2 指示微调(Prompt-tuning)的核心思想?
- 4.3.2.3 指示微调(Prompt-tuning)的优点/贡献是什么?
- 4.3.2.4 指示微调(Prompt-tuning)的缺点是什么?
- 4.3.2.5 指示微调(Prompt-tuning)与Prefix-tuning 区别是什么?
- 4.3.2.6 指示微调(Prompt-tuning)与fine-tuning 区别是什么?
- 4.3.3 P-tuning 篇
- 4.3.3.1 P-tuning 动机是什么?
- 4.3.3.2 P-tuning 核心思想是什么?
- 4.3.3.3 P-tuning 做了哪些改进?
- 4.3.3.4 P-tuning 有哪些优点/贡献?
- 4.3.3.5 P-tuning 有哪些缺点?
- 4.3.4 P-tuning v2 篇
- 4.3.4.1 为什么需要P-tuning v2?
- 4.3.4.2 P-tuning v2 是什么?
- 4.3.4.3 P-tuning v2 有哪些优点?
- 4.3.4.4 P-tuning v2 有哪些缺点?
- 4.3.5 PPT 篇
- 4.3.5.1 为什么需要PPT ?
- 4.3.5.2 PPT 核心思想是什么?
- 4.3.5.3 PPT 具体做法是怎么样?
- 4.3.5.4 常用的soft prompt初始化方法?
- 4.3.5.5 PPT 的优点是什么?
- 4.3.5.6 PPT 的缺点是什么?
- 4.4 提示学习(Prompting) 优点是什么?
- 4.5 提示学习(Prompting) 本质是什么?
- 五、指令微调(Instruct-tuning)篇
- 5.1 为什么需要指令微调(Instruct-tuning)?
- 5.2 指令微调(Instruct-tuning)是什么?
- 5.3 指令微调(Instruct-tuning)的优点是什么?
- 5.4 指令微调(Instruct-tuning) vs 提升学习(Prompting)?
- 5.5 指令微调(Instruct-tuning) vs 提升学习(Prompting) vs Fine-tuning?
- 六、指令提示微调(Instruct Prompt tuning)篇
- 6.1 为什么需要指令微调(Instruct-tuning)?
- 6.2 指令微调(Instruct-tuning) 是什么?
- 6.3 指令微调(Instruct-tuning) 在不同任务上性能?
- 七、self-instruct篇
- 八、Chain-of-Thought 篇
- 8.1 为什么需要Chain-of-Thought ?
- 8.2 什么是Chain-of-Thought ?
- 8.3 Chain-of-Thought 的思路是怎么样的?
- 8.4 Chain-of-Thought 的优点是什么?
- 8.5 为什么chain-of-thought 会成功?
- 九、LoRA 篇
- 9.1 LoRA 篇
- 9.1.1 LoRA 核心思想是什么?
- 9.1.2 LoRA 具体思路是什么?
- 9.1.3 LoRA 优点是什么?
- 9.1.4 LoRA 缺点是什么?
- 9.2 AdaLoRA 篇
- 9.2.1 AdaLoRA 核心思想是什么?
- 9.2.2 AdaLoRA 实现思路是什么?
- 9.3 DyLoRA 篇
- 9.3.1 AdaLoRA 动机是什么?
- 9.3.2 AdaLoRA 核心思想是什么?
- 9.3.3 AdaLoRA 优点是什么?
- 十、BitFit 篇
- 10.1 AdaLoRA 核心思想是什么?
- 10.2 AdaLoRA 优点是什么?
- 10.3 AdaLoRA 缺点是什么?
点击查看答案
七、LLMs 面试篇
7.1 [What are the fine-tuning methods for the LLM model now? ¿Cuáles son las ventajas y desventajas de cada uno?
- What are the fine-tuning methods for the LLM model now? ¿Cuáles son las ventajas y desventajas de cada uno?
点击查看答案
7.2 GLM:ChatGLM的基座模型常见面试题
- GLM 的核心是什么?
- GLM 的模型架构是什么?
- GLM 如何进行多任务训练?
- 在进行NLG 时, GLM 如何保证生成长度的未知性?
- GLM 的多任务微调方式有什么差异?
- GLM 的多任务微调方式有什么优点?
点击查看答案
一、基础算法常见面试篇
- 过拟合和欠拟合常见面试篇
- 一、过拟合和欠拟合是什么?
- 二、过拟合/高方差(overfiting / high variance)篇
- 2.1 过拟合是什么及检验方法?
- 2.2 导致过拟合的原因是什么?
- 2.3 过拟合的解决方法是什么?
- 三、欠拟合/高偏差(underfiting / high bias)篇
- 3.1 欠拟合是什么及检验方法?
- 3.2 导致欠拟合的原因是什么?
- 3.3 过拟合的解决方法是什么?
点击查看答案
- BatchNorm vs LayerNorm 常见面试篇
- 一、动机篇
- 1.1 独立同分布(independent and identically distributed)与白化
- 1.2 ( Internal Covariate Shift,ICS)
- 1.3 ICS问题带来的后果是什么?
- 二、Normalization 篇
- 2.1 Normalization 的通用框架与基本思想
- 三、Batch Normalization 篇
- 3.1 Batch Normalization(纵向规范化)是什么?
- 3.2 Batch Normalization(纵向规范化)存在什么问题?
- 3.3 Batch Normalization(纵向规范化)适用的场景是什么?
- 3.4 BatchNorm 存在什么问题?
- 四、Layer Normalization(横向规范化) 篇
- 4.1 Layer Normalization(横向规范化)是什么?
- 4.2 Layer Normalization(横向规范化)有什么用?
- 五、BN vs LN 篇
- 六、主流Normalization 方法为什么有效?
点击查看答案
激活函数常见面试篇
- 一、动机篇
- 二、激活函数介绍篇
- 2.1 sigmoid 函数篇
- 2.1.1 什么是sigmoid 函数?
- 2.1.2 为什么选sigmoid 函数作为激活函数?
- 2.1.3 sigmoid 函数有什么缺点?
- 2.2 tanh 函数篇
- 2.2.1 什么是tanh 函数?
- 2.2.2 为什么选tanh 函数作为激活函数?
- 2.2.3 tanh 函数有什么缺点?
- 2.3 relu 函数篇
- 2.3.1 什么是relu 函数?
- 2.3.2 为什么选relu 函数作为激活函数?
- 2.3.3 relu 函数有什么缺点?
- 三、激活函数选择篇
正则化常见面试篇
- 一、L0,L1,L2正则化篇
- 1.1 正则化是什么?
- 1.2 什么是L0 正则化?
- 1.3 什么是L1 (稀疏规则算子Lasso regularization)正则化?
- 1.4 什么是L2 正则化(岭回归Ridge Regression 或者权重衰减Weight Decay)正则化?
- 二、对比篇
- 2.1 什么是结构风险最小化?
- 2.2 从结构风险最小化的角度理解L1和L2正则化
- 2.3 L1 vs L2
- 三、dropout 篇
- 3.1 什么是dropout?
- 3.2 dropout 在训练和测试过程中如何操作?
- 3.3 dropout 如何防止过拟合?
点击查看答案
- 优化算法及函数常见面试篇
- 一、动机篇
- 1.1 为什么需要优化函数?
- 1.2 优化函数的基本框架是什么?
- 二、优化函数介绍篇
- 2.1 梯度下降法是什么?
- 2.2 随机梯度下降法是什么?
- 2.3 Momentum 是什么?
- 2.4 SGD with Nesterov Acceleration 是什么?
- 2.5 Adagrad 是什么?
- 2.6 RMSProp/AdaDelta 是什么?
- 2.7 Adam 是什么?
- 2.8 Nadam 是什么?
- 三、优化函数学霸笔记篇
点击查看答案
- 归一化常见面试篇
- 一、动机篇
- 2. Introducción
- 2.1 归一化有哪些方法?
- 2.2 归一化各方法特点?
- 2.3 归一化的意义?
- Iii. Solicitud
- 3.1 哪些机器学习算法需要做归一化?
- 3.2 哪些机器学习算法不需要做归一化?
点击查看答案
- 判别式(discriminative)模型vs. 生成式(generative)模型常见面试篇
- 一、判别式模型篇
- 1.1 什么是判别式模型?
- 1.2 判别式模型是思路是什么?
- 1.3 判别式模型的优点是什么?
- 二、生成式模型篇
- 2.1 什么是生成式模型?
- 2.2 生成式模型是思路是什么?
- 2.3 生成式模型的优点是什么?
- 2.4 生成式模型的缺点是什么?
点击查看答案
二、机器学习算法篇常见面试篇
点击查看答案
- 支持向量机常见面试篇
- 一、原理篇
- 1.1 什么是SVM?
- 1.2 SVM怎么发展的?
- 1.3 SVM存在什么问题?
- 二、算法篇
- 2.1 什么是块算法?
- 2.2 什么是分解算法?
- 2.3 什么是序列最小优化算法?
- 2.4 什么是增量算法?
- 三、其他SVM篇
- 3.1 什么是最小二次支持向量机?
- 3.2 什么是模糊支持向量机?
- 3.3 什么是粒度支持向量机?
- 3.4 什么是多类训练算法?
- 3.5 什么是孪生支持向量机?
- 3.6 什么是排序支持向量机?
- IV. Solicitud
- 4.1 模式识别
- 4.2 网页分类
- 4.3 系统建模与系统辨识
- 4.4 其他
- 五、对比篇
- 六、拓展篇
点击查看答案
- 集成学习常见面试篇
- 一、动机
- 二、集成学习介绍篇
- 2.1 Introducción
- 2.1.1 集成学习的基本思想是什么?
- 2.1.2 集成学习为什么有效?
- 三、 Boosting 篇
- 3.1 用一句话概括Boosting?
- 3.2 Boosting 的特点是什么?
- 3.3 Boosting 的基本思想是什么?
- 3.4 Boosting 的特点是什么?
- 3.5 GBDT 是什么?
- 3.6 Xgboost 是什么?
- 四、Bagging 篇
- 4.1 用一句话概括Bagging?
- 4.2 Bagging 的特点是什么?
- 4.3 Bagging 的基本思想是什么?
- 4.4 Bagging 的基分类器如何选择?
- 4.5 Bagging 的优点是什么?
- 4.6 Bagging 的特点是什么?
- 4.7 随机森林是什么?
- 五、 Stacking 篇
- 5.1 用一句话概括Stacking ?
- 5.2 Stacking 的特点是什么?
- 5.3 Stacking 的基本思路是什么?
- 六、常见问题篇
- 6.1 为什么使用决策树作为基学习器?
- 6.2 为什么不稳定的学习器更适合作为基学习器?
- 6.3 哪些模型适合作为基学习器?
- 6.4 Bagging 方法中能使用线性分类器作为基学习器吗? Boosting 呢?
- 6.5 Boosting/Bagging 与偏差/方差的关系?
- 七、对比篇
点击查看答案
九、【关于Python 】那些你不知道的事
- 【关于Python 】那些你不知道的事
- 一、什么是*args 和**kwargs?
- 1.1 为什么会有*args 和**kwargs?
- 1.2 *args 和**kwargs 的用途是什么?
- 1.3 *args 是什么?
- 1.4 **kwargs是什么?
- 1.5 *args 与**kwargs 的区别是什么?
- 二、什么是装饰器?
- 三、Python垃圾回收(GC)
- 3.1 垃圾回收算法有哪些?
- 3.2 引用计数(主要)是什么?
- 3.3 标记-清除是什么?
- 3.4 分代回收是什么?
- 四、python的sorted函数对字典按key排序和按value排序
- 4.1 python 的sorted函数是什么?
- 4.2 python 的sorted函数举例说明?
- 五、直接赋值、浅拷贝和深度拷贝
- 5.1 概念介绍
- 5.2 介绍
- 5.3 变量定义流程
- 5.3 赋值
- 5.4 浅拷贝
- 5.5 深度拷贝
- 5.6 核心:不可变对象类型and 可变对象类型
- 5.6.1 不可变对象类型
- 5.6.2 可变对象类型
- 六、进程、线程、协程
- 6.1 进程
- 6.1.1 什么是进程?
- 6.1.2 进程间如何通信?
- 6.2 线程
- 6.2.1 什么是线程?
- 6.2.2 线程间如何通信?
- 6.3 进程vs 线程
- 6.4 协程
- 6.4.1 什么是协程?
- 6.4.2 协程的优点?
- 七、全局解释器锁
- 7.1 什么是全局解释器锁?
- 7.2 GIL有什么作用?
- 7.3 GIL有什么影响?
- 7.4 如何避免GIL带来的影响?
十、【关于Tensorflow 】那些你不知道的事
- 【关于Tensorflow 损失函数】 那些你不知道的事
- 一、动机
- 二、什么是损失函数?
- 三、目标函数、损失函数、代价函数之间的关系与区别?
- 四、损失函数的类别
- 4.1 回归模型的损失函数
- (1)L1正则损失函数(即绝对值损失函数)
- (2)L2正则损失函数(即欧拉损失函数)
- (3)均方误差(MSE, mean squared error)
- (4)Pseudo-Huber 损失函数
- 4.2 分类模型的损失函数
- (1)Hinge损失函数
- (2)两类交叉熵(Cross-entropy)损失函数
- (3)Sigmoid交叉熵损失函数
- (4)加权交叉熵损失函数
- (5)Softmax交叉熵损失函数
- (6) SparseCategoricalCrossentropy vs sparse_categorical_crossentropy
- 5. Resumen