Descargar qa_match - Descargar código fuente qa

qa_match

Otro código fuente

1.0.0

Descargar

Introducción del proyecto

QA_MATCH es una herramienta de coincidencia de preguntas y respuestas basada en el aprendizaje profundo que admite preguntas y respuestas de la base de conocimiento de una estructura de una y dos capas. QA_Match admite preguntas y respuestas de la base de conocimiento estructural de una capa a través del modelo de coincidencia de intenciones, y admite preguntas y respuestas de la base de conocimiento estructural de dos capas a través de los resultados del modelo de clasificación de dominio de fusión y el modelo de coincidencia de intentos. QA_Match también admite la función de pre-entrenamiento no supervisada, y a través de modelos livianos livianos previamente capacitados (SPTM, modelo simple previamente capacitado) puede mejorar la efectividad de las tareas aguas abajo, como preguntas y respuestas de la base de conocimiento.

Preguntas y respuestas de la base de conocimiento

En escenarios reales, la base de conocimiento generalmente se construye a través de resumen manual, anotación, minería de máquinas, etc. La base de conocimiento contiene una gran cantidad de preguntas estándar, cada pregunta estándar tiene una respuesta estándar y algunas preguntas extendidas. Llamamos a estas preguntas extendidas preguntas extendidas. Para una base de conocimiento estructural de una capa que contiene solo preguntas estándar y preguntas de extensión, llamamos a las preguntas estándar intenciones. Para una base de conocimiento estructural de dos capas, cada problema estándar y su problema extendido tienen una categoría, que llamamos dominios, y un dominio contiene múltiples intentos.

El QA_Match admite la estructura de la base de conocimiento de la siguiente manera:

Estructura de base de conocimiento

Para preguntas de entrada, QA_Match puede dar tres respuestas en combinación con la base de conocimiento:

Respuesta única (identificada como la intención específica del usuario)
Respuestas de la lista (identificadas como múltiples posibles intenciones del usuario)
Rechazar para identificar (no se identificó ninguna intención de usuario específica)

Según las dos estructuras de base de conocimiento, existen diferencias en el uso de QA_Match, que se explican a continuación:

Preguntas y respuestas automáticas basadas en la base de conocimiento de la estructura de dos capas

Dos capas de resultados Fusión

Para las preguntas y respuestas de la base de conocimiento de la estructura de dos capas, QA_Match primero clasificará e identificará las preguntas del usuario en dominios e intentos, y luego integrará los resultados de los dos para obtener la verdadera intención del usuario y la respuesta en consecuencia (respuestas únicas, respuestas de lista, respuestas de rechazo). Por ejemplo: como se muestra en el diagrama de la estructura de la base de conocimiento en la pregunta y respuesta de la base de conocimiento anterior, tenemos una base de conocimiento de estructura de dos capas, que incluye "información" y "cuenta" dos campos. El campo "Información" contiene dos intenciones: "Cómo publicar información", "Cómo eliminar la información", y el campo "Cuenta" contiene intención: "Cómo cancelar la cuenta". Cuando el usuario ingresa a la pregunta: "¿Cómo publico una publicación? Cuándo", Qa_Match realizará la siguiente lógica de preguntas y respuestas:

Los problemas de entrada se califican utilizando el modelo de clasificación de dominio LSTM y el modelo de coincidencia de intención DSSM respectivamente. Por ejemplo, el modelo de clasificación de dominio se califica en un máximo de 0.99 y se identifica como el campo de "información", y el modelo de coincidencia de intención se califica en un máximo de 0.98 y se identifica como la intención de "cómo publicar información". Dado que la etiqueta correspondiente con la puntuación más alta del modelo de clasificación de dominio es una clase de información, se juzga como un cierto tipo de rama.
Después de ingresar al juicio como una determinada rama de clasificación, la puntuación más alta del modelo de clasificación de dominio es 0.99 y el valor umbral B1 (como B1 = 0.9) en la tabla de preguntas y respuestas de la base de conocimiento de la estructura de dos capas. Desde 0.99> = B1, se considera que se toma como una sub-rama de "estricta intención DSSM coincidente".
Después de ingresar la rama "Strict DSSM intención de coincidencia", compare la puntuación máxima del modelo de coincidencia de intención con el umbral X1 (por ejemplo x1 = 0.8) y X2 (por ejemplo x2 = 0.95) y encuentre 0.98> X2. Por lo tanto, use la respuesta correspondiente a la información para publicar la respuesta (las respuestas de otras ramas son similares).

Preguntas y respuestas automáticas basadas en una base de conocimiento de estructura de una capa

En escenarios reales, también encontraremos una capa de preguntas de preguntas y respuestas de la base de conocimiento estructural. El uso del modelo de coincidencia de intención DSSM y el modelo de lenguaje pretrontrado liviano SPTM pueden resolver este tipo de problema. Comparación de los dos:

Modelo	Cómo usar	ventaja	defecto
Modelo de coincidencia de intención DSSM	El modelo de coincidencia DSSM coincide directamente	① ① ① Útil Usar, el modelo ocupa poco espacio ② velocidad de entrenamiento/predicción rápida	No se puede utilizar la información de contexto
SPTM Modelo de lenguaje previamente priorizado con peso ligero	Modelo de lenguaje LSTM/transformador previamente capacitado + Modelo de coincidencia de transformador/LSTM/transformador	① Puede hacer uso completo de datos de pre-entrenamiento no supervisados para mejorar el efecto ② El modelo de lenguaje se puede utilizar para otras tareas aguas abajo	① Pre-entrenamiento requiere una gran cantidad de datos sin etiqueta ② La operación es más complicada (se requieren dos pasos para obtener el modelo de coincidencia)

Preguntas y respuestas automáticas basadas en el modelo DSSM

Una capa de fusión de resultados

Para las preguntas y respuestas de la base de conocimiento de la estructura de la primera capa, solo necesita usar el modelo de coincidencia de intención DSSM para calificar las preguntas de entrada y comparar la puntuación más alta de la intención que coincida con x1 y x2 en la figura anterior para determinar el tipo de respuesta (respuesta única, respuesta de lista, rechazo).

Preguntas y respuestas automáticas basadas en el modelo SPTM

Introducción al modelo de lenguaje priorizado ligero (SPTM, modelo simple previamente capacitado)

Teniendo en cuenta que a menudo hay una gran cantidad de datos no etiquetados en el uso real, cuando los datos de la base de conocimiento son limitados, se pueden utilizar modelos de lenguaje previamente capacitados no supervisados para mejorar la efectividad de los modelos coincidentes. Refiriéndose al proceso de pre-entrenamiento de Bert, en mayo de 2019, desarrollamos el modelo SPTM. En comparación con Bert, este modelo ha mejorado principalmente tres aspectos: primero, elimina NSP (la siguiente predicción de oraciones) con efectos insignificantes, segundo, para mejorar el rendimiento de la inferencia en línea, el transformador se reemplazó con LSTM y tercero, para garantizar que el efecto del modelo reduzca la cantidad de parámetros, también proporciona un transformador con los parámetros compartidos entre los bloques. El principio del modelo es el siguiente:

Preprocesamiento de datos

Al prevenir el modelo, los datos de capacitación deben generarse utilizando oraciones individuales de Labellos como el conjunto de datos, y Bert se usa para construir la muestra: cada oración única se usa como una muestra, el 15% de las palabras en la oración participan en la predicción, el 80% de las palabras que participan en la predicción, el 10% se reemplazan al azar con otra palabra en el diccionario y el 10% no se reemplazan.

Pre-entrenamiento

La estructura del modelo de la etapa previa a la capacitación se muestra en la figura a continuación:

Estructura modelo

Para mejorar la capacidad de expresión del modelo y retener información más superficial, la red residual de BI-LSTM (LSTM residual) se introdujo como el cuerpo del modelo. La red normaliza la entrada de cada capa de BI-LSTM y la salida de esta capa, y el resultado se usa como entrada de la siguiente capa. Además, la salida BI-LSTM de la última capa se usa como la entrada de una capa totalmente conectada. Después de sumarlo y normalizarlo con la salida de la capa totalmente conectada, el resultado se usa como salida de toda la red.

El ejemplo que requiere mucho tiempo de tareas de pre-entrenamiento se muestra en la siguiente tabla:

Nombre métrico	Valor indicador	Valor indicador	Valor indicador
Estructura modelo	LSTM	Transformador para compartir parámetros	Transformador para compartir parámetros
Tamaño del conjunto de datos previamente	10 millones	10 millones	10 millones
Recursos de pre-entrenamiento	10 NVIDIA K40 / 12G Memoria	10 NVIDIA K40 / 12G Memoria	10 NVIDIA K40 / 12G Memoria
Parámetros previos al entrenamiento	paso = 100000 / tamaño por lotes = 128	paso = 100000 / tamaño por lotes = 128/1 capas / 12 cabezas	paso = 100000 / tamaño por lotes = 128/12 capas / 12 cabezas
Consumidor de tiempo previo a la capacitación	8.9 horas	13.5 horas	32.9 horas
Tamaño del modelo previamente	81m	80.6m	121m

Proceso de respuesta y respuesta automática SPTM

Modelo de idioma previamente capacitado

Después de la introducción de SPTM, para las preguntas y respuestas de la base de conocimiento de la estructura de la primera capa, las preguntas de entrada se califican primero utilizando el modelo de coincidencia de intenciones basado en el modelo de lenguaje ajustado, y luego el tipo de respuesta (respuesta única, respuesta de lista, rechazo) se determina en función de la misma estrategia que el modelo de coincidencia de intención DSSM.

Cómo usar

Introducción de datos

El formato del archivo de datos (en la carpeta data_demo) que debe usarse es el siguiente. Para no filtrar datos, hemos codificado el texto original del problema estándar y el problema extendido, y en escenarios de aplicación reales, simplemente prepare los datos en el siguiente formato.

std_data: la correspondencia entre la categoría y el problema estándar, incluidas tres columnas: ID de categoría, ID de problema estándar y texto de problemas estándar
pre_train_data: un conjunto de datos pre-entrenado sin etiqueta, cada línea es una pieza de texto
Vocab: Diccionario de datos previamente capacitado, cada línea es una palabra (el diccionario debe contener <PAD> 、 `)
Train_data: conjunto de entrenamiento, incluidas tres columnas: ID de problema estándar, ID de problema extendido y texto de problemas extendidos
válido_data: conjunto de verificación, incluidas tres columnas: ID de pregunta estándar, ID de pregunta extendida y texto de preguntas extendidas
test_data: conjunto de pruebas, incluidas tres columnas: ID de problema estándar, ID de problema extendido y texto de problemas extendido

Los datos están separados por t, la codificación del problema está separada por espacios y las palabras están separadas por espacios. Tenga en cuenta que en el ejemplo de datos de este proyecto, el texto original está codificado y cada palabra se reemplaza con un número. Por ejemplo, cómo el texto real correspondiente a 205 19 90 417 41 44如何删除信息, y esta operación de codificación no se requiere cuando realmente se usa ; Si la estructura de la base de conocimiento es de un nivel, todas las ID de categoría en el archivo std_data deben establecerse en __label__0 .

Proceso minero semiautomático de la base de conocimiento

El proceso de minería semiautomática de la base de conocimiento es un conjunto de soluciones mineras semiautomáticas para bases de conocimiento basadas en el proceso automático de preguntas y preguntas automáticas de QA (consulte la pregunta automática y la respuesta basada en una estructura de base de conocimiento de una capa), que ayuda a mejorar la escala de la base de conocimiento y la calidad de la base de conocimiento. Por un lado, mejora la capacidad de igualar en línea; Por otro lado, mejora la calidad de los datos de entrenamiento del modelo fuera de línea y, por lo tanto, mejora el rendimiento del modelo. El proceso de minería semiautomática de la base de conocimiento se puede utilizar para dos escenarios: minería de inicio en frío y minería iterativa después de que se lance el modelo. Para más detalles, consulte las instrucciones de minería de la base de conocimiento.

Cómo correr

Consulte las instrucciones de operación para más detalles

Consejos

Dado que las etiquetas correspondientes de la muestra original se dividen aleatoriamente al seleccionar muestras negativas en el modelo DSSM, los parámetros del modelo deben cumplir con batch_size >= negitive_size , de lo contrario, el modelo no puede ser capacitado de manera efectiva.
Método de selección de parámetros de fusión del modelo: la selección de parámetros actuales se basa en estadísticas. Primero, calcule el valor F1 de la etiqueta del modelo (como el rechazo) correspondiente a diferentes valores del mismo parámetro (como A1 en el diagrama de preguntas y respuestas de la base de conocimiento de la estructura de dos capas) en el conjunto de pruebas, y luego seleccione el valor correspondiente al valor F1 más grande como el valor del parámetro. Por ejemplo: al seleccionar el valor final del parámetro A1 en el diagrama de preguntas y respuestas de la base de conocimiento de la estructura de dos capas, en primer lugar, la etiqueta del modelo correspondiente a diferentes valores de candidato A1 se obtendrá en el conjunto de pruebas (como el rechazo, no rechazo), y luego calcule el valor F1 basado en la etiqueta real de la muestra, y finalmente seleccione el valor de candidato correspondiente al valor F1 apropiado (la velocidad de recurrencia/recreación de recreadas) según el requisito final). valor de a1.

Entorno de funcionamiento

 tensorflow 版本>r1.8 <r2.0, python3

Versión

V1.0: https://github.com/wuba/qa_match/tree/v1.0

V1.1: https://github.com/wuba/qa_match/tree/v1.1

V1.2: https://github.com/wuba/qa_match/tree/v1.2

V1.3: https://github.com/wuba/qa_match/tree/v1.3

Planificación futura

En el futuro, continuaremos optimizando y expandiendo las capacidades de QA_Match, y el plan es abrir el código de la siguiente manera:

Actualmente, TensorFlow se ha lanzado a la versión 2.4. En el futuro, lanzaremos la versión TensorFlow 2.x o la versión Pytorch de QA_Match de acuerdo con nuestras necesidades.

Cómo contribuir y la retroalimentación de preguntas

Esperamos sinceramente que los desarrolladores nos den opiniones y sugerencias valiosas. Puede elegir las siguientes formas de retroalimentación de sugerencias y preguntas:

Envíe PR o problema en GitHub
Envíe un correo electrónico a [email protected]

Expandir

Información adicional

Versión 1.0.0
Tipo Otro código fuente
Fecha de actualización 2025-04-16
tamaño 2.18MB
Proviene de Github

Aplicaciones relacionadas

Aizhi·QA Software de soporte de IoT

2024-08-15
Partido de cambio de imagen

2024-01-29
Última versión de Jellipop Match

2024-01-19
Aplicación de control de calidad de gestión inteligente en el sitio

2023-08-07
Coincidencia de bloques

2023-07-07
Partido de Anipang

2023-04-10

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo