Téléchargement qa_match - Téléchargement du code source qa

qa_match

Autre code source

1.0.0

Télécharger

Introduction du projet

QA_Match est un outil de correspondance de questions-réponses basé sur l'apprentissage en profondeur qui prend en charge les questions de base de connaissances de la structure à une et deux couches. QA_Match prend en charge la base de base de connaissances structurelles à une couche à travers le modèle de correspondance d'intention et prend en charge la base de base de la base de connaissances structurelles à deux couches à travers les résultats du modèle de classification du domaine de fusion et le modèle d'appariement de l'intention. QA_Match prend également en charge la fonction pré-formation non supervisée, et grâce à des modèles de langage pré-formé légers (SPTM, modèle pré-entraîné simple) peut améliorer l'efficacité des tâches en aval telles que les questions et réponses de la base de connaissances.

Q&R de base de connaissances

Dans les scénarios réels, la base de connaissances est généralement construite par un résumé manuel, l'annotation, l'exploration de machines, etc. La base de connaissances contient un grand nombre de questions standard, chaque question standard a une réponse standard et quelques questions étendues. Nous appelons ces questions étendues questions étendues de questions étendues. Pour une base de connaissances structurelles à une couche qui ne contient que des questions standard et des questions d'extension, nous appelons les questions standard dans l'intention. Pour une base de connaissances structurelles à deux couches, chaque problème standard et son problème étendu ont une catégorie, que nous appelons des domaines, et un domaine contient plusieurs intentions.

Le QA_Match prend en charge la structure de la base de connaissances comme suit:

Structure de base de connaissances

Pour les questions d'entrée, QA_Match peut donner trois réponses en combinaison avec la base de connaissances:

Réponse unique (identifiée comme l'intention spécifique de l'utilisateur)
Liste des réponses (identifiées comme plusieurs intentions possibles de l'utilisateur)
Rejeter pour identifier (aucune intention utilisateur spécifique n'a été identifiée)

Dans les deux structures de base de connaissances, il existe des différences dans l'utilisation de QA_Match, qui sont expliquées ci-dessous:

Q&R automatique basée sur la base de connaissances de la structure à deux couches

Deux couches de fusion de résultats

Pour les questions de base de connaissances à deux couches de la structure de la structure, QA_Match classera et identifiera d'abord les questions de l'utilisateur dans les domaines et les intentions, puis intégrera les résultats des deux pour obtenir la véritable intention et répondre de l'utilisateur en conséquence (réponses uniques, répertorier les réponses, rejeter les réponses). Par exemple: Comme le montre le diagramme de structure de base de connaissances dans la question et la réponse de la base de connaissances ci-dessus, nous avons une base de connaissances à la structure à deux couches, qui comprend des «informations» et «compte» deux champs. Le champ "Information" contient deux intentions: "Comment publier des informations", "Comment supprimer les informations", et le champ "Compte" contient l'intention: "Comment annuler le compte". Lorsque l'utilisateur entre dans la question: "Comment publier un message? Quand", QA_Match effectuera la logique des questions et réponses suivantes:

Les problèmes d'entrée sont notés à l'aide du modèle de classification du domaine LSTM et du modèle de correspondance d'intention DSSM respectivement. Par exemple, le modèle de classification du domaine est noté à un maximum de 0,99 et est identifié comme le champ "Information", et le modèle de correspondance d'intention est noté à un maximum de 0,98 et est identifié comme l'intention "Comment publier des informations". Étant donné que l'étiquette correspondante avec le score le plus élevé du modèle de classification du domaine est une classe d'information, elle est jugée comme un certain type de branche.
Après être entré dans le jugement en tant que branche de classification, le score le plus élevé du modèle de classification du domaine est de 0,99 et la valeur de seuil B1 (comme B1 = 0,9) dans le graphique de la base de base de la base de structure à deux couches. Depuis 0,99> = B1, il est jugé pour être considéré comme une sous-branche de "correspondance d'intention DSSM stricte".
Après être entré dans la branche "stricte DSSM Matching", comparez le score maximal du modèle de correspondance d'intention avec le seuil x1 (par exemple x1 = 0,8) et x2 (par exemple x2 = 0,95) et trouvez 0,98> x2. Par conséquent, utilisez la réponse correspondant aux informations pour publier la réponse (les réponses des autres branches sont similaires).

Q&R automatique basée sur une base de connaissances de structure à une couche

Dans les scénarios réels, nous rencontrerons également une couche de questions de questions-réponses de base de connaissances structurelles. L'utilisation du modèle de correspondance de l'intention DSSM et du modèle de langage pré-formé léger SPTM peut résoudre ce type de problème. Comparaison des deux:

Modèle	Comment utiliser	avantage	défaut
Modèle de correspondance de l'intention du DSSM	Le modèle de correspondance DSSM correspond directement	①aisy à utiliser, le modèle occupe peu d'espace.	Impossible d'utiliser les informations de contexte
Modèle de langage pré-formé léger SPTM	Modèle de langue LSTM / Transformateur pré-formé + Modèle de correspondance LSTM / Transformateur Fine-Tune	① peut utiliser pleinement les données pré-formation non supervisées pour améliorer l'effet ② Le modèle de langue peut être utilisé pour d'autres tâches en aval	① La pré-formation nécessite une grande quantité de données sans étiquette ② L'opération est plus compliquée (deux étapes sont nécessaires pour obtenir le modèle d'appariement)

Q&R automatique basée sur le modèle DSSM

Une couche de fusion de résultats

Pour les questions de base de la base de la structure de la première couche, il vous suffit d'utiliser le modèle de correspondance de l'intention DSSM pour marquer les questions d'entrée et de comparer le score le plus élevé de l'intention correspondant à X1 et X2 dans la figure ci-dessus pour déterminer le type de réponse (réponse unique, réponse de liste, rejet).

Q&R automatique basée sur le modèle SPTM

Introduction au modèle de langage pré-formé léger (SPTM, modèle pré-entraîné simple)

Étant donné qu'il existe souvent une grande quantité de données non marquées dans une utilisation réelle, lorsque les données de base de connaissances sont limitées, des modèles de langage pré-formés non supervisés peuvent être utilisés pour améliorer l'efficacité des modèles d'appariement. En se référant au processus de pré-formation Bert, en mai 2019, nous avons développé le modèle SPTM. Comparé à Bert, ce modèle a principalement amélioré trois aspects: premièrement, il supprime le NSP (prédiction de phrase suivante) avec des effets insignifiants, deuxièmement, pour améliorer les performances d'inférence en ligne, le transformateur a été remplacé par LSTM et troisièmement pour garantir que l'effet du modèle réduit la quantité de paramètre, il fournit également un transformateur avec des paramètres partagés entre les blocs. Le principe du modèle est le suivant:

Prétraitement des données

Lorsque la pré-formation du modèle, les données de formation doivent être générées à l'aide de phrases uniques sans lié comme ensemble de données, et Bert est utilisé pour construire l'échantillon: chaque phrase unique est utilisée comme échantillon, 15% des mots de la phrase participent à la prédiction, 80% des mots participant à la prédiction ne sont pas masqués, 10% sont remplacés au hasard par un autre mot dans le dictionnaire, et 10% ne sont pas remplacés.

Pré-formation

La structure du modèle de l'étape de pré-formation est indiquée dans la figure ci-dessous:

Structure du modèle

Afin d'améliorer la capacité d'expression du modèle et de conserver des informations plus peu profondes, le réseau résiduel BI-LSTM (LSTM résiduel) a été introduit comme corps du modèle. Le réseau normalise l'entrée de chaque couche de Bi-LSTM et la sortie de cette couche, et le résultat est utilisé comme entrée de la couche suivante. De plus, la dernière sortie Bi-LSTM de couche est utilisée comme entrée d'une couche entièrement connectée. Après l'avoir additionné et normalisé avec la sortie de la couche entièrement connectée, le résultat est utilisé comme sortie de l'ensemble du réseau.

L'exemple de tâches préalable à la formation est illustré dans le tableau suivant:

Nom métrique	Valeur indicatrice	Valeur indicatrice	Valeur indicatrice
Structure du modèle	LSTM	Transformateur pour le partage des paramètres	Transformateur pour le partage des paramètres
Taille de l'ensemble de données pré-entraîné	10 millions	10 millions	10 millions
Ressources de pré-formation	10 NVIDIA K40 / 12G Mémoire	10 NVIDIA K40 / 12G Mémoire	10 NVIDIA K40 / 12G Mémoire
Paramètres de pré-formation	étape = 100000 / taille de lot = 128	Étape = 100000 / Taille du lot = 128/1 couches / 12 têtes	Étape = 100000 / Taille du lot = 128/12 couches / 12 têtes
Pré-formation de temps en temps	8,9 heures	13,5 heures	32,9 heures
Taille du modèle pré-entraîné	81m	80,6 m	121m

Processus de question et de réponse automatique SPTM

Modèle de langue pré-formée

Après l'introduction de SPTM, pour la séance de base de la base de la structure de la première couche, les questions d'entrée sont d'abord notées en utilisant le modèle de correspondance d'intention basé sur le modèle de libellé, puis le type de réponse (réponse unique, réponse de liste, rejet) est déterminée sur la base de la même stratégie que le modèle d'intention d'intention DSSM.

Comment utiliser

Introduction des données

Le format du fichier de données (dans le dossier DATA_DEMO) qui doit être utilisé est le suivant. Afin de ne pas divulguer de données, nous avons codé le texte d'origine du problème standard et du problème étendu, et dans les scénarios d'application réels, préparez simplement les données dans le format suivant.

STD_DATA: La correspondance entre la catégorie et le problème standard, y compris trois colonnes: ID de catégorie, ID de problème standard et texte du problème standard
pre_train_data: un ensemble de données pré-formé sans étiquette, chaque ligne est un morceau de texte
Vocabe: Dictionnaire de données pré-formé, chaque ligne est un mot (le dictionnaire doit contenir <PAD> 、 `)
Train_data: ensemble de formation, y compris trois colonnes: ID de problème standard, identifiant de problème étendu et texte du problème étendu
Valid_data: Ensemble de vérification, y compris trois colonnes: ID de question standard, identifiant de question étendu et texte de question étendu
test_data: jeu de tests, y compris trois colonnes: ID de problème standard, identifiant de problème étendu et texte du problème étendu

Les données sont séparées par t, le codage du problème est séparé par des espaces et les mots sont séparés par des espaces. Notez que dans l'exemple de données de ce projet, le texte d'origine est codé et chaque mot est remplacé par un nombre. Par exemple, comment le texte réel correspondant au 205 19 90 417 41 44如何删除信息, et cette opération de codage n'est pas requise lorsqu'elle est réellement utilisée ; Si la structure de base de connaissances est d'un niveau, tous les ID de catégorie du fichier std_data doivent être définis sur __label__0 .

Processus minier semi-automatique de base de connaissances

Le processus minier semi-automatique de la base de connaissances est un ensemble de solutions miniers semi-automatiques pour les bases de connaissances construites sur le processus de question et de réponse automatique de la QA (reportez-vous à la question et à la réponse automatique sur la base d'une structure de base de connaissances à une couche), ce qui contribue à améliorer l'échelle de la base de connaissances et la qualité de la base de connaissances. D'une part, cela améliore la capacité de correspondre en ligne; D'un autre côté, il améliore la qualité des données de formation des modèles hors ligne et améliore ainsi les performances du modèle. Le processus d'extraction semi-automatique de la base de connaissances peut être utilisé pour deux scénarios: l'exploitation à froid de démarrage et l'exploitation itérative après le lancement du modèle. Pour plus de détails, veuillez consulter les instructions d'exploitation de la base de connaissances.

Comment courir

Voir les instructions de fonctionnement pour plus de détails

Conseils

Étant donné que les étiquettes correspondantes de l'échantillon d'origine sont interrompues au hasard lors de la sélection d'échantillons négatifs dans le modèle DSSM, les paramètres du modèle doivent rencontrer batch_size >= negitive_size , sinon le modèle ne peut pas être formé efficacement.
Méthode de sélection des paramètres de fusion du modèle: La sélection de paramètres actuelle est basée sur les statistiques. Tout d'abord, calculez la valeur F1 de l'étiquette du modèle (comme le rejet) correspondant à différentes valeurs du même paramètre (telles que A1 dans le diagramme de base de base de connaissance de la structure à deux couches) sur l'ensemble de tests, puis sélectionnez la valeur correspondant à la valeur F1 plus grande comme valeur du paramètre. Par exemple: lors de la sélection de la valeur finale du paramètre A1 dans le diagramme de la base de questions de base de base de la structure à deux couches, tout d'abord, l'étiquette du modèle correspondant à différentes valeurs de candidats A1 sera obtenue sur l'ensemble de tests (tel que le rejet, la non-rejet), puis de calculer la valeur F1 en fonction de l'étiquette réelle de l'échantillon, et enfin la valeur de la valeur candidate) comme la valeur F1 appropriée (Accuracy / Rappel TaU de a1.

Environnement de course

 tensorflow 版本>r1.8 <r2.0, python3

Version

v1.0: https://github.com/wuba/qa_match/tree/v1.0

v1.1: https://github.com/wuba/qa_match/tree/v1.1

v1.2: https://github.com/wuba/qa_match/tree/v1.2

v1.3: https://github.com/wuba/qa_match/tree/v1.3

Planification future

À l'avenir, nous continuerons d'optimiser et d'élargir les capacités de QA_Match, et le plan est d'open source comme suit:

Actuellement, TensorFlow a été publié dans la version 2.4. À l'avenir, nous publierons la version Tensorflow 2.x ou la version Pytorch de QA_Match en fonction de nos besoins.

Comment contribuer et remettre en question les commentaires

Nous espérons sincèrement que les développeurs nous donneront des opinions et des suggestions précieuses. Vous pouvez choisir les façons suivantes de faire des commentaires et des questions pour nous:

Soumettre des relations publiques ou un problème sur github
Courriel à [email protected]

Développer

Informations supplémentaires

Version 1.0.0
Type Autre code source
Date de mise à jour 2025-04-16
taille 2.18MB
Provenant de Github

Applications connexes

Logiciel de support Aizhi·QA IoT

2024-08-15
Match de relooking

2024-01-29
Jellipop Match dernière version

2024-01-19
Application qualité de gestion intelligente sur site

2023-08-07
Bloquer la correspondance

2023-07-07
Match d'Anipang

2023-04-10

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout