Téléchargement simple effective text matching - simple effective text matching Téléchargement du code source

simple effective text matching

Autre code source

1.0.0

Télécharger

RE2

Il s'agit de l'implémentation TensorFlow originale de la correspondance de texte simple et efficace du papier ACL 2019 avec des fonctionnalités d'alignement plus riches. Implémentation de Pytorch: https://github.com/alibaba-edu/simple-effective-text-matching-pytorch.

Liens rapides

À propos
Installation
Usage

Correspondance de texte simple et efficace

RE2 est une architecture neuronale rapide et forte pour les applications de correspondance de texte à usage général. Dans une tâche de correspondance de texte, un modèle prend deux séquences de texte en entrée et prédit leur relation. Cette méthode vise à explorer ce qui est suffisant pour de fortes performances dans ces tâches. Il simplifie ou omet de nombreux composants lents qui sont auparavant considérés comme des blocs de construction de base dans la correspondance du texte. Il réalise ses performances par une idée simple, qui conserve trois fonctionnalités clés directement disponibles pour l'alignement inter-séquence et la fusion: fonctionnalités alignées précédentes (vecteurs r esiduaux), fonctionnalités ponctuelles d'origine (vecteurs E mbedding) et fonctionnalités contextuelles (sortie de Ncoder ).

RE2 obtient des performances à égalité avec l'état de l'art sur quatre ensembles de données de référence: SNLI, Scitail, Quora et Wikiqa, à travers les tâches de l'inférence du langage naturel, l'identification paraphrase et la sélection des réponses sans ou peu de tâches. Il a au moins 6 fois une vitesse d'inférence plus rapide par rapport aux modèles effectués de manière similaire.

Le tableau suivant répertorie les principaux résultats de l'expérience. L'article rapporte l'écart moyen et standard de 10 cycles et les résultats peuvent être facilement reproduits. Le temps d'inférence (en secondes) est mesuré en traitant un lot de 8 paires de longueur 20 sur les processeurs Intel i7. Le temps de calcul des caractéristiques POS utilisés par CSRAN et DIIN n'est pas inclus.

Modèle	Snli	Snitail	Quora	Wikiqa	Temps d'inférence
Bimpm	86.9	-	88.2	0,731	0,05
Esim	88.0	70.6	-	-	-
Diin	88.0	-	89.1	-	1.79
Csran	88.7	86.7	89.2	-	0,28
RE2	88,9 ± 0,1	86,0 ± 0,6	89,2 ± 0,2	0,7618 ± 0,0040	0,03 ~ 0,05

Reportez-vous à l'article pour plus de détails sur les composants et les résultats de l'expérience.

Installation

installer python> = 3,6 et pip
pip install -r requirements.txt
Installez TensorFlow 1.4 ou supérieur (le fichier de roue pour TensorFlow 1.4 GPU Version sous Python 3.6 peut être trouvé ici)
Téléchargez Glove Word Vectors (Glove.840B.300D) sur resources/

Les données utilisées dans le papier sont préparées comme suit:

Snli

Télécharger et unzip snli (prétraité par Tay et al.) À data/orig .
Décompressez tous les fichiers zip dans le dossier "data / orig / snli". ( cd data/orig/SNLI && gunzip *.gz )
cd data && python prepare_snli.py

Snitail

Téléchargez et dézip un ensemble de données Scitail sur data/orig .
cd data && python prepare_scitail.py

Quora

Télécharger et dézip Quora Dataset (prétraité par Wang et al.) À data/orig .
cd data && python prepare_quora.py

Wikiqa

Téléchargez et dézip Wikiqa sur data/orig .
cd data && python prepare_wikiqa.py
Téléchargez et dézip des scripts d'évaluation. Utilisez la commande make -B pour compiler les fichiers source dans qg-emnlp07-data/eval/trec_eval-8.0 . Déplacez le fichier binaire "Trec_eval" vers resources/ .

Usage

Pour former un nouveau modèle de correspondance de texte, exécutez la commande suivante:

python train.py $config_file .json5

Des exemples de fichiers de configuration sont fournis dans configs/ :

configs/main.json5 : reproduire le résultat de l'expérience principale dans l'article.
configs/robustness.json5 : vérifications de la robustesse
configs/ablation.json5 : étude d'ablation

Les instructions pour rédiger vos propres fichiers de configuration:

 [
    {
        name : 'exp1' , // name of your experiment, can be the same across different data
        __parents__ : [
            'default' , // always put the default on top
            'data/quora' , // data specific configurations in `configs/data`
            // 'debug', // use "debug" to quick debug your code  
        ] ,
        __repeat__ : 5 ,  // how may repetitions you want
        blocks : 3 , // other configurations for this experiment 
    } ,
    // multiple configurations are executed sequentially
    {
        name : 'exp2' , // results under the same name will be overwritten
        __parents__ : [
            'default' , 
            'data/quora' ,
        ] ,
        __repeat__ : 5 ,  
        blocks : 4 , 
    }
]

Pour vérifier les configurations uniquement, utilisez

python train.py $config_file .json5 --dry

Citation

Veuillez citer le papier ACL si vous utilisez RE2 dans votre travail:

 @inproceedings{yang2019simple,
  title={Simple and Effective Text Matching with Richer Alignment Features},
  author={Yang, Runqi and Zhang, Jianhai and Gao, Xing and Ji, Feng and Chen, Haiqing},
  booktitle={Association for Computational Linguistics (ACL)},
  year={2019}
}

Licence

RE2 est sous la licence APache 2.0.

Développer

Informations supplémentaires

Version 1.0.0
Type Autre code source
Date de mise à jour 2025-04-19
taille 182.22KB
Provenant de Github

Applications connexes

Texte avec Jésus chinois

2023-08-23
Texte avec Jésus

2023-08-17
Texte Avec Jésus version chinoise

2023-08-17
Envoyez un SMS ou mourez

2023-07-03
Le CMS simplifié

2014-02-07
Logiciel de groupe simple

2012-03-15

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout