RocketQA Téléchargement - RocketQA Code source Télécharger

RocketQA

Autre code source

1.0.0

Télécharger

Ces dernières années, les Retrievers denses basés sur des modèles de langage pré-formés ont réalisé des progrès remarquables. Pour faciliter davantage de développeurs à l'aide de technologies de pointe, ce référentiel fournit une boîte à outils facile à utiliser pour l'exécution et le réglage fin des retrievers dense de la pointe de la technologie, à savoir Rocketqa . Cette boîte à outils présente les avantages suivants:

À la pointe de la technologie : Rocketqa fournit nos modèles bien formés, qui réalisent les performances SOTA sur de nombreux ensembles de données de récupération denses. Et il continuera à mettre à jour les derniers modèles.
Modèle de premier chinois : Rocketqa fournit le premier modèle de récupération dense chinois open source, qui est formé sur des millions de données d'annotation manuelle de DureReader.
Facile à utiliser : en intégrant cette boîte à outils avec Jina, Rocketqa peut aider les développeurs à créer un système de récupération de bout en bout et un système de réponse aux questions avec plusieurs lignes de code.

Nouvelles

? 27 novembre 2022: Notre document d'enquête sur la récupération dense dense récupération de texte dense basée sur des modèles de langue pré-étendue: une enquête était accessible au public.
8 octobre 2022: _{la récupération} de DureRer a été acceptée par EMNLP 2022. [Données]; La dernière version de DureReder _Retrieval contient des références de récupération interdictionnelles. Restez à l'écoute!
29 avril 2022: La fonction de formation est ajoutée à la boîte à outils Rocketqa. Et les modèles de référence de _{la récupération} Dureader (encodeur croisé et encodeur double) sont disponibles dans les modèles Rocketqa.
30 mars 2022: Nous avons publié DureRer _Retrieval , une référence chinoise à grande échelle pour la récupération de passage. L'ensemble de données contient plus de 90 000 questions et 8 m de passages de la recherche Baidu. [papier] [données]; La base de référence de DureRer _Retrieval Leadboard a également été publiée. [code / modèle]
3 décembre 2021: La boîte à outils de Retriever Rocketqa dense est publiée, y compris le premier modèle de récupération dense chinois formé sur DureReder.
26 août 2021: Rocketqa V2 a été accepté par EMNLP 2021. [Code / modèle]
5 mai 2021: La paire a été acceptée par ACL 2021. [Code / modèle]
11 mars 2021: Rocketqa V1 a été accepté par NAACL 2021. [Code / modèle]

Installation

Nous fournissons deux méthodes d'installation: package d'installation Python et environnement Docker

Installer avec Python Package

Tout d'abord, installez paddlepaddle.

 # GPU version:
$ pip install paddlepaddle-gpu

# CPU version:
$ pip install paddlepaddle

Deuxièmement, installer le package Rocketqa (dernière version: 1.1.0):

$ pip install rocketqa

Remarque: Cette boîte à outils doit fonctionner sur Python3.6 + avec Paddlepaddle 2.0+.

Installer avec Docker

docker pull rocketqa/rocketqa

docker run -it docker.io/rocketqa/rocketqa bash

Commencer

Reportez-vous aux exemples ci-dessous, vous pouvez créer et exécuter votre propre moteur de recherche avec plusieurs lignes de code. Nous fournissons également un terrain de jeu avec Jupyternotebook. Essayez immédiatement Rocketqa dans votre navigateur!

Courir avec Jina

Jina est un cadre de recherche neuronale natif du cloud pour créer des applications de recherche de recherche en profondeur de profondeur évolutives en quelques minutes. Voici un exemple simple pour construire un moteur de recherche basé sur Jina et Rocketqa.

 cd examples/jina_example
pip3 install -r requirements.txt

# Generate vector representations and build a libray for your Documents
# JINA will automaticlly start a web service for you
python3 app.py index toy_data/test.tsv

# Try some questions related to the indexed Documents
python3 app.py query_cli

Veuillez consulter l'exemple de Jina pour en savoir plus.

Courir avec Faish

Nous fournissons également un exemple simple construit sur Faish.

 cd examples/faiss_example/
pip3 install -r requirements.txt

# Generate vector representations and build a libray for your Documents
python3 index.py zh ../data/dureader.para test_index

# Start a web service on http://localhost:8888/rocketqa
python3 rocketqa_service.py zh ../data/dureader.para test_index

# Try some questions related to the indexed Documents
python3 query.py

API

Vous pouvez également facilement intégrer Rocketqa dans votre propre tâche. Nous fournissons deux types de modèles, le double encodeur basé sur Ernie pour la récupération des réponses et l'encodeur croisé basé sur Ernie pour la réévaluation des réponses. Pour exécuter nos modèles, vous pouvez utiliser les fonctions suivantes.

Modèle de chargement

`rocketqa.available_models()`

Renvoie les noms des modèles Rocketqa disponibles. Pour en savoir plus sur les modèles disponibles, veuillez consulter le commentaire du code.

`rocketqa.load_model(model, use_cuda=False, device_id=0, batch_size=1)`

Renvoie le modèle spécifié par le paramètre d'entrée. Il peut initialiser à la fois le double codeur et l'encodeur croisé. En définissant le paramètre d'entrée, vous pouvez charger les modèles RocketQA renvoyés par "Disponible_models ()" ou vos propres points de contrôle.

Encodeur double

Le double encodeur renvoyé par "load_model ()" prend en charge les fonctions suivantes:

`model.encode_query(query: List[str])`

Compte tenu d'une liste de requêtes, renvoie leurs vecteurs de représentation codés par modèle.

`model.encode_para(para: List[str], title: List[str])`

Étant donné une liste de paragraphes et leurs titres correspondants (facultatif), renvoie leurs vecteurs de représentations codés par le modèle.

`model.matching(query: List[str], para: List[str], title: List[str])`

Étant donné une liste de requêtes et de paragraphes (et de titres), renvoie leurs scores de correspondance (produit DOT entre deux vecteurs de représentation).

`model.train(train_set: str, epoch: int, save_model_path: str, args)`

Compte tenu des hyperparamètres train_set , epoch et save_model_path , vous pouvez former votre propre modèle d'encodeur double ou FineTune nos modèles. D'autres paramètres comme save_steps et learning_rate peuvent également être définis dans args . Veuillez vous référer à des exemples / example.py pour le détail.

Encodeur croisé

Cross-Encoder renvoyé par "load_model ()" prend en charge la fonction suivante:

`model.matching(query: List[str], para: List[str], title: List[str])`

Compte tenu d'une liste de requêtes et de paragraphes (et de titres), renvoie leurs scores correspondants (probabilité que le paragraphe soit la bonne réponse de la requête).

`model.train(train_set: str, epoch: int, save_model_path: str, args)`

Compte tenu des hyperparamètres train_set , epoch et save_model_path , vous pouvez former votre propre modèle d'encodeur croisé ou Finetune nos modèles. D'autres paramètres comme save_steps et learning_rate peuvent également être définis dans args . Veuillez vous référer à des exemples / example.py pour le détail.

Exemples

En suivant les exemples ci-dessous, vous pouvez récupérer les représentations vectorielles de vos documents et connecter Rocketqa à vos propres tâches.

Exécuter le modèle Rocketqa

Pour exécuter des modèles ROCKETQA, vous devez définir le model de paramètre dans 'LOAD_MODEL ()' avec le nom du modèle ROCKETQA renvoyé par 'Disponible_Models ()'.

 import rocketqa

query_list = [ "trigeminal definition" ]
para_list = [
    "Definition of TRIGEMINAL. : of or relating to the trigeminal nerve.ADVERTISEMENT. of or relating to the trigeminal nerve. ADVERTISEMENT." ]

# init dual encoder
dual_encoder = rocketqa . load_model ( model = "v1_marco_de" , use_cuda = True , device_id = 0 , batch_size = 16 )

# encode query & para
q_embs = dual_encoder . encode_query ( query = query_list )
p_embs = dual_encoder . encode_para ( para = para_list )
# compute dot product of query representation and para representation
dot_products = dual_encoder . matching ( query = query_list , para = para_list )

Formez votre propre modèle

Pour former vos propres modèles, vous pouvez utiliser la fonction train() avec votre ensemble de données et vos paramètres. Les données de formation contient 4 colonnes: requête, titre, para, étiquette (0 ou 1), séparées par " t". Pour plus de détails sur les paramètres et l'ensemble de données, veuillez vous référer à './examples/example.py'

 import rocketqa

# init cross encoder, and set device and batch_size
cross_encoder = rocketqa . load_model ( model = "zh_dureader_ce" , use_cuda = True , device_id = 0 , batch_size = 32 )

# finetune cross encoder based on "zh_dureader_ce_v2"
cross_encoder . train ( './examples/data/cross.train.tsv' , 2 , 'ce_models' , save_steps = 1000 , learning_rate = 1e-5 , log_folder = 'log_ce' )

Exécutez votre propre modèle

Pour exécuter vos propres modèles, vous devez définir model de paramètre dans 'LOAD_MODEL ()' avec un fichier de configuration JSON.

 import rocketqa

# init cross encoder
cross_encoder = rocketqa . load_model ( model = "./examples/ce_models/config.json" , use_cuda = True , device_id = 0 , batch_size = 16 )

# compute relevance of query and para
relevance = cross_encoder . matching ( query = query_list , para = para_list )

Config est un fichier JSON comme celui-ci

 {
    "model_type": "cross_encoder",
    "max_seq_len": 384,
    "model_conf_path": "zh_config.json",
    "model_vocab_path": "zh_vocab.txt",
    "model_checkpoint_path": ${YOUR_MODEL},
    "for_cn": true,
    "share_parameter": 0
}

examples de dossiers fournissent plus de détails.

Citations

Si vous trouvez des modèles Rocketqa V1 utiles, n'hésitez pas à citer notre publication Rocketqa: une approche de formation optimisée de la récupération de passage dense pour la question de la question du domaine ouvert

 @inproceedings{rocketqa_v1,
    title="RocketQA: An Optimized Training Approach to Dense Passage Retrieval for Open-Domain Question Answering",
    author="Yingqi Qu, Yuchen Ding, Jing Liu, Kai Liu, Ruiyang Ren, Wayne Xin Zhao, Daxiang Dong, Hua Wu and Haifeng Wang",
    year="2021",
    booktitle = "In Proceedings of NAACL"
}

Si vous trouvez des modèles de paires utiles, n'hésitez pas à citer notre paire de publication: tirant parti de la relation de similitude centrée sur le passage pour améliorer la récupération de passage dense

 @inproceedings{rocketqa_pair,
    title="PAIR: Leveraging Passage-Centric Similarity Relation for Improving Dense Passage Retrieval",
    author="Ruiyang Ren, Shangwen Lv, Yingqi Qu, Jing Liu, Wayne Xin Zhao, Qiaoqiao She, Hua Wu, Haifeng Wang and Ji-Rong Wen",
    year="2021",
    booktitle = "In Proceedings of ACL Findings"
}

Si vous trouvez des modèles Rocketqa V2 utiles, n'hésitez pas à citer notre publication RocketQav2: une méthode de formation conjointe pour la récupération de passage dense et le recommandation de passage

 @inproceedings{rocketqa_v2,
    title="RocketQAv2: A Joint Training Method for Dense Passage Retrieval and Passage Re-ranking",
    author="Ruiyang Ren, Yingqi Qu, Jing Liu, Wayne Xin Zhao, Qiaoqiao She, Hua Wu, Haifeng Wang and Ji-Rong Wen",
    year="2021",
    booktitle = "In Proceedings of EMNLP"
}

Si vous trouvez un ensemble de données _{de récupération} DureReader utile, n'hésitez pas à citer notre publication DUREREDER_RETRIEVAL: une référence chinoise à grande échelle pour la récupération de passage à partir de moteurs de recherche Web

 @inproceedings{DuReader_retrieval,
    title="DuReader_retrieval: A Large-scale Chinese Benchmark for Passage Retrieval from Web Search Engine",
    author="Yifu Qiu, Hongyu Li, Yingqi Qu, Ying Chen, Qiaoqiao She, Jing Liu, Hua Wu and Haifeng Wang",
    booktitle = "In Proceedings of EMNLP"
    year="2022"
}

Si vous trouvez notre enquête utile pour votre travail, veuillez citer la récupération de texte dense de l'article suivant basé sur des modèles de langue pré-étendue: une enquête

 @article{DRSurvey,
    title={Dense Text Retrieval based on Pretrained Language Models: A Survey},
    author={Wayne Xin Zhao, Jing Liu, Ruiyang Ren, Ji-Rong Wen},
    year={2022},
    journal={arXiv preprint arXiv:2211.14876}
}