Le référentiel de documents "Génération de documents synthétiques pour les rec-rankers inter-encoders: une étude comparative de Chatgpt et des experts humains" et du papier "Une collection de tests de documents synthétiques pour les rangs de formation: Chatgpt vs experts humains". Un ensemble de données pour la formation et l'évaluation des modèles de récupération de réponse aux questions (QA) sur les réponses Chatgpt avec la possibilité de formation / d'évaluation sur de vraies réponses humaines.
Si vous utilisez cet ensemble de données, veuillez utiliser les références Bibtex suivantes:
@InProceedings { askari2023chatgptcikm2023 ,
author = { Askari, Arian and Aliannejadi, Mohammad and Kanoulas, Evangelos and Verberne, Suzan } ,
titlE = { A Test Collection of Synthetic Documents for Training Rankers: ChatGPT vs. Human Experts } ,
year = 2023 ,
booktitle = { The 32nd ACM International Conference on Information and Knowledge Management (CIKM 2023) } ,
}
@InProceedings { askari2023genirsigir2023 ,
author = { Askari, Arian and Aliannejadi, Mohammad and Kanoulas, Evangelos and Verberne, Suzan } ,
title = { Generating Synthetic Documents for Cross-Encoder Re-Rankers: A Comparative Study of ChatGPT and Human Experts } ,
year = 2023 ,
booktitle = { Generative Information Retrieval workshop at ACM SIGIR 2023 } ,
}Ce travail a été effectué sous la supervision du professeur Mohammad Aliannejadi, d'Evangelos Kanoulas et de Suzan Verberne lors de ma recherche en visite au laboratoire de récupération de l'information à l'Université d'Amsterdam (Irlab @ UVA).
Compte tenu d'un ensemble de questions et des réponses des Chatgpt et humains correspondantes, nous faisons deux collections distinctes: une de Chatgpt et une des humains. Ce faisant, nous offrons plusieurs opportunités d'analyse du point de vue de la recherche d'informations concernant l'utilité des réponses Chatgpt pour les modèles de récupération de formation. Nous fournissons l'ensemble de données pour la récupération de bout en bout et une configuration de reconstitution. Pour donner de la flexibilité à d'autres analyses, nous organisons tous les fichiers séparément pour les réponses Chatgpt et humaines.
Bien que Chatgpt soit un modèle de langue puissant qui peut produire des réponses impressionnantes, il n'est pas à l'abri des erreurs ou des hallucinations. En outre, la source des informations générées par Chatgpt n'est pas transparente et il n'y a généralement pas de source pour les informations générées même lorsque les informations sont correctes. Cela peut être une plus grande préoccupation en ce qui concerne les domaines tels que le droit, la médecine, la science et d'autres domaines professionnels où la fiabilité et la responsabilité sont essentielles. Les modèles de récupération, par opposition aux modèles génératifs, récupérent les informations réelles (vraies) des sources et des moteurs de recherche fournissent la source de chaque élément récupéré. C'est pourquoi la récupération d'informations - même lorsque le chatgpt est disponible - reste une application importante, en particulier dans les situations où la fiabilité est vitale.
Cet ensemble de données est basé sur l'ensemble de données HC3 public, bien que notre configuration et notre évaluation expérimentales soient différentes. Nous avons divisé les données dans un train, une validation et un ensemble de tests afin de former / d'évaluer les modèles de récupération de réponse sur les réponses ChatGpt ou Human. Nous stockons la réponse réelle par Human / Chatgpt comme réponse pertinente. Pour la formation, un ensemble de réponses aléatoires peut être utilisée comme réponses non pertinentes. Dans nos principales expériences, nous nous entraînons sur les réponses du chatppt et évaluons les réponses humaines. Nous publions un ensemble de données ChatGPT-RetrievalQA dans un format similaire à l'ensemble de données MSMARCO, qui est un ensemble de données populaire pour les modèles de récupération de formation. Par conséquent, tout le monde pourrait réutiliser ses scripts pour l'ensemble de données MSMARCO sur nos données.
| Description | Nom de fichier | Taille de fichier | NUM Records | Format |
|---|---|---|---|---|
| Collection-H (H: réponses humaines) | collection_h.tsv | 38,6 Mo | 58 546 | TSV: pid, passage |
| Collection-C (C: Réponses Chatgpt) | collection_c.tsv | 26,1 Mb | 26 882 | TSV: pid, passage |
| Requêtes | requêtes.tsv | 4 Mb | 24 322 | TSV: QID, requête |
| Train Qrels-H (Train Set Qrels pour les réponses humaines) | qrels_h_train.tsv | 724 Ko | 40 406 | Format Trec Qrels |
| Validation QRels-H (définition de validation QRELS pour les réponses humaines) | qrels_h_valid.tsv | 29 Ko | 1460 | Format Trec Qrels |
| Test de Qrels-H (Test Set QRELS pour les réponses humaines) | qrels_h_test.tsv | 326 Ko | 16 680 | Format Trec Qrels |
| Train Qrels-C (Train Set Qrels pour les réponses ChatGpt) | qrels_c_train.tsv | 339 kb | 18 452 | Format Trec Qrels |
| Validation QRels-C (définition de validation QRELS pour les réponses ChatGpt) | qrels_c_valid.tsv | 13 kb | 672 | Format Trec Qrels |
| Test QRels-C (Test Set Qrels pour les réponses ChatGpt) | qrels_c_test.tsv | 152 Ko | 7 756 | Format Trec Qrels |
| Requêtes, réponses et étiquettes de pertinence | CollectionAndqueries.zip | 23,9 Mb | 866 504 | |
| TRAIN-H TRIPLES | train_h_triples.tsv | 58,68 Go | 40 641 772 | TSV: requête, passage positif, passage négatif |
| Validation-H Triple | valid_h_triples.tsv | 2,02 Go | 1 468 526 | TSV: requête, passage positif, passage négatif |
| Train-H Triples Qid Pid Format | train_h_qidpidtriples.tsv | 921,7 Mb | 40 641 772 | TSV: QID, PID positif, PID négatif |
| Validation-H Triples QID PID Format | valid_h_qidpidtriples.tsv | 35,6 MB | 1 468 526 | TSV: QID, PID positif, PID négatif |
| TRAIN-C TRIPLES | train_c_triples.tsv | 37,4 Go | 18 473 122 | TSV: requête, passage positif, passage négatif |
| Validation-C triple | valid_c_triples.tsv | 1,32 Go | 672 659 | TSV: requête, passage positif, passage négatif |
| Train-C Triples Qid Pid Format | Train_c_qidpidtriples.tsv | 429,6 Mb | 18 473 122 | TSV: QID, PID positif, PID négatif |
| Validation-C Triples Qid PID Format | valid_c_qidpidtriples.tsv | 16,4 Mb | 672 659 | TSV: QID, PID positif, PID négatif |
Nous publions les données de formation et de validation au format Triple pour faciliter la formation. Les fichiers triples pour s'entraîner sur les réponses Chatgpt sont: "Train_c_triples.tsv" et "valid_c_triples.tsv". De plus, nous libérons les triplets en fonction des réponses humaines afin que tout le monde puisse comparer la formation sur le chatppt vs formation sur les réponses humaines ("Train_h_triples.tsv" et "valid_h_triples.tsv" fichiers). Compte tenu de chaque requête et réponse positive, 1000 réponses négatives ont été échantillonnées au hasard.
| Description | Nom de fichier | Taille de fichier | NUM Records |
|---|---|---|---|
| Train Top-H 1000 | top_1000_h_train.run | 646,6 Mb | 16 774 122 |
| Validation TOP-H 1000 | top_1000_h_valid.run | 23,7 Mb | 605 956 |
| Test du Top-H 1000 | top_1000_h_test.run | 270,6 Mb | 692 0845 |
| Train Top-C 1000 | top_1000_c_train.run | 646,6 Mb | 16 768 032 |
| Validation TOP-C 1000 | top_1000_c_valid.run | 23,7 Mb | 605 793 |
| Test du Top-C 1000 | top_1000_c_test.run | 271.1 Mb | 6 917 616 |
Le format des fichiers d'exécution de l'ensemble de données de relance de réponse est au format TREC Run.
Remarque : Nous utilisons BM25 comme classement de première étape dans Elasticsearch afin de classer les 1000 principaux documents étant donné une question (c.-à-d. Query). Cependant, pour certaines requêtes, moins de 1000 documents seront récupérés, ce qui signifie qu'il y avait moins de 1000 documents avec au moins un mot correspondant à la requête de la collection.
À venir.
Nous formons Bert sur les réponses produites par ChatGpt (en utilisant Queries.tsv, Collection_C.TSV, Train_C_Triples.TSV, VALID_C_TRIPLES.TSV, QRELS_C_TRAIN.TSV et QRELS_C_VALID.TSV Files). Ensuite, nous évaluons l'efficacité de BRET en tant que modèle de ré-ranker de réponse sur les réponses humaines (en utilisant des queries.tsv, collection_h.tsv, top_1000_c_test.run et qrels_h_test.tsv). Ce faisant, nous répondons à la question suivante: "Quelle est l'efficacité d'un modèle de récupération de réponse formé aux réponses Chatgpt, lorsque nous l'évaluons sur les réponses humaines?"
À venir.
À venir
Chatgpt-Retrievalqa-Dataset-Creator
Un merci spécial à l'équipe HC3 pour la publication du corpus de comparaison du chat de la chatte humaine (HC3). Nos données sont créées en fonction de leur ensemble de données et en suit leur licence.