Das Repository des Papiers "Generierung von synthetischen Dokumenten für Cross-Coder-Wiederhersteller: Eine vergleichende Studie von Chatgpt- und menschlichen Experten" und Papier "Eine Testsammlung von synthetischen Dokumenten für Trainingsranger: Chatgpt vs. Human Experts". Ein Datensatz für das Training und die Bewertung von Fragen zur Beantwortung von Fragen (QA) Abrufen von ChatGPT -Antworten mit der Möglichkeit des Trainings/Bewertungen über reale menschliche Antworten.
Wenn Sie diesen Datensatz verwenden, verwenden Sie bitte die folgenden Bibtex -Referenzen:
@InProceedings { askari2023chatgptcikm2023 ,
author = { Askari, Arian and Aliannejadi, Mohammad and Kanoulas, Evangelos and Verberne, Suzan } ,
titlE = { A Test Collection of Synthetic Documents for Training Rankers: ChatGPT vs. Human Experts } ,
year = 2023 ,
booktitle = { The 32nd ACM International Conference on Information and Knowledge Management (CIKM 2023) } ,
}
@InProceedings { askari2023genirsigir2023 ,
author = { Askari, Arian and Aliannejadi, Mohammad and Kanoulas, Evangelos and Verberne, Suzan } ,
title = { Generating Synthetic Documents for Cross-Encoder Re-Rankers: A Comparative Study of ChatGPT and Human Experts } ,
year = 2023 ,
booktitle = { Generative Information Retrieval workshop at ACM SIGIR 2023 } ,
}Diese Arbeit wurde unter der Aufsicht von Prof. Mohammad Aliannejadi, Evangelos Kanoulas und Suzan Verberne während meiner Besuchsforschung im Information Abrival Lab der Universität von Amsterdam (IRLAB@UVA) durchgeführt.
Angesichts einer Reihe von Fragen und den entsprechenden Antworten von Chatgpt und Menschen erstellen wir zwei getrennte Sammlungen: eine von Chatgpt und eine von Menschen. Auf diese Weise bieten wir mehrere Analysemöglichkeiten aus Sicht des Informationsabrufs zur Nützlichkeit von Chatgpt -Antworten für das Abrufen von Training. Wir bieten den Datensatz sowohl für das End-to-End-Abrufen als auch für ein Wiederaufbau-Setup. Um anderen Analysen Flexibilität zu verleihen, organisieren wir alle Dateien separat für Chatgpt- und menschliche Antworten.
Während Chatgpt ein leistungsstarkes Sprachmodell ist, das beeindruckende Antworten hervorrufen kann, ist es nicht immun gegen Fehler oder Halluzinationen. Darüber hinaus ist die Quelle der von ChatGPT generierten Informationen nicht transparent und normalerweise gibt es keine Quelle für die generierten Informationen, selbst wenn die Informationen korrekt sind. Dies kann ein größeres Problem sein, wenn es um Bereiche wie Recht, Medizin, Wissenschaft und andere berufliche Bereiche geht, in denen Vertrauenswürdigkeit und Rechenschaftspflicht von entscheidender Bedeutung sind. Abrufenmodelle im Gegensatz zu generativen Modellen rufen die tatsächlichen (echten) Informationen aus Quellen und Suchmaschinen die Quelle jedes abgerufenen Elements an. Aus diesem Grund bleibt das Abrufen von Informationen - auch wenn ChatGPT verfügbar ist - eine wichtige Anwendung, insbesondere in Situationen, in denen Zuverlässigkeit von entscheidender Bedeutung ist.
Dieser Datensatz basiert auf dem öffentlichen HC3 -Datensatz, obwohl unser experimentelles Setup und unsere Bewertung unterschiedlich sein werden. Wir teilen die Daten in einen Zug, Validierung und Testset auf, um die Antwort -Abrufmodelle für Antworten auf Chatgpt oder menschliche Antworten zu trainieren/zu bewerten. Wir speichern die tatsächliche Antwort von Human/Chatgpt als relevante Antwort. Für das Training kann eine Reihe von zufälligen Antworten als nicht relevante Antworten verwendet werden. In unseren Hauptexperimenten trainieren wir mit Chatgpt -Antworten und bewerten menschliche Antworten. Wir veröffentlichen Chatgpt-Retrievalqa-Datensatz in einem ähnlichen Format wie dem MSMARCO-Datensatz, einem beliebten Datensatz für Trainingsabrufmodelle. Daher könnte jeder seine Skripte für den MSMARCO-Datensatz für unsere Daten wiederverwenden.
| Beschreibung | Dateiname | Dateigröße | Num Records | Format |
|---|---|---|---|---|
| Sammlung-H (H: menschliche Antworten) | Collection_h.tsv | 38,6 MB | 58.546 | TSV: PID, Passage |
| Sammlung-C (C: Chatgpt-Antworten) | Collection_c.tsv | 26,1 MB | 26.882 | TSV: PID, Passage |
| Abfragen | Abfragen.tsv | 4 MB | 24.322 | TSV: Qid, Abfrage |
| Qrels-H-Zug (Zug-Set Qrels für menschliche Reaktionen) | qrels_h_train.tsv | 724 kb | 40.406 | TREC QRELS -Format |
| QREL-H-Validierung (Validierungssatz QRELs für menschliche Antworten) | qrels_h_valid.tsv | 29 kb | 1.460 | TREC QRELS -Format |
| Qrels-H-Test (Testset QRELE für menschliche Reaktionen) | qrels_h_test.tsv | 326 kb | 16.680 | TREC QRELS -Format |
| QRELS-C-Zug (Zugset QRELs für Chatgpt-Antworten) | qrels_c_train.tsv | 339 KB | 18.452 | TREC QRELS -Format |
| QREL-C VALIERATION (Validierungssatz QRELs für ChatGPT-Antworten) | qrels_c_valid.tsv | 13 kb | 672 | TREC QRELS -Format |
| QREL-C-Test (Testset QRELs für ChatGPT-Antworten) | qrels_c_test.tsv | 152 kb | 7.756 | TREC QRELS -Format |
| Anfragen, Antworten und Relevanzetiketten | CollectionAndqueries.zip | 23,9 MB | 866,504 | |
| Zug-H-Dreifach | train_h_triples.tsv | 58,68 GB | 40.641.772 | TSV: Abfrage, positive Passage, negative Passage |
| Validation-H Triple | valid_h_triples.tsv | 2,02 GB | 1,468.526 | TSV: Abfrage, positive Passage, negative Passage |
| Zug-H-Dreifach-Qid-PID-Format | train_h_qidpidTriples.tsv | 921,7 MB | 40.641.772 | TSV: QID, positive PID, negative PID |
| Validierungs-H-Dreifach-Qid-PID-Format | valid_h_qidpidTriples.tsv | 35,6 MB | 1,468.526 | TSV: QID, positive PID, negative PID |
| Zug-C-Dreifach | train_c_triples.tsv | 37,4 GB | 18.473.122 | TSV: Abfrage, positive Passage, negative Passage |
| Validierungs-C-Triple | valid_c_triples.tsv | 1,32 GB | 672,659 | TSV: Abfrage, positive Passage, negative Passage |
| Zug-C-Dreifach-Qid-PID-Format | train_c_qidpidTriples.tsv | 429,6 MB | 18.473.122 | TSV: QID, positive PID, negative PID |
| Validierungs-C-Dreifach-Qid-PID-Format | valid_c_qidpidTriples.tsv | 16,4 MB | 672,659 | TSV: QID, positive PID, negative PID |
Wir veröffentlichen die Schulungs- und Validierungsdaten im Dreifachformat, um das Training zu erleichtern. Die Triple -Dateien, die auf ChatGPT -Antworten trainieren können, sind: "train_c_triples.tsv" und "valid_c_triples.tsv". Darüber hinaus veröffentlichen wir die Triple basierend auf menschlichen Antworten, damit jeder das Training auf Chatgpt vs -Training für menschliche Antworten vergleichen kann ("train_h_triples.tsv" und "valid_h_triples.tsv" -Dateien). Angesichts jeder Abfrage und jeder positiven Antwort wurden 1000 negative Antworten zufällig abgetastet.
| Beschreibung | Dateiname | Dateigröße | Num Records |
|---|---|---|---|
| Top-H 1000 Zug | top_1000_h_train.run | 646,6 MB | 16.774.122 |
| Top-H 1000-Validierung | top_1000_h_valid.run | 23,7 MB | 605.956 |
| Top-H 1000-Test | top_1000_h_test.run | 270,6 MB | 692.0845 |
| Top-C 1000 Zug | top_1000_c_train.run | 646,6 MB | 16.768.032 |
| Top-C 1000-Validierung | top_1000_c_valid.run | 23,7 MB | 605,793 |
| Top-C 1000-Test | top_1000_c_test.run | 271.1 MB | 6,917,616 |
Das Format der Ausführungsdateien der Antwort-Wiederholungsdatensätze befindet sich im TREC-Auslaufformat.
HINWEIS : Wir verwenden BM25 als Ranger in der ersten Stufe in Elasticsearch, um die Top-1000-Dokumente zu bewerten, die eine Frage (dh Abfrage) bewerten. Für einige Abfragen werden jedoch weniger als 1000 Dokumente abgerufen, was bedeutet, dass weniger als 1000 Dokumente mit mindestens einem Wort mit der Abfrage in der Sammlung übereinstimmen.
Bald kommen.
Wir trainieren Bert auf die Antworten, die von ChatGPT produziert werden (unter Verwendung von queries.tsv, collection_c.tsv, train_c_triples.tsv, valid_c_triples.tsv, qrels_c_train.tsv und qrels_c_valid.tsv Dateien). Als nächstes bewerten wir die Effektivität von Bret als Antwort-Re-Ranker-Modell für menschliche Antworten (unter Verwendung von Abfragen.tsv, Collection_h.tsv, top_1000_c_test.run und qrels_h_test.tsv). Auf diese Weise beantworten wir die folgende Frage: "Was ist die Wirksamkeit eines Antwortmodells für Antwort, das auf ChatGPT -Antworten geschult wird, wenn wir es auf menschlichen Antworten bewerten?"
Bald kommen.
Bald kommen
CHATGPT-RETRIEVALQA-DATASET-CREATOR
Besonderer Dank geht an das HC3 -Team für die Veröffentlichung des Human Chatgpt -Vergleichskorpus (HC3) Corpus. Unsere Daten werden basierend auf ihrem Datensatz erstellt und folgen der Lizenz.