论文“为跨编码器重新列车生成合成文档的存储库:对Chatgpt和人类专家的比较研究”和纸张“用于培训排名者的合成文件的测试集:Chatgpt:Chatgpt vs.人类专家”。用于培训和评估问题答案(QA)回答的数据集,以培训/评估实际人类反应的可能性。
如果使用此数据集,请使用以下Bibtex参考:
@InProceedings { askari2023chatgptcikm2023 ,
author = { Askari, Arian and Aliannejadi, Mohammad and Kanoulas, Evangelos and Verberne, Suzan } ,
titlE = { A Test Collection of Synthetic Documents for Training Rankers: ChatGPT vs. Human Experts } ,
year = 2023 ,
booktitle = { The 32nd ACM International Conference on Information and Knowledge Management (CIKM 2023) } ,
}
@InProceedings { askari2023genirsigir2023 ,
author = { Askari, Arian and Aliannejadi, Mohammad and Kanoulas, Evangelos and Verberne, Suzan } ,
title = { Generating Synthetic Documents for Cross-Encoder Re-Rankers: A Comparative Study of ChatGPT and Human Experts } ,
year = 2023 ,
booktitle = { Generative Information Retrieval workshop at ACM SIGIR 2023 } ,
}这项工作是在我在阿姆斯特丹大学(University of Amsterdam University of Amsterdam Universition Lab)的访问研究中(IRLAB@UVA)的访问研究中的穆罕默德·阿里亚尼贾迪(Mohammad Aliannejadi),evangelos Kanoulas和Suzan Verberne的监督。
考虑到一组问题以及对应的Chatgpt和人类的回答,我们制作了两个单独的收藏:一个来自Chatgpt,一个来自人类。通过这样做,我们从信息检索的角度提供了几种分析机会,涉及Chatgpt响应对培训检索模型的有用性。我们为端到端检索和重新排列设置提供数据集。为了使其他分析具有灵活性,我们分别组织所有文件以进行CHATGPT和人类响应。
虽然Chatgpt是一种强大的语言模型,可以产生令人印象深刻的答案,但它不能免疫错误或幻觉。此外,Chatgpt生成的信息的来源是不透明的,即使信息正确,通常也没有生成信息的来源。当涉及到信任和问责制至关重要的领域,这可能是一个更大的关注点。检索模型与生成模型相反,从来源和搜索引擎中检索实际(真)信息提供了每个检索项目的来源。这就是为什么信息检索(即使有可用的信息)仍然是一个重要的应用程序的原因,尤其是在可靠性至关重要的情况下。
该数据集基于公共HC3数据集,尽管我们的实验设置和评估将有所不同。我们将数据分配在火车,验证和测试集中,以便在Chatgpt或人类答案上进行培训/评估答案检索模型。我们将人/chatgpt作为相关答案存储实际响应。对于培训,一组随机响应可以用作非相关答案。在我们的主要实验中,我们培训CHATGPT的反应并评估人类的反应。我们以与MSMARCO数据集相似的格式发布ChatGpt-RetRievalqa数据集,该数据集是一个流行的训练检索模型的数据集。因此,每个人都可以在我们的数据上重新使用MSMARCO数据集的脚本。
| 描述 | 文件名 | 文件大小 | 数字记录 | 格式 |
|---|---|---|---|---|
| collection-H(H:人类的反应) | collection_h.tsv | 38.6 MB | 58,546 | TSV:PID,通道 |
| Collection-C(C:CHATGPT响应) | Collection_C.TSV | 26.1 MB | 26,882 | TSV:PID,通道 |
| 查询 | QUERIES.TSV | 4 MB | 24,322 | TSV:QID,查询 |
| QRELS-H火车(火车设置QREL用于人类反应) | qrels_h_train.tsv | 724 kb | 40,406 | TREC QRELS格式 |
| QRELS-H验证(验证设置人类响应的QREL) | qrels_h_valid.tsv | 29 kb | 1,460 | TREC QRELS格式 |
| QRELS-H测试(用于人类反应的测试集QREL) | qrels_h_test.tsv | 326 kb | 16,680 | TREC QRELS格式 |
| QRELS-C火车(火车设置QREL用于CHATGPT响应) | qrels_c_train.tsv | 339 kb | 18,452 | TREC QRELS格式 |
| QRELS-C验证(验证设置QREL用于CHATGPT响应) | qrels_c_valid.tsv | 13 kb | 672 | TREC QRELS格式 |
| QRELS-C测试(用于CHATGPT响应的测试集QREL) | qrels_c_test.tsv | 152 kb | 7,756 | TREC QRELS格式 |
| 查询,答案和相关标签 | collectionandqueries.zip | 23.9 MB | 866,504 | |
| Train-H三倍 | train_h_triples.tsv | 58.68 GB | 40,641,772 | TSV:查询,积极通过,负面通过 |
| 验证-H三倍 | 有效_h_triples.tsv | 2.02 GB | 1,468,526 | TSV:查询,积极通过,负面通过 |
| Train-H TRIPES QID PID格式 | train_h_qidpidtriples.tsv | 921.7 MB | 40,641,772 | TSV:QID,正PID,负PID |
| 验证-H三元QID PID格式 | 有效_H_QIDPIDTRIPLES.TSV | 35.6 MB | 1,468,526 | TSV:QID,正PID,负PID |
| Train-C三元组 | train_c_triples.tsv | 37.4 GB | 18,473,122 | TSV:查询,积极通过,负面通过 |
| 验证-C三倍 | 有效_c_triples.tsv | 1.32 GB | 672,659 | TSV:查询,积极通过,负面通过 |
| Train-C TRIPES QID PID格式 | train_c_qidpidtriples.tsv | 429.6 MB | 18,473,122 | TSV:QID,正PID,负PID |
| 验证-C三元QID PID格式 | 有效_C_QIDPIDTRIPLES.TSV | 16.4 MB | 672,659 | TSV:QID,正PID,负PID |
我们以三元格式发布培训和验证数据,以促进培训。在chatgpt响应上训练的三元文件是:“ train_c_triples.tsv”和“有效_c_triples.tsv”。此外,我们根据人类的反应发布了三元组,因此每个人都可以比较有关人类响应的培训与培训(“ train_h_h_triples.tsv”和“有效_h_triples.tsv”文件)。鉴于每个查询和积极的答案,已随机对1000个负答案进行了采样。
| 描述 | 文件名 | 文件大小 | 数字记录 |
|---|---|---|---|
| TOP-H 1000火车 | top_1000_h_train.run | 646.6 MB | 16,774,122 |
| TOP-H 1000验证 | top_1000_h_valid.run | 23.7 MB | 605,956 |
| TOP-H 1000测试 | top_1000_h_test.run | 270.6 MB | 692,0845 |
| 顶级C 1000火车 | top_1000_c_train.run | 646.6 MB | 16,768,032 |
| Top-C 1000验证 | top_1000_c_valid.run | 23.7 MB | 605,793 |
| 顶级C 1000测试 | top_1000_c_test.run | 271.1 MB | 6,917,616 |
回答重新排列数据集的运行文件的格式为TREC RUN格式。
注意:我们将BM25用作Elasticsearch中的第一阶段排名,以便对一个问题进行排名1000个文档(即查询)。但是,对于某些查询,将检索少于1000个文档,这意味着少于1000个文档,至少一个单词与集合中的查询匹配。
即将推出。
我们训练BERT介绍Chatgpt产生的响应(使用Queries.tsv,Collection_C.TSV,Train_c_triples.tsv,valive_c_triples.tsv,qrels_c_train.tsv和qrels_c_valid.tsv文件)。接下来,我们评估BRET作为人类响应的答案重新排名模型的有效性(使用Queries.tsv,Collection_H.TSV,TOP_1000_C_TEST.RUN和QRELS_H_H_TEST.TSV)。通过这样做,我们回答以下问题:“当我们对人类的回应进行评估时,在chatgpt答复中接受培训的答案检索模型的有效性是什么?”
即将推出。
即将推出
chatgpt-retrievalqa-dataset-Creator
特别感谢HC3团队发布了人类Chatgpt比较语料库(HC3)语料库。我们的数据是根据其数据集创建的,并遵循其许可。