論文“為跨編碼器重新列車生成合成文檔的存儲庫:對Chatgpt和人類專家的比較研究”和紙張“用於培訓排名者的合成文件的測試集:Chatgpt:Chatgpt vs.人類專家”。用於培訓和評估問題答案(QA)回答的數據集,以培訓/評估實際人類反應的可能性。
如果使用此數據集,請使用以下Bibtex參考:
@InProceedings { askari2023chatgptcikm2023 ,
author = { Askari, Arian and Aliannejadi, Mohammad and Kanoulas, Evangelos and Verberne, Suzan } ,
titlE = { A Test Collection of Synthetic Documents for Training Rankers: ChatGPT vs. Human Experts } ,
year = 2023 ,
booktitle = { The 32nd ACM International Conference on Information and Knowledge Management (CIKM 2023) } ,
}
@InProceedings { askari2023genirsigir2023 ,
author = { Askari, Arian and Aliannejadi, Mohammad and Kanoulas, Evangelos and Verberne, Suzan } ,
title = { Generating Synthetic Documents for Cross-Encoder Re-Rankers: A Comparative Study of ChatGPT and Human Experts } ,
year = 2023 ,
booktitle = { Generative Information Retrieval workshop at ACM SIGIR 2023 } ,
}這項工作是在我在阿姆斯特丹大學(University of Amsterdam University of Amsterdam Universition Lab)的訪問研究中(IRLAB@UVA)的訪問研究中的穆罕默德·阿里亞尼賈迪(Mohammad Aliannejadi),evangelos Kanoulas和Suzan Verberne的監督。
考慮到一組問題以及對應的Chatgpt和人類的回答,我們製作了兩個單獨的收藏:一個來自Chatgpt,一個來自人類。通過這樣做,我們從信息檢索的角度提供了幾種分析機會,涉及Chatgpt響應對培訓檢索模型的有用性。我們為端到端檢索和重新排列設置提供數據集。為了使其他分析具有靈活性,我們分別組織所有文件以進行CHATGPT和人類響應。
雖然Chatgpt是一種強大的語言模型,可以產生令人印象深刻的答案,但它不能免疫錯誤或幻覺。此外,Chatgpt生成的信息的來源是不透明的,即使信息正確,通常也沒有生成信息的來源。當涉及到信任和問責制至關重要的領域,這可能是一個更大的關注點。檢索模型與生成模型相反,從來源和搜索引擎中檢索實際(真)信息提供了每個檢索項目的來源。這就是為什麼信息檢索(即使有可用的信息)仍然是一個重要的應用程序的原因,尤其是在可靠性至關重要的情況下。
該數據集基於公共HC3數據集,儘管我們的實驗設置和評估將有所不同。我們將數據分配在火車,驗證和測試集中,以便在Chatgpt或人類答案上進行培訓/評估答案檢索模型。我們將人/chatgpt作為相關答案存儲實際響應。對於培訓,一組隨機響應可以用作非相關答案。在我們的主要實驗中,我們培訓CHATGPT的反應並評估人類的反應。我們以與MSMARCO數據集相似的格式發布ChatGpt-RetRievalqa數據集,該數據集是一個流行的訓練檢索模型的數據集。因此,每個人都可以在我們的數據上重新使用MSMARCO數據集的腳本。
| 描述 | 文件名 | 文件大小 | 數字記錄 | 格式 |
|---|---|---|---|---|
| collection-H(H:人類的反應) | collection_h.tsv | 38.6 MB | 58,546 | TSV:PID,通道 |
| Collection-C(C:CHATGPT響應) | Collection_C.TSV | 26.1 MB | 26,882 | TSV:PID,通道 |
| 查詢 | QUERIES.TSV | 4 MB | 24,322 | TSV:QID,查詢 |
| QRELS-H火車(火車設置QREL用於人類反應) | qrels_h_train.tsv | 724 kb | 40,406 | TREC QRELS格式 |
| QRELS-H驗證(驗證設置人類響應的QREL) | qrels_h_valid.tsv | 29 kb | 1,460 | TREC QRELS格式 |
| QRELS-H測試(用於人類反應的測試集QREL) | qrels_h_test.tsv | 326 kb | 16,680 | TREC QRELS格式 |
| QRELS-C火車(火車設置QREL用於CHATGPT響應) | qrels_c_train.tsv | 339 kb | 18,452 | TREC QRELS格式 |
| QRELS-C驗證(驗證設置QREL用於CHATGPT響應) | qrels_c_valid.tsv | 13 kb | 672 | TREC QRELS格式 |
| QRELS-C測試(用於CHATGPT響應的測試集QREL) | qrels_c_test.tsv | 152 kb | 7,756 | TREC QRELS格式 |
| 查詢,答案和相關標籤 | collectionandqueries.zip | 23.9 MB | 866,504 | |
| Train-H三倍 | train_h_triples.tsv | 58.68 GB | 40,641,772 | TSV:查詢,積極通過,負面通過 |
| 驗證-H三倍 | 有效_h_triples.tsv | 2.02 GB | 1,468,526 | TSV:查詢,積極通過,負面通過 |
| Train-H TRIPES QID PID格式 | train_h_qidpidtriples.tsv | 921.7 MB | 40,641,772 | TSV:QID,正PID,負PID |
| 驗證-H三元QID PID格式 | 有效_H_QIDPIDTRIPLES.TSV | 35.6 MB | 1,468,526 | TSV:QID,正PID,負PID |
| Train-C三元組 | train_c_triples.tsv | 37.4 GB | 18,473,122 | TSV:查詢,積極通過,負面通過 |
| 驗證-C三倍 | 有效_c_triples.tsv | 1.32 GB | 672,659 | TSV:查詢,積極通過,負面通過 |
| Train-C TRIPES QID PID格式 | train_c_qidpidtriples.tsv | 429.6 MB | 18,473,122 | TSV:QID,正PID,負PID |
| 驗證-C三元QID PID格式 | 有效_C_QIDPIDTRIPLES.TSV | 16.4 MB | 672,659 | TSV:QID,正PID,負PID |
我們以三元格式發布培訓和驗證數據,以促進培訓。在chatgpt響應上訓練的三元文件是:“ train_c_triples.tsv”和“有效_c_triples.tsv”。此外,我們根據人類的反應發布了三元組,因此每個人都可以比較有關人類響應的培訓與培訓(“ train_h_h_triples.tsv”和“有效_h_triples.tsv”文件)。鑑於每個查詢和積極的答案,已隨機對1000個負答案進行了採樣。
| 描述 | 文件名 | 文件大小 | 數字記錄 |
|---|---|---|---|
| TOP-H 1000火車 | top_1000_h_train.run | 646.6 MB | 16,774,122 |
| TOP-H 1000驗證 | top_1000_h_valid.run | 23.7 MB | 605,956 |
| TOP-H 1000測試 | top_1000_h_test.run | 270.6 MB | 692,0845 |
| 頂級C 1000火車 | top_1000_c_train.run | 646.6 MB | 16,768,032 |
| Top-C 1000驗證 | top_1000_c_valid.run | 23.7 MB | 605,793 |
| 頂級C 1000測試 | top_1000_c_test.run | 271.1 MB | 6,917,616 |
回答重新排列數據集的運行文件的格式為TREC RUN格式。
注意:我們將BM25用作Elasticsearch中的第一階段排名,以便對一個問題進行排名1000個文檔(即查詢)。但是,對於某些查詢,將檢索少於1000個文檔,這意味著少於1000個文檔,至少一個單詞與集合中的查詢匹配。
即將推出。
我們訓練BERT介紹Chatgpt產生的響應(使用Queries.tsv,Collection_C.TSV,Train_c_triples.tsv,valive_c_triples.tsv,qrels_c_train.tsv和qrels_c_valid.tsv文件)。接下來,我們評估BRET作為人類響應的答案重新排名模型的有效性(使用Queries.tsv,Collection_H.TSV,TOP_1000_C_TEST.RUN和QRELS_H_H_TEST.TSV)。通過這樣做,我們回答以下問題:“當我們對人類的回應進行評估時,在chatgpt答復中接受培訓的答案檢索模型的有效性是什麼?”
即將推出。
即將推出
chatgpt-retrievalqa-dataset-Creator
特別感謝HC3團隊發布了人類Chatgpt比較語料庫(HC3)語料庫。我們的數據是根據其數據集創建的,並遵循其許可。