종이 저장소 "교차 인코더 재 랭커를위한 합성 문서 생성 : ChatGpt 및 인간 전문가에 대한 비교 연구"및 종이 "훈련 순위를위한 합성 문서 테스트 컬렉션 : Chatgpt vs. Human Experts". 실제 인간 반응에 대한 교육/평가 가능성과 함께 Chatgpt 응답에 대한 질문 답변 (QA) 검색 모델을 교육 및 평가하기위한 데이터 세트.
이 데이터 세트를 사용하는 경우 다음 Bibtex 참조를 사용하십시오.
@InProceedings { askari2023chatgptcikm2023 ,
author = { Askari, Arian and Aliannejadi, Mohammad and Kanoulas, Evangelos and Verberne, Suzan } ,
titlE = { A Test Collection of Synthetic Documents for Training Rankers: ChatGPT vs. Human Experts } ,
year = 2023 ,
booktitle = { The 32nd ACM International Conference on Information and Knowledge Management (CIKM 2023) } ,
}
@InProceedings { askari2023genirsigir2023 ,
author = { Askari, Arian and Aliannejadi, Mohammad and Kanoulas, Evangelos and Verberne, Suzan } ,
title = { Generating Synthetic Documents for Cross-Encoder Re-Rankers: A Comparative Study of ChatGPT and Human Experts } ,
year = 2023 ,
booktitle = { Generative Information Retrieval workshop at ACM SIGIR 2023 } ,
}이 작업은 암스테르담 대학교 (IRLAB@UVA)의 정보 검색 실험실을 방문하는 동안 Mohammad Aliannejadi 교수, Evangelos Kanoulas 및 Suzan Verberne의 감독하에 이루어졌습니다.
일련의 질문과 해당 Chatgpt와 인간의 반응이 주어지면, 우리는 두 개의 별도 컬렉션, 즉 chatgpt와 인간의 두 가지 컬렉션을 만듭니다. 그렇게함으로써, 우리는 교육 검색 모델에 대한 Chatgpt 응답의 유용성에 관한 정보 검색 관점 에서 몇 가지 분석 기회를 제공합니다. 엔드 투 엔드 검색 및 재 계급 설정에 대한 데이터 세트를 제공합니다. 다른 분석에 유연성을 제공하기 위해 ChatGpt 및 사람의 반응을 위해 모든 파일을 개별적으로 구성합니다.
Chatgpt는 인상적인 답변을 만들 수있는 강력한 언어 모델이지만 실수 나 환각에 면역이 아닙니다. 또한 Chatgpt에 의해 생성 된 정보의 출처는 투명하지 않으며 일반적으로 정보가 올바른 경우에도 생성 된 정보에 대한 소스가 없습니다. 이것은 신뢰성과 책임이 중요한 법률, 의학, 과학 및 기타 전문 분야와 같은 영역에있어 더 큰 관심사 일 수 있습니다. 생성 모델과 달리 검색 모델은 소스 및 검색 엔진에서 실제 (True) 정보를 검색하여 검색된 각 항목의 소스를 제공합니다. 그렇기 때문에 Chatgpt를 사용할 수있는 경우에도 정보 검색이 특히 신뢰성이 중요한 상황에서 중요한 응용 프로그램으로 남아 있습니다.
이 데이터 세트는 공개 HC3 데이터 세트를 기반으로하지만 실험 설정 및 평가는 다릅니다. ChatGpt 또는 인간 답변에 대한 답변 검색 모델을 교육/평가하기 위해 기차, 검증 및 테스트 세트에서 데이터를 분할합니다. 인 Human/Chatgpt의 실제 응답을 관련 답변으로 저장합니다. 훈련을 위해, 일련의 임의의 응답은 관련이없는 답변으로 사용될 수 있습니다. 우리의 주요 실험에서, 우리는 Chatgpt 응답을 훈련시키고 인간의 반응에 대해 평가합니다. 우리는 Chatgpt-Retievalqa 데이터 세트를 MSMARCO 데이터 세트와 유사한 형식으로 릴리스합니다. 이는 검색 모델 교육에 인기있는 데이터 세트입니다. 따라서 모든 사람은 데이터에서 MSMARCO 데이터 세트에 대한 스크립트를 재사용 할 수 있습니다.
| 설명 | 파일 이름 | 파일 크기 | Num Records | 체재 |
|---|---|---|---|---|
| Collection-H (H : 인간 반응) | Collection_H.TSV | 38.6 MB | 58,546 | TSV : PID, 통로 |
| Collection-C (C : Chatgpt 응답) | collection_c.tsv | 26.1 MB | 26,882 | TSV : PID, 통로 |
| 쿼리 | queries.tsv | 4 MB | 24,322 | TSV : QID, 쿼리 |
| QRELS-H 기차 (인간 반응을위한 QRELS 세트) | qrels_h_train.tsv | 724 KB | 40,406 | Trec Qrels 형식 |
| QRELS-H 유효성 검사 (인간 반응에 대한 QRELS 검증 설정) | qrels_h_valid.tsv | 29 KB | 1,460 | Trec Qrels 형식 |
| QRELS-H 테스트 (인간 반응에 대한 QRELS 세트) | qrels_h_test.tsv | 326 KB | 16,680 | Trec Qrels 형식 |
| QRELS-C TRAIN (ChatGpt 응답을위한 QRELS 세트 열차) | qrels_c_train.tsv | 339 KB | 18,452 | Trec Qrels 형식 |
| QRELS-C 유효성 검사 (유효성 검사 세트 chatGpt 응답에 대한 QRELS) | qrels_c_valid.tsv | 13 KB | 672 | Trec Qrels 형식 |
| QRELS-C TEST (ChatGpt 응답에 대한 QRELS 세트 세트) | qrels_c_test.tsv | 152 KB | 7,756 | Trec Qrels 형식 |
| 쿼리, 답변 및 관련성 레이블 | CollectionAndAndQueries.zip | 23.9 MB | 866,504 | |
| Train-H 트리플 | Train_H_TRIPLES.TSV | 58.68 GB | 40,641,772 | TSV : 쿼리, 긍정적 인 구절, 부정적인 구절 |
| 검증 -H 트리플 | VALID_H_TRIPLES.TSV | 2.02GB | 1,468,526 | TSV : 쿼리, 긍정적 인 구절, 부정적인 구절 |
| Train-H 트리플 QID PID 형식 | Train_H_QIDPIDTRIPLES.TSV | 921.7 MB | 40,641,772 | TSV : QID, 양의 PID, 음성 PID |
| Validation-H 트리플 QID PID 형식 | VALID_H_QIDPIDTRIPLES.TSV | 35.6MB | 1,468,526 | TSV : QID, 양의 PID, 음성 PID |
| Train-C 트리플 | Train_C_TRIPLES.TSV | 37.4 GB | 18,473,122 | TSV : 쿼리, 긍정적 인 구절, 부정적인 구절 |
| 유효성 검사 -C 트리플 | VALID_C_TRIPLES.TSV | 1.32GB | 672,659 | TSV : 쿼리, 긍정적 인 구절, 부정적인 구절 |
| Train-C 트리플 QID PID 형식 | Train_C_QIDPIDTRIPLES.TSV | 429.6 MB | 18,473,122 | TSV : QID, 양의 PID, 음성 PID |
| 유효성 검사 -C 트리플 QID PID 형식 | VALID_C_QIDPIDTRIPLES.TSV | 16.4 MB | 672,659 | TSV : QID, 양의 PID, 음성 PID |
교육 및 검증 데이터를 트리플 형식으로 공개하여 교육을 용이하게합니다. Chatgpt 응답에 대해 훈련 할 트리플 파일은 "Train_c_triples.tsv"및 "valid_c_triples.tsv"입니다. 또한, 우리는 인간의 반응에 따라 트리플을 출시하여 모든 사람이 인간의 반응에 대한 훈련과 훈련에 대한 교육을 비교할 수 있도록 ( "train_h_triples.tsv"및 "valid_h_triples.tsv"파일). 각 쿼리와 긍정적 인 답변이 주어지면 1000 개의 부정적인 답변이 무작위로 샘플링되었습니다.
| 설명 | 파일 이름 | 파일 크기 | Num Records |
|---|---|---|---|
| Top-H 1000 열차 | TOP_1000_H_TRAIN.RUN | 646.6 MB | 16,774,122 |
| Top-H 1000 검증 | TOP_1000_H_VALID.RUN | 23.7 MB | 605,956 |
| Top-H 1000 테스트 | top_1000_h_test.run | 270.6 MB | 692,0845 |
| Top-C 1000 열차 | top_1000_c_train.run | 646.6 MB | 16,768,032 |
| Top-C 1000 유효성 검사 | top_1000_c_valid.run | 23.7 MB | 605,793 |
| Top-C 1000 테스트 | top_1000_c_test.run | 271.1 MB | 6,917,616 |
답변 데이터 세트의 실행 파일 형식은 TREC 실행 형식입니다.
참고 : 우리는 질문이 주어진 상위 1000 개의 문서를 평가하기 위해 Elasticsearch에서 1 단계 순위로 BM25를 사용합니다 (즉, 쿼리). 그러나 일부 쿼리의 경우 1000 개 미만의 문서가 검색되므로 컬렉션의 쿼리와 적어도 하나의 단어가 일치하는 1000 개 미만의 문서가 있음을 의미합니다.
곧 올 것입니다.
우리는 chatgpt에 의해 생성 된 응답에 대해 bert를 훈련시킵니다 (queries.tsv, collection_c.tsv, train_c_triples.tsv, valid_c_triples.tsv, qrels_c_train.tsv 및 qrels_c_valid.tsv 파일). 다음으로, 우리는 인간 반응에 대한 답변 리 레인저 모델로서 Bret의 효과를 평가합니다 (queries.tsv, collection_h.tsv, top_1000_c_test.run 및 qrels_h_test.tsv). 그렇게함으로써 우리는 다음 질문에 대답합니다. "인간의 반응에 대해 평가할 때 Chatgpt 응답에 대해 훈련 된 답변 검색 모델의 효과는 무엇입니까?"
곧 올 것입니다.
곧 올 것입니다
chatgpt-retievalqa-dataset-creator
HC3 (Human Chatgpt Comparison Corpus) 코퍼스를 출시 한 HC3 팀에게 특별한 감사를드립니다. 당사의 데이터는 데이터 세트를 기반으로 생성되며 라이센스를 따릅니다.