Repositori Kertas "Menghasilkan Dokumen Sintetis untuk Peringkat Cross-Encoder: Studi Perbandingan CHATGPT dan Pakar Manusia" dan Kertas "Koleksi uji dokumen sintetis untuk pelatihan peringkat: CHATGPT vs Pakar Manusia". Dataset untuk melatih dan mengevaluasi model pengambilan pertanyaan (QA) pada tanggapan chatgpt dengan kemungkinan pelatihan/evaluasi pada tanggapan manusia nyata.
Jika Anda menggunakan dataset ini, silakan gunakan referensi BIBTEX berikut:
@InProceedings { askari2023chatgptcikm2023 ,
author = { Askari, Arian and Aliannejadi, Mohammad and Kanoulas, Evangelos and Verberne, Suzan } ,
titlE = { A Test Collection of Synthetic Documents for Training Rankers: ChatGPT vs. Human Experts } ,
year = 2023 ,
booktitle = { The 32nd ACM International Conference on Information and Knowledge Management (CIKM 2023) } ,
}
@InProceedings { askari2023genirsigir2023 ,
author = { Askari, Arian and Aliannejadi, Mohammad and Kanoulas, Evangelos and Verberne, Suzan } ,
title = { Generating Synthetic Documents for Cross-Encoder Re-Rankers: A Comparative Study of ChatGPT and Human Experts } ,
year = 2023 ,
booktitle = { Generative Information Retrieval workshop at ACM SIGIR 2023 } ,
}Pekerjaan ini telah dilakukan di bawah pengawasan Prof. Mohammad Aliannejadi, Evangelos Kanoulas, dan Suzan Verbernne selama penelitian kunjungan saya di Lab Pengambilan Informasi di University of Amsterdam (IRLAB@UVA).
Diberi serangkaian pertanyaan dan tanggapan chatgpt dan manusia yang sesuai, kami membuat dua koleksi terpisah: satu dari chatgpt dan satu dari manusia. Dengan melakukan itu, kami memberikan beberapa peluang analisis dari perspektif pengambilan informasi mengenai kegunaan tanggapan chatgpt untuk model pengambilan pelatihan. Kami menyediakan dataset untuk pengambilan ujung ke ujung dan pengaturan peringkat ulang. Untuk memberikan fleksibilitas pada analisis lain, kami mengatur semua file secara terpisah untuk chatgpt dan respons manusia.
Sementara chatgpt adalah model bahasa yang kuat yang dapat menghasilkan jawaban yang mengesankan, itu tidak kebal terhadap kesalahan atau halusinasi. Selain itu, sumber informasi yang dihasilkan oleh chatgpt tidak transparan dan biasanya tidak ada sumber untuk informasi yang dihasilkan bahkan ketika informasi tersebut benar. Ini bisa menjadi perhatian yang lebih besar dalam hal domain seperti hukum, kedokteran, sains, dan bidang profesional lainnya di mana kepercayaan dan akuntabilitas sangat penting. Model pengambilan, yang bertentangan dengan model generatif, mengambil informasi aktual (benar) dari sumber dan mesin pencari menyediakan sumber dari setiap item yang diambil. Inilah sebabnya mengapa pengambilan informasi - bahkan ketika chatgpt tersedia - tetap merupakan aplikasi penting, terutama dalam situasi di mana keandalan sangat penting.
Dataset ini didasarkan pada dataset HC3 publik, meskipun pengaturan dan evaluasi eksperimental kami akan berbeda. Kami membagi data dalam set kereta, validasi, dan tes untuk melatih/mengevaluasi model pengambilan jawaban pada chatgpt atau jawaban manusia. Kami menyimpan respons aktual oleh manusia/chatgpt sebagai jawaban yang relevan. Untuk pelatihan, satu set respons acak dapat digunakan sebagai jawaban yang tidak relevan. Dalam eksperimen utama kami, kami melatih tanggapan chatgpt dan mengevaluasi tanggapan manusia. Kami merilis dataset ChatGPT-Retrievalqa dalam format yang sama dengan Dataset Msmarco, yang merupakan dataset populer untuk model pengambilan pelatihan. Oleh karena itu, setiap orang dapat menggunakan skrip mereka untuk dataset Msmarco pada data kami.
| Keterangan | Nama file | Ukuran file | Catatan num | Format |
|---|---|---|---|---|
| Collection-H (H: Respons Manusia) | collection_h.tsv | 38.6 MB | 58.546 | TSV: PID, Passage |
| Collection-C (C: Respons ChatGPT) | collection_c.tsv | 26.1 MB | 26.882 | TSV: PID, Passage |
| Kueri | kueri.tsv | 4 MB | 24.322 | TSV: QID, kueri |
| QRels-H Train (kereta set qrels untuk respons manusia) | qrels_h_train.tsv | 724 kb | 40.406 | Format trec qrels |
| Validasi QRELS-H (Validasi Set QRELS untuk tanggapan manusia) | qrels_h_valid.tsv | 29 kb | 1.460 | Format trec qrels |
| Tes QRELS-H (Tes Set QRELS untuk respons manusia) | qrels_h_test.tsv | 326 kb | 16.680 | Format trec qrels |
| QRels-C Train (kereta set qrels untuk tanggapan chatgpt) | qrels_c_train.tsv | 339 kb | 18.452 | Format trec qrels |
| Validasi QRELS-C (set validasi QRELS untuk tanggapan chatgpt) | qrels_c_valid.tsv | 13 kb | 672 | Format trec qrels |
| Tes QRELS-C (Tes Set QRels untuk Respons ChatGPT) | qrels_c_test.tsv | 152 kb | 7.756 | Format trec qrels |
| Kueri, jawaban, dan label relevansi | collectionAndQueries.zip | 23.9 MB | 866.504 | |
| Train-H tiga kali lipat | train_h_triples.tsv | 58.68 GB | 40.641.772 | TSV: kueri, bagian positif, bagian negatif |
| Validasi-H Triple | valid_h_triples.tsv | 2.02 GB | 1.468.526 | TSV: kueri, bagian positif, bagian negatif |
| Format Train-H Triples QID PID | train_h_qidpidtriples.tsv | 921.7 MB | 40.641.772 | TSV: QID, PID positif, PID negatif |
| Format Validasi-H Triples QID PID | valid_h_qidpidtriples.tsv | 35.6 MB | 1.468.526 | TSV: QID, PID positif, PID negatif |
| Train-c tiga kali lipat | train_c_triples.tsv | 37.4 GB | 18.473.122 | TSV: kueri, bagian positif, bagian negatif |
| Triple Validasi-C | valid_c_triples.tsv | 1.32 GB | 672.659 | TSV: kueri, bagian positif, bagian negatif |
| Format Train-C Triples QID PID | train_c_qidpidtriples.tsv | 429.6 MB | 18.473.122 | TSV: QID, PID positif, PID negatif |
| Validasi-C Triples QID PID Format | valid_c_qidpidtriples.tsv | 16.4 MB | 672.659 | TSV: QID, PID positif, PID negatif |
Kami merilis data pelatihan dan validasi dalam format tiga kali lipat untuk memfasilitasi pelatihan. File tiga kali lipat untuk melatih tanggapan chatgpt adalah: "train_c_triples.tsv" dan "valid_c_triples.tsv". Selain itu, kami merilis tiga kali lipat berdasarkan tanggapan manusia sehingga semua orang dapat membandingkan pelatihan tentang pelatihan chatgpt vs tentang tanggapan manusia ("train_h_triples.tsv" dan "valid_h_triples.tsv" file). Mengingat setiap pertanyaan dan jawaban positif, 1000 jawaban negatif telah disampel secara acak.
| Keterangan | Nama file | Ukuran file | Catatan num |
|---|---|---|---|
| Top-H 1000 kereta | top_1000_h_train.run | 646.6 MB | 16.774.122 |
| Top-H 1000 Validasi | top_1000_h_valid.run | 23.7 MB | 605.956 |
| Tes 1000 Top-H | top_1000_h_test.run | 270.6 MB | 692.0845 |
| Top-C 1000 kereta | top_1000_c_train.run | 646.6 MB | 16.768.032 |
| Validasi Top-C 1000 | top_1000_c_valid.run | 23.7 MB | 605.793 |
| Tes 1000 Top-C | top_1000_c_test.run | 271.1 MB | 6.917.616 |
Format file run dari dataset peringkat ulang jawaban berada dalam format run trec.
Catatan : Kami menggunakan BM25 sebagai Ranker tahap pertama di Elasticsearch untuk memberi peringkat top-1000 dokumen yang diberi pertanyaan (yaitu, kueri). Namun, untuk beberapa pertanyaan, kurang dari 1000 dokumen akan diambil yang berarti ada kurang dari 1000 dokumen dengan setidaknya satu kata yang cocok dengan kueri dalam koleksi.
Segera hadir.
Kami melatih Bert pada tanggapan yang diproduksi oleh ChatGPT (menggunakan queries.tsv, collection_c.tsv, train_c_triples.tsv, valid_c_triples.tsv, file qrels_c_train.tsv, dan qrels_c_c_tsv). Selanjutnya, kami mengevaluasi keefektifan BRET sebagai model ranker jawaban pada respons manusia (menggunakan kueries.tsv, collection_h.tsv, top_1000_c_test.run, dan qrels_h_test.tsv). Dengan melakukan itu, kami menjawab pertanyaan berikut: "Apa efektivitas model pengambilan jawaban yang dilatih pada respons chatgpt, ketika kami mengevaluasinya pada respons manusia?"
Segera hadir.
Segera hadir
Chatgpt-retrievalqa-dataset-creator
Terima kasih khusus kepada tim HC3 karena telah merilis corpus CHATGPT CHATGPT CORPUS (HC3). Data kami dibuat berdasarkan dataset mereka dan mengikuti lisensi mereka.