ที่เก็บกระดาษ "การสร้างเอกสารสังเคราะห์สำหรับการเข้ารหัสข้ามการเข้ารหัส: การศึกษาเปรียบเทียบของ CHATGPT และผู้เชี่ยวชาญของมนุษย์" และกระดาษ "คอลเลกชันทดสอบเอกสารสังเคราะห์สำหรับการฝึกอบรมอันดับ: CHATGPT กับผู้เชี่ยวชาญมนุษย์" ชุดข้อมูลสำหรับการฝึกอบรมและประเมินผลการตอบคำถาม (QA) แบบจำลองการดึงข้อมูลเกี่ยวกับการตอบสนองของ CHATGPT พร้อมความเป็นไปได้ในการฝึกอบรม/การประเมินผลการตอบสนองของมนุษย์ที่แท้จริง
หากคุณใช้ชุดข้อมูลนี้โปรดใช้ข้อมูลอ้างอิง BibTex ต่อไปนี้:
@InProceedings { askari2023chatgptcikm2023 ,
author = { Askari, Arian and Aliannejadi, Mohammad and Kanoulas, Evangelos and Verberne, Suzan } ,
titlE = { A Test Collection of Synthetic Documents for Training Rankers: ChatGPT vs. Human Experts } ,
year = 2023 ,
booktitle = { The 32nd ACM International Conference on Information and Knowledge Management (CIKM 2023) } ,
}
@InProceedings { askari2023genirsigir2023 ,
author = { Askari, Arian and Aliannejadi, Mohammad and Kanoulas, Evangelos and Verberne, Suzan } ,
title = { Generating Synthetic Documents for Cross-Encoder Re-Rankers: A Comparative Study of ChatGPT and Human Experts } ,
year = 2023 ,
booktitle = { Generative Information Retrieval workshop at ACM SIGIR 2023 } ,
}งานนี้ได้ดำเนินการภายใต้การดูแลของศาสตราจารย์โมฮัมหมัด Aliannejadi, Evangelos Kanoulas และ Suzan Verberne ในระหว่างการวิจัยการเยี่ยมชมของฉันที่ห้องปฏิบัติการดึงข้อมูลที่มหาวิทยาลัยอัมสเตอร์ดัม (irlab@UVA)
ด้วยชุดของคำถามและคำตอบของ CHATGPT และมนุษย์ที่เกี่ยวข้องเราสร้างคอลเลกชันสองรายการแยกกัน: หนึ่งจาก CHATGPT และอีกหนึ่งจากมนุษย์ โดยการทำเช่นนั้นเราให้โอกาสในการวิเคราะห์หลายอย่างจาก มุมมองการดึงข้อมูล เกี่ยวกับประโยชน์ของการตอบสนองของ ChatGPT สำหรับแบบจำลองการดึงการฝึกอบรม เราจัดเตรียมชุดข้อมูลสำหรับการดึงข้อมูลทั้งแบบครบวงจรและการตั้งค่าการจัดอันดับใหม่ เพื่อให้ความยืดหยุ่นในการวิเคราะห์อื่น ๆ เราจัดระเบียบไฟล์ทั้งหมดแยกต่างหากสำหรับการตอบสนองของ CHATGPT และการตอบสนองของมนุษย์
ในขณะที่ CHATGPT เป็นรูปแบบภาษาที่ทรงพลังที่สามารถสร้างคำตอบที่น่าประทับใจได้ แต่ก็ไม่ได้มีภูมิคุ้มกันต่อความผิดพลาดหรือภาพหลอน นอกจากนี้แหล่งที่มาของข้อมูลที่สร้างโดย ChatGPT นั้นไม่โปร่งใสและมักจะไม่มีแหล่งข้อมูลที่สร้างขึ้นแม้ว่าข้อมูลจะถูกต้อง นี่อาจเป็นข้อกังวลที่ยิ่งใหญ่กว่าเมื่อพูดถึงโดเมนเช่นกฎหมายการแพทย์วิทยาศาสตร์และสาขาวิชาชีพอื่น ๆ ที่ความน่าเชื่อถือและความรับผิดชอบมีความสำคัญ แบบจำลองการดึงข้อมูลซึ่งตรงข้ามกับแบบจำลองการกำเนิดดึงข้อมูลจริง (จริง) จากแหล่งที่มาและเครื่องมือค้นหาให้แหล่งที่มาของแต่ละรายการที่ดึงมา นี่คือเหตุผลที่การดึงข้อมูล - แม้เมื่อมีการใช้งาน CHATGPT - ยังคงเป็นแอปพลิเคชันที่สำคัญโดยเฉพาะอย่างยิ่งในสถานการณ์ที่ความน่าเชื่อถือมีความสำคัญ
ชุดข้อมูลนี้ขึ้นอยู่กับชุดข้อมูล HC3 สาธารณะแม้ว่าการตั้งค่าการทดลองและการประเมินผลของเราจะแตกต่างกัน เราแยกข้อมูลเป็นรถไฟการตรวจสอบและชุดทดสอบเพื่อฝึกอบรม/ประเมินแบบจำลองการดึงคำตอบบน CHATGPT หรือคำตอบของมนุษย์ เราจัดเก็บการตอบสนองที่แท้จริงโดยมนุษย์/chatgpt เป็นคำตอบที่เกี่ยวข้อง สำหรับการฝึกอบรมชุดการตอบสนองแบบสุ่มสามารถใช้เป็นคำตอบที่ไม่เกี่ยวข้อง ในการทดลองหลักของเราเราฝึกอบรมการตอบสนองของ CHATGPT และประเมินการตอบสนองของมนุษย์ เราเปิดตัวชุดข้อมูล Chatgpt-Retrievalqa ในรูปแบบที่คล้ายกันกับชุดข้อมูล MSMARCO ซึ่งเป็นชุดข้อมูลยอดนิยมสำหรับการฝึกอบรมแบบจำลองการฝึกอบรม ดังนั้นทุกคนสามารถใช้สคริปต์ของพวกเขาอีกครั้งสำหรับชุดข้อมูล MSMARCO บนข้อมูลของเรา
| คำอธิบาย | ชื่อไฟล์ | ขนาดไฟล์ | NUM Records | รูปแบบ |
|---|---|---|---|---|
| Collection-H (H: การตอบสนองของมนุษย์) | collection_h.tsv | 38.6 MB | 58,546 | TSV: PID, Passage |
| Collection-C (C: การตอบกลับ CHATGPT) | collection_c.tsv | 26.1 MB | 26,882 | TSV: PID, Passage |
| การสอบถาม | Queries.tsv | 4 MB | 24,322 | TSV: QID, QUERY |
| รถไฟ QRELS-H (ชุดรถไฟ QRELS สำหรับการตอบสนองของมนุษย์) | QRELS_H_TRAIN.TSV | 724 kb | 40,406 | รูปแบบ trec qrels |
| การตรวจสอบความถูกต้องของ QRELS-H (การตรวจสอบความถูกต้อง QRELS สำหรับการตอบสนองของมนุษย์) | QRELS_H_VALID.TSV | 29 kb | 1,460 | รูปแบบ trec qrels |
| การทดสอบ QRELS-H (ชุดทดสอบ QRELS สำหรับการตอบสนองของมนุษย์) | QRELS_H_TEST.TSV | 326 kb | 16,680 | รูปแบบ trec qrels |
| QRELS-C Train (ชุดรถไฟ QRELS สำหรับการตอบกลับ CHATGPT) | QRELS_C_TRAIN.TSV | 339 kb | 18,452 | รูปแบบ trec qrels |
| การตรวจสอบความถูกต้องของ QRELS-C (การตรวจสอบความถูกต้อง QRELS สำหรับการตอบกลับ CHATGPT) | QRELS_C_VALID.TSV | 13 kb | 672 | รูปแบบ trec qrels |
| การทดสอบ QRELS-C (ชุดทดสอบ QRELS สำหรับการตอบกลับ CHATGPT) | QRELS_C_TEST.TSV | 152 kb | 7,756 | รูปแบบ trec qrels |
| คำค้นหาคำตอบและฉลากความเกี่ยวข้อง | CollectionAnderies.zip | 23.9 MB | 866,504 | |
| Train-H Triples | train_h_triples.tsv | 58.68 GB | 40,641,772 | TSV: Query, Positive Passage, Negative Passage |
| การตรวจสอบความถูกต้อง | valid_h_triple.tsv | 2.02 GB | 1,468,526 | TSV: Query, Positive Passage, Negative Passage |
| Train-H triples qid pid รูปแบบ | Train_H_QIDPIDTRIPLES.TSV | 921.7 MB | 40,641,772 | TSV: QID, Positive PID, PID เชิงลบ |
| รูปแบบการตรวจสอบความถูกต้อง H triples QID PID | valid_h_qidpidtriples.tsv | 35.6 MB | 1,468,526 | TSV: QID, Positive PID, PID เชิงลบ |
| Train-C Triples | train_c_triples.tsv | 37.4 GB | 18,473,122 | TSV: Query, Positive Passage, Negative Passage |
| การตรวจสอบความถูกต้อง C | valid_c_triple.tsv | 1.32 GB | 672,659 | TSV: Query, Positive Passage, Negative Passage |
| train-c triples qid pid รูปแบบ | train_c_qidpidtriples.tsv | 429.6 MB | 18,473,122 | TSV: QID, Positive PID, PID เชิงลบ |
| รูปแบบการตรวจสอบความถูกต้อง C Triples QID PID | valid_c_qidpidtriples.tsv | 16.4 MB | 672,659 | TSV: QID, Positive PID, PID เชิงลบ |
เราปล่อยข้อมูลการฝึกอบรมและการตรวจสอบในรูปแบบสามเท่าเพื่ออำนวยความสะดวกในการฝึกอบรม ไฟล์ triples เพื่อฝึกอบรมการตอบกลับ chatgpt คือ: "train_c_triple.tsv" และ "valid_c_triple.tsv" ยิ่งไปกว่านั้นเรายังปล่อยการตอบสนองของมนุษย์สามครั้งเพื่อให้ทุกคนสามารถเปรียบเทียบการฝึกอบรมเกี่ยวกับการฝึกอบรม chatgpt vs เกี่ยวกับการตอบสนองของมนุษย์ ("train_h_triples.tsv" และ "valid_h_triples.tsv" ไฟล์) เมื่อได้รับคำตอบและคำตอบเชิงบวกแต่ละคำตอบเชิงลบได้รับการสุ่มตัวอย่าง 1,000 คำตอบ
| คำอธิบาย | ชื่อไฟล์ | ขนาดไฟล์ | NUM Records |
|---|---|---|---|
| รถไฟ 1,000 อันดับแรก | top_1000_h_train.run | 646.6 MB | 16,774,122 |
| การตรวจสอบ Top-H 1000 | top_1000_h_valid.run | 23.7 MB | 605,956 |
| การทดสอบ Top-H 1000 | top_1000_h_test.run | 270.6 MB | 692,0845 |
| รถไฟสุดยอด C 1000 รถไฟ | top_1000_c_train.run | 646.6 MB | 16,768,032 |
| การตรวจสอบความถูกต้องของ Top-C 1000 | top_1000_c_valid.run | 23.7 MB | 605,793 |
| การทดสอบ Top-C 1000 | top_1000_c_test.run | 271.1 MB | 6,917,616 |
รูปแบบของไฟล์รันของชุดข้อมูลการจัดอันดับคำตอบอยู่ในรูปแบบการรัน TREC
หมายเหตุ : เราใช้ BM25 เป็นอันดับอันดับหนึ่งใน Elasticsearch เพื่อจัดอันดับเอกสารอันดับ 1,000 ที่ได้รับคำถาม (เช่นการสืบค้น) อย่างไรก็ตามสำหรับการสืบค้นบางอย่างจะมีการเรียกคืนเอกสารน้อยกว่า 1,000 ฉบับซึ่งหมายความว่ามีเอกสารน้อยกว่า 1,000 เอกสารที่มีคำอย่างน้อยหนึ่งคำตรงกับแบบสอบถามในคอลเลกชัน
เร็วๆ นี้.
เราฝึกฝนเบิร์ตในการตอบกลับที่ผลิตโดย chatgpt (ใช้ queries.tsv, collection_c.tsv, train_c_triples.tsv, valid_c_triples.tsv, qRELS_C_TRAIN.TSV และ QRELS_C_VALID.TSV) ต่อไปเราประเมินประสิทธิภาพของ BRET เป็นแบบจำลองคำตอบใหม่เกี่ยวกับการตอบสนองของมนุษย์ (ใช้ queries.tsv, collection_h.tsv, top_1000_c_test.run และ qRELS_H_TEST.TSV) โดยการทำเช่นนั้นเราตอบคำถามต่อไปนี้: "ประสิทธิภาพของแบบจำลองการดึงคำตอบที่ได้รับการฝึกฝนเกี่ยวกับการตอบสนองของ CHATGPT คืออะไรเมื่อเราประเมินมันในการตอบสนองของมนุษย์?"
เร็วๆ นี้.
เร็วๆ นี้
chatgpt-retrievalqa-dataset-creator
ขอขอบคุณเป็นพิเศษสำหรับทีม HC3 สำหรับการปล่อย Corpus (HC3) Corpus (HC3) ข้อมูลของเราถูกสร้างขึ้นตามชุดข้อมูลของพวกเขาและติดตามใบอนุญาตของพวกเขา