مستودع الورق "يولد مستندات اصطناعية لإعادة رفاهية المشفورين: دراسة مقارنة لخبراء ChatGPT والخبراء البشريين" وورقة "مجموعة اختبار من المستندات الاصطناعية لمرتبات التدريب: ChatGPT مقابل الخبراء البشريين". مجموعة بيانات لتدريب وتقييم الإجابة على الأسئلة (QA) استرجاع على استجابات ChatGPT مع إمكانية التدريب/التقييم على الاستجابات الإنسانية الحقيقية.
إذا كنت تستخدم مجموعة البيانات هذه ، يرجى استخدام مراجع Bibtex التالية:
@InProceedings { askari2023chatgptcikm2023 ,
author = { Askari, Arian and Aliannejadi, Mohammad and Kanoulas, Evangelos and Verberne, Suzan } ,
titlE = { A Test Collection of Synthetic Documents for Training Rankers: ChatGPT vs. Human Experts } ,
year = 2023 ,
booktitle = { The 32nd ACM International Conference on Information and Knowledge Management (CIKM 2023) } ,
}
@InProceedings { askari2023genirsigir2023 ,
author = { Askari, Arian and Aliannejadi, Mohammad and Kanoulas, Evangelos and Verberne, Suzan } ,
title = { Generating Synthetic Documents for Cross-Encoder Re-Rankers: A Comparative Study of ChatGPT and Human Experts } ,
year = 2023 ,
booktitle = { Generative Information Retrieval workshop at ACM SIGIR 2023 } ,
}تم إنجاز هذا العمل تحت إشراف البروفيسور محمد عليانيجادي وإيفانجيلوس كانولاس وسوزان فيربرن خلال بحثي الزائر في مختبر استرجاع المعلومات بجامعة أمستردام (Irlab@UVA).
بالنظر إلى مجموعة من الأسئلة واستجابات ChatGpt والبشر المقابلة ، نقوم بصنع مجموعتين منفصلتين: واحدة من ChatGpt وواحدة من البشر. من خلال القيام بذلك ، نقدم العديد من فرص التحليل من منظور استرجاع المعلومات فيما يتعلق بفائدة استجابات ChatGPT لنماذج استرجاع التدريب. نحن نقدم مجموعة البيانات لكل من الاسترجاع من طرف إلى طرف وإعداد إعادة التصنيف. لإعطاء المرونة للتحليلات الأخرى ، نقوم بتنظيم جميع الملفات بشكل منفصل لاستجابات chatgpt والإنسانية.
على الرغم من أن ChatGPT هو نموذج لغة قوي يمكنه إنتاج إجابات مثيرة للإعجاب ، إلا أنه ليس محصنًا من الأخطاء أو الهلوسة. علاوة على ذلك ، فإن مصدر المعلومات التي تم إنشاؤها بواسطة ChatGPT ليست شفافة وعادة ما لا يوجد مصدر للمعلومات التي تم إنشاؤها حتى عندما تكون المعلومات صحيحة. يمكن أن يكون هذا مصدر قلق أكبر عندما يتعلق الأمر بالمجالات مثل القانون والطب والعلوم وغيرها من المجالات المهنية حيث تكون الجدارة والمساءلة أمرًا بالغ الأهمية. نماذج الاسترجاع ، على عكس النماذج التوليدية ، تسترجع المعلومات الفعلية (الحقيقية) من المصادر ومحركات البحث توفر مصدر كل عنصر تم استرداده. هذا هو السبب في أن استرجاع المعلومات - حتى عند توفر chatgpt - يظل تطبيقًا مهمًا ، خاصة في الحالات التي تكون فيها الموثوقية أمرًا حيويًا.
تعتمد مجموعة البيانات هذه على مجموعة بيانات HC3 العامة ، على الرغم من أن الإعداد والتقييم التجريبي سيكون مختلفًا. نقوم بتقسيم البيانات في قطار ، والتحقق من صحة ، واختبار مجموعة من أجل تدريب/تقييم نماذج استرجاع الإجابة على chatgpt أو الإجابات البشرية. نقوم بتخزين الاستجابة الفعلية من قبل الإنسان/chatgpt كإجابة ذات صلة. للتدريب ، يمكن استخدام مجموعة من الاستجابات العشوائية كإجابات غير ذات صلة. في تجاربنا الرئيسية ، نتدرب على استجابات ChatGPT ونقيم الاستجابات البشرية. نقوم بإصدار مجموعة بيانات ChatGPT-REVIVALQA بتنسيق مماثل لمجموعة بيانات MSMARCO ، وهي مجموعة بيانات شهيرة لتدريب نماذج استرجاع. لذلك ، يمكن للجميع إعادة استخدام البرامج النصية الخاصة بهم لمجموعة بيانات MSMarco على بياناتنا.
| وصف | اسم الملف | حجم الملف | سجلات NUM | شكل |
|---|---|---|---|---|
| Collection-H (H: الردود البشرية) | collection_h.tsv | 38.6 ميغابايت | 58،546 | TSV: PID ، مرور |
| Collection-C (C: استجابات ChatGPT) | collection_c.tsv | 26.1 ميغابايت | 26،882 | TSV: PID ، مرور |
| استفسارات | الاستعلامات | 4 ميغابايت | 24322 | TSV: QID ، استعلام |
| قطار QRELS-H (مجموعة القطار QRELS للاستجابات البشرية) | QRELS_H_TRAIN.TSV | 724 كيلو بايت | 40،406 | TREC QRELS FORMAT |
| التحقق من صحة QRELS-H (مجموعة التحقق من صحة QRELS للاستجابات البشرية) | QRELS_H_VALID.TSV | 29 كيلو بايت | 1460 | TREC QRELS FORMAT |
| اختبار QRELS-H (مجموعة اختبار QRELS للاستجابات البشرية) | QRELS_H_TEST.TSV | 326 كيلو بايت | 16،680 | TREC QRELS FORMAT |
| قطار QRELS-C (مجموعة القطار QRELS لاستجابات ChatGPT) | QRELS_C_TRAIN.TSV | 339 كيلو بايت | 18،452 | TREC QRELS FORMAT |
| التحقق من صحة QRELS-C (مجموعة التحقق من صحة QRELS لاستجابات ChatGPT) | QRELS_C_VALID.TSV | 13 كيلو بايت | 672 | TREC QRELS FORMAT |
| اختبار QRELS-C (مجموعة اختبار QRELS لاستجابات ChatGPT) | QRELS_C_TEST.TSV | 152 كيلو بايت | 7،756 | TREC QRELS FORMAT |
| الاستفسارات والإجابات وعلامات الصلة | collectionandqueries.zip | 23.9 ميغابايت | 866،504 | |
| Train-H Triples | Train_h_triples.tsv | 58.68 جيجابايت | 40،641،772 | TSV: استعلام ، مرور إيجابي ، مرور سلبي |
| التحقق من صحة H Triple | alight_h_triples.tsv | 2.02 غيغابايت | 1،468،526 | TSV: استعلام ، مرور إيجابي ، مرور سلبي |
| تنسيق Train-H Triples QID PID | Train_H_QIDPIDTRIPLES.TSV | 921.7 ميغابايت | 40،641،772 | TSV: QID ، PID إيجابية ، PID سلبي |
| التحقق من صحة H Triples QID PID | Valy_H_QIDPIDTRIPLES.TSV | 35.6 ميغابايت | 1،468،526 | TSV: QID ، PID إيجابية ، PID سلبي |
| Train-C Triples | Train_c_triples.tsv | 37.4 غيغابايت | 18،473،122 | TSV: استعلام ، مرور إيجابي ، مرور سلبي |
| التحقق من صحة C Triple | alight_c_triples.tsv | 1.32 جيجابايت | 672،659 | TSV: استعلام ، مرور إيجابي ، مرور سلبي |
| Train-C Triples Triples QID PID | Train_c_qidpidtriples.tsv | 429.6 ميغابايت | 18،473،122 | TSV: QID ، PID إيجابية ، PID سلبي |
| Validation-C Triples Triples QID PID | Valy_c_qidpidtriples.tsv | 16.4 ميغابايت | 672،659 | TSV: QID ، PID إيجابية ، PID سلبي |
نقوم بإصدار بيانات التدريب والتحقق من صحة بتنسيق Triples لتسهيل التدريب. ملفات Triples للتدريب على استجابات ChatGpt هي: "Train_c_triples.tsv" و "alight_c_triples.tsv". علاوة على ذلك ، نقوم بإصدار الثلاثيات بناءً على الاستجابات الإنسانية حتى يتمكن الجميع من مقارنة التدريب على تدريب ChatGPT مقابل الاستجابات البشرية ("Train_H_TRIPLES.TSV" و "Valid_h_triples.tsv" ملفات). بالنظر إلى كل استعلام وإجابة إيجابية ، تم أخذ عينات من 1000 إجابة سلبية بشكل عشوائي.
| وصف | اسم الملف | حجم الملف | سجلات NUM |
|---|---|---|---|
| Top-H 1000 قطار | TOP_1000_H_TRAIN.RUN | 646.6 ميغابايت | 16،774،122 |
| أعلى H 1000 التحقق من الصحة | TOP_1000_H_VALID.RUN | 23.7 ميغابايت | 605،956 |
| Top-H 1000 اختبار | TOP_1000_H_TEST.RUN | 270.6 ميغابايت | 692،0845 |
| TOP-C 1000 قطار | TOP_1000_C_TRAIN.RUN | 646.6 ميغابايت | 16،768،032 |
| TOP-C 1000 التحقق من الصحة | TOP_1000_C_VALID.RUN | 23.7 ميغابايت | 605،793 |
| TOP-C 1000 اختبار | TOP_1000_C_TEST.RUN | 271.1 ميغابايت | 6،917،616 |
تنسيق ملفات التشغيل لمجموعة بيانات إعادة تشغيل الإجابة بتنسيق تشغيل TREC.
ملاحظة : نستخدم BM25 كصاحب للمرحلة الأولى في Elasticsearch من أجل تصنيف المستندات Top-1000 التي تم إعطاؤها سؤالًا (أي ، الاستعلام). ومع ذلك ، بالنسبة لبعض الاستعلامات ، سيتم استرداد أقل من 1000 وثيقة مما يعني أنه كان هناك أقل من 1000 وثيقة مع كلمة واحدة على الأقل مطابقة للاستعلام في المجموعة.
قريباً.
نقوم بتدريب Bert على الردود التي يتم إنتاجها بواسطة ChatGPT (باستخدام Queries.tsv ، collection_c.tsv ، train_c_triples.tsv ، alval_c_triples.tsv ، qrels_c_train.tsv ، و qrels_c_valid.tsv). بعد ذلك ، نقوم بتقييم فعالية BRET كإجابة نموذج إعادة صياغة على الاستجابات البشرية (باستخدام الاستعلامات. TTSV ، COLLECTION_H.TSV ، TOP_1000_C_TEST.RUN ، و QRELS_H_TEST.TSV). من خلال القيام بذلك ، نجيب على السؤال التالي: "ما هي فعالية نموذج استرجاع الإجابة الذي يتم تدريبه على استجابات ChatGpt ، عندما نقوم بتقييمه على الردود الإنسانية؟"
قريباً.
قريباً
chatgpt-retrivalqa-dataset-creator
شكر خاص لفريق HC3 لإصدار مجموعة Corpus Corpus (HC3) البشرية. يتم إنشاء بياناتنا بناءً على مجموعة البيانات الخاصة بهم وتتبع ترخيصها.