Репозиторий бумаги, «генерирующие синтетические документы для перекрестных рефлекторов: сравнительное исследование ЧАТГПТ и человеческих экспертов» и бумага «Коллекция тестов синтетических документов для обучения Ранков: ЧАТГПТ против человеческих экспертов». Набор данных для обучения и оценки ответных вопросов (QA) моделей поиска в ответах CHATGPT с возможностью обучения/оценки реальных человеческих ответов.
Если вы используете этот набор данных, используйте следующие ссылки на Bibtex:
@InProceedings { askari2023chatgptcikm2023 ,
author = { Askari, Arian and Aliannejadi, Mohammad and Kanoulas, Evangelos and Verberne, Suzan } ,
titlE = { A Test Collection of Synthetic Documents for Training Rankers: ChatGPT vs. Human Experts } ,
year = 2023 ,
booktitle = { The 32nd ACM International Conference on Information and Knowledge Management (CIKM 2023) } ,
}
@InProceedings { askari2023genirsigir2023 ,
author = { Askari, Arian and Aliannejadi, Mohammad and Kanoulas, Evangelos and Verberne, Suzan } ,
title = { Generating Synthetic Documents for Cross-Encoder Re-Rankers: A Comparative Study of ChatGPT and Human Experts } ,
year = 2023 ,
booktitle = { Generative Information Retrieval workshop at ACM SIGIR 2023 } ,
}Эта работа была выполнена под наблюдением профессора Мохаммада Алиннеджади, Евангелоса Кануласа и Сюзана Верберна во время моих посещающих исследований в лаборатории поиска информации в Амстердамском университете (Irlab@UVA).
Учитывая набор вопросов и соответствующих ответов CHATGPT и людей, мы делаем две отдельные коллекции: одна из CHATGPT и один от людей. Таким образом, мы предоставляем несколько возможностей для анализа с точки зрения поиска информации , касающейся полезности ответов CHATGPT для моделей поиска обучения. Мы предоставляем набор данных как для сквозного поиска, так и для повторной настройки. Чтобы дать гибкость другим анализам, мы организуем все файлы отдельно для ответов CHATGPT и человека.
В то время как CHATGPT - это мощная языковая модель, которая может дать впечатляющие ответы, он не застрахован от ошибок или галлюцинаций. Кроме того, источник информации, сгенерированной CHATGPT, не является прозрачным, и обычно нет источника для сгенерированной информации, даже если информация верна. Это может быть более серьезной проблемой, когда речь идет о таких областях, как закон, медицина, наука и другие профессиональные области, где достоверность и подотчетность имеют решающее значение. Модели поиска, в отличие от генеративных моделей, извлекают фактическую (истинную) информацию из источников и поисковых систем, предоставляется источник каждого извлеченного элемента. Вот почему поиск информации - даже если доступен CHATGPT - остается важным приложением, особенно в ситуациях, когда надежность жизненно важна.
Этот набор данных основан на общедоступном наборе данных HC3, хотя наша экспериментальная настройка и оценка будут разными. Мы разделили данные в поезде, валидации и наборе тестирования, чтобы обучить/оценить модели поиска ответов на ответах CHATGPT или человека. Мы храним фактический ответ человеком/CHATGPT в качестве соответствующего ответа. Для обучения набор случайных ответов может использоваться в качестве необратительных ответов. В наших основных экспериментах мы тренируемся в ответах CHATGPT и оцениваем реакцию человека. Мы выпускаем набор данных CHATGPT-RETIVEVALQA в аналогичном формате на набор данных MSMARCO, который является популярным набором данных для моделей поиска обучения. Поэтому каждый может повторно использовать свои сценарии для набора данных MSMARCO на наших данных.
| Описание | Имя файла | Размер файла | Num Records | Формат |
|---|---|---|---|---|
| Коллекция-H (H: человеческие ответы) | Collection_h.tsv | 38,6 МБ | 58 546 | TSV: PID, проход |
| Collection-C (C: ответы CHATGPT) | collection_c.tsv | 26,1 МБ | 26 882 | TSV: PID, проход |
| Запросы | Queries.tsv | 4 МБ | 24 322 | TSV: QID, запрос |
| QRels-H Train (поезда набор QRELS для человеческих ответов) | QRels_h_train.tsv | 724 КБ | 40 406 | Формат QRELS TREC |
| Валидация QRELS-H (валидационные QRELS для человеческих ответов) | QRels_h_valid.tsv | 29 КБ | 1460 | Формат QRELS TREC |
| Тест QRELS-H (набор тестовых QRELS для человеческих ответов) | QRels_h_test.tsv | 326 КБ | 16 680 | Формат QRELS TREC |
| QRels-C Train (набор QRELS для ответов CHATGPT) | QRels_c_train.tsv | 339 КБ | 18 452 | Формат QRELS TREC |
| Validation QRels-C (валидация QRels для ответов CHATGPT) | QRels_c_valid.tsv | 13 КБ | 672 | Формат QRELS TREC |
| Тест QRELS-C (тестовые набор QRELS для ответов CHATGPT) | QRels_c_test.tsv | 152 КБ | 7 756 | Формат QRELS TREC |
| Запросы, ответы и релевантные этикетки | CollectionAndqueries.zip | 23,9 МБ | 866,504 | |
| Поезда-H тройки | train_h_triples.tsv | 58,68 ГБ | 40 641 772 | TSV: запрос, положительный отрывок, отрицательный отрывок |
| Validation-H Triple | valive_h_triples.tsv | 2,02 ГБ | 1 468 526 | TSV: запрос, положительный отрывок, отрицательный отрывок |
| Train-H Triples QID PID-формат | train_h_qidpidtriples.tsv | 921,7 МБ | 40 641 772 | TSV: QID, положительный пид, отрицательный пид |
| Validation-H Triples QID PID-формат | valive_h_qidpidtriples.tsv | 35,6 МБ | 1 468 526 | TSV: QID, положительный пид, отрицательный пид |
| ТРЕЗ-К ТРЕЛЕЙ | train_c_triples.tsv | 37,4 ГБ | 18 473 122 | TSV: запрос, положительный отрывок, отрицательный отрывок |
| Validation-C Triple | valive_c_triples.tsv | 1,32 ГБ | 672 659 | TSV: запрос, положительный отрывок, отрицательный отрывок |
| Train-C Triple PID-формат QID | train_c_qidpidtriples.tsv | 429,6 МБ | 18 473 122 | TSV: QID, положительный пид, отрицательный пид |
| Validation-C Triples QID PID-формат | valive_c_qidpidtriples.tsv | 16,4 МБ | 672 659 | TSV: QID, положительный пид, отрицательный пид |
Мы публикуем данные обучения и валидации в формате Triples, чтобы облегчить обучение. Файлы Triples для обучения в ответах CHATGPT: "train_c_triples.tsv" и "valive_c_triples.tsv". Более того, мы выпускаем тройки на основе человеческих ответов, чтобы каждый мог сравнивать обучение по обучению Chatgpt и обучению человеческим ответам ("train_h_triples.tsv" и "valid_h_triples.tsv"). Учитывая каждый запрос и положительный ответ, 1000 отрицательных ответов были отобраны случайным образом.
| Описание | Имя файла | Размер файла | Num Records |
|---|---|---|---|
| Top-H 1000 поезда | top_1000_h_train.run | 646,6 МБ | 16 774 122 |
| Верхняя-H 1000 Validation | top_1000_h_valid.run | 23,7 МБ | 605,956 |
| Top-H 1000 тест | top_1000_h_test.run | 270,6 МБ | 692 0845 |
| Top-C 1000 поезда | top_1000_c_train.run | 646,6 МБ | 16 768 032 |
| Validation Top-C 1000 | top_1000_c_valid.run | 23,7 МБ | 605 793 |
| Top-C 1000 тест | top_1000_c_test.run | 271,1 МБ | 6 917 616 |
Формат файлов запуска набора данных повторного ранга ответа находится в формате TREC Run.
Примечание : мы используем BM25 в качестве ранга первой стадии в Elasticsearch, чтобы оценить документы топ-1000, учитывая вопрос (т.е. запрос). Однако, для некоторых запросов, будет извлечено менее 1000 документов, что означает, что было менее 1000 документов, по крайней мере, одно слово, сопоставленное с запросом в коллекции.
Вскоре.
Мы обучаем BERT в ответах, которые производятся CHATGPT (используя Queries.tsv, collection_c.tsv, train_c_triples.tsv, valie_c_triples.tsv, Qrels_c_train.tsv и Qrels_c_valid.tsv files). Далее мы оцениваем эффективность BRET как модель повторного ранга ответа на человеческие ответы (используя Queries.tsv, collection_h.tsv, top_1000_c_test.run и qrels_h_test.tsv). Таким образом, мы отвечаем на следующий вопрос: «Какова эффективность модели поиска ответов, которая обучается ответам CHATGPT, когда мы оцениваем ее по человеческим ответам?»
Вскоре.
Вскоре
Chatgpt-retievalqa-Dataset-Creator
Особая благодарность команде HC3 за выпуск CHATGPT CHATGPT CHATGPT (HC3) CORPUS. Наши данные создаются на основе их набора данных и следует за лицензией их.