紙のリポジトリ「クロスエンコーダーの再ランカーの合成文書の生成:ChatGptと人間の専門家の比較研究」と論文「トレーニングランカーの合成文書のテストコレクション:ChatGpt vs. Human Experts」。実際の人間の応答をトレーニング/評価する可能性を伴うChatGPT応答に関する質問応答(QA)検索モデルをトレーニングおよび評価するためのデータセット。
このデータセットを使用する場合は、次のbibtex参照を使用してください。
@InProceedings { askari2023chatgptcikm2023 ,
author = { Askari, Arian and Aliannejadi, Mohammad and Kanoulas, Evangelos and Verberne, Suzan } ,
titlE = { A Test Collection of Synthetic Documents for Training Rankers: ChatGPT vs. Human Experts } ,
year = 2023 ,
booktitle = { The 32nd ACM International Conference on Information and Knowledge Management (CIKM 2023) } ,
}
@InProceedings { askari2023genirsigir2023 ,
author = { Askari, Arian and Aliannejadi, Mohammad and Kanoulas, Evangelos and Verberne, Suzan } ,
title = { Generating Synthetic Documents for Cross-Encoder Re-Rankers: A Comparative Study of ChatGPT and Human Experts } ,
year = 2023 ,
booktitle = { Generative Information Retrieval workshop at ACM SIGIR 2023 } ,
}この作業は、アムステルダム大学(IRLAB@UVA)の情報回収研究所での私の訪問調査中に、モハマド・アリアンネジャディ教授、エヴァンゲロス・カヌーラス、スザン・ヴァーベルヌの監督の下で行われました。
一連の質問とそれに対応するChatGptと人間の回答を考えると、2つの別々のコレクションを作成します。1つはChatGptと1つは人間です。そうすることで、検索モデルをトレーニングするためのCHATGPT応答の有用性に関する情報検索の観点から、いくつかの分析の機会を提供します。エンドツーエンドの検索と再ランキングセットアップの両方のデータセットを提供します。他の分析に柔軟性を与えるために、すべてのファイルを個別に整理し、ChatGPTと人間の反応を整理します。
ChatGptは印象的な答えを生み出すことができる強力な言語モデルですが、間違いや幻覚を免れません。さらに、ChatGPTによって生成された情報のソースは透過的ではなく、通常、情報が正しい場合でも生成された情報のソースはありません。これは、信頼性と説明責任が重要な法律、医学、科学、その他の専門分野などのドメインに関しては、より大きな懸念事項になる可能性があります。検索モデルは、生成モデルとは対照的に、ソースから実際の(真の)情報を取得し、検索エンジンから各取得項目のソースを提供します。これが、特に信頼性が不可欠な状況では、CHATGPTが利用可能であっても、情報の検索が重要なアプリケーションのままである理由です。
このデータセットはパブリックHC3データセットに基づいていますが、実験的なセットアップと評価は異なります。 ChatGPTまたは人間の回答で回答検索モデルをトレーニング/評価するために、列車、検証、およびテストセットにデータを分割します。実際の応答は、関連する答えとしてHuman/ChatGptによる保存されます。トレーニングのために、一連のランダムな応答を関連しない回答として使用できます。主な実験では、ChatGPTの応答をトレーニングし、人間の反応を評価します。 chatgpt-retrievalqaデータセットは、検索モデルをトレーニングするための一般的なデータセットであるMSMARCOデータセットと同様の形式でリリースされます。したがって、誰もがデータのMSMARCOデータセットのスクリプトを再利用できます。
| 説明 | ファイル名 | ファイルサイズ | numレコード | 形式 |
|---|---|---|---|---|
| Collection-H(H:人間の反応) | collection_h.tsv | 38.6 MB | 58,546 | TSV:PID、通過 |
| Collection-C(C:chatgpt応答) | collection_c.tsv | 26.1 MB | 26,882 | TSV:PID、通過 |
| クエリ | queries.tsv | 4 MB | 24,322 | TSV:QID、クエリ |
| QRELS-Hトレイン(人間の反応のためにQRELSセットQRELS) | QRELS_H_TRAIN.TSV | 724 kb | 40,406 | TREC QRELS形式 |
| QRELS-h検証(人間の反応のための検証セットQRELS) | QRELS_H_VALID.TSV | 29 kb | 1,460 | TREC QRELS形式 |
| QRELS-Hテスト(人間の反応のためのテストセットQRELS) | QRELS_H_TEST.TSV | 326 kb | 16,680 | TREC QRELS形式 |
| QRELS-C Train(ChatGPT応答のためのQRELSセットQRELS) | QRELS_C_TRAIN.TSV | 339 kb | 18,452 | TREC QRELS形式 |
| QRELS-C検証(検証chatgpt応答のためのqRELSセット) | QRELS_C_VALID.TSV | 13 kb | 672 | TREC QRELS形式 |
| QRELS-Cテスト(CHATGPT応答のテストセットQRELS) | QRELS_C_TEST.TSV | 152 kb | 7,756 | TREC QRELS形式 |
| クエリ、回答、および関連ラベル | collectionandqueries.zip | 23.9 MB | 866,504 | |
| Train-Hトリプル | train_h_triples.tsv | 58.68 GB | 40,641,772 | TSV:クエリ、正の通過、否定的な通過 |
| 検証-Hトリプル | valid_h_triples.tsv | 2.02 GB | 1,468,526 | TSV:クエリ、正の通過、否定的な通過 |
| Train-HトリプルQID PID形式 | train_h_qidpidtriples.tsv | 921.7 MB | 40,641,772 | TSV:QID、陽性PID、負のPID |
| Validation-HトリプルQID PID形式 | valid_h_qidpidtriples.tsv | 35.6 MB | 1,468,526 | TSV:QID、陽性PID、負のPID |
| Train-Cトリプル | train_c_triples.tsv | 37.4 GB | 18,473,122 | TSV:クエリ、正の通過、否定的な通過 |
| 検証-Cトリプル | valid_c_triples.tsv | 1.32 GB | 672,659 | TSV:クエリ、正の通過、否定的な通過 |
| Train-CトリプルQID PID形式 | train_c_qidpidtriples.tsv | 429.6 MB | 18,473,122 | TSV:QID、陽性PID、負のPID |
| Validation-CトリプルQID PID形式 | valid_c_qidpidtriples.tsv | 16.4 MB | 672,659 | TSV:QID、陽性PID、負のPID |
トレーニングを容易にするために、トレーニングデータと検証データをTriples形式でリリースします。 ChatGPT応答でトレーニングするトリプルファイルは、「train_c_triples.tsv」および「valid_c_triples.tsv」です。さらに、人間の反応に基づいてトリプルをリリースして、誰もがChatGPTのトレーニングと人間の反応に関するトレーニング( "train_h_triples.tsv"および "valid_h_triples.tsv"ファイル)を比較できるようにします。各クエリと肯定的な答えを考えると、1000の否定的な答えがランダムにサンプリングされました。
| 説明 | ファイル名 | ファイルサイズ | numレコード |
|---|---|---|---|
| Top-H 1000列車 | top_1000_h_train.run | 646.6 MB | 16,774,122 |
| TOP-H 1000検証 | TOP_1000_H_VALID.RUN | 23.7 MB | 605,956 |
| TOP-H 1000テスト | top_1000_h_test.run | 270.6 MB | 692,0845 |
| トップC 1000トレイン | top_1000_c_train.run | 646.6 MB | 16,768,032 |
| TOP-C 1000検証 | TOP_1000_C_VALID.RUN | 23.7 MB | 605,793 |
| トップC 1000テスト | top_1000_c_test.run | 271.1 MB | 6,917,616 |
回答の実行ファイルの形式は、再ランクデータセットの形式です。
注:BM25をElasticSearchの第1段階のランカーとして使用して、質問が与えられた上位1000のドキュメントをランク付けします(つまり、クエリ)。ただし、一部のクエリでは、1000未満のドキュメントが取得されるため、コレクションのクエリと少なくとも1つの単語が一致するドキュメントが1000未満でした。
近日公開。
ChatGptによって作成された応答についてBERTをトレーニングします(queries.tsv、collection_c.tsv、train_c_triples.tsv、valid_c_triples.tsv、qrels_c_train.tsv、qrels_c_valid.tsvファイルを使用)。次に、人間の応答に対する回答の再ランカーモデルとしてのBretの有効性を評価します(queries.tsv、collection_h.tsv、top_1000_c_test.run、qrels_h_test.tsvを使用)。そうすることで、次の質問に答えます。「人間の応答を評価するときに、ChatGPT応答でトレーニングされている回答検索モデルの有効性は何ですか?」
近日公開。
近日公開
chatgpt-retrievalqa-dataset-creator
HC3チームをリリースしてくれたHC3チームに感謝します。データはデータセットに基づいて作成され、それらのライセンスに従います。