LLMの素晴らしい人間の好みデータセット?
LLM命令調整、RLHF、および評価のためのオープンソースの人間選好データセットのキュレーションリスト。
一般的なNLPデータセットとテキストコーパスについては、この素晴らしいリストをご覧ください。
データセット
Openai WebGPT比較
- 各例が質問、モデルの回答のペア、および各回答の人間の評価スコアを含む20K比較。
- Openai WebGPT報酬モデルのトレーニングに使用されるRLHFデータセット。
Openai要約
- 64Kテキストの要約の例は、人間が書いた応答や人間の評価のモデル応答を含む例。
- OpenAIで使用されるRLHFデータセットは、人間のフィードバックペーパーから要約するために学習します。
- ここでサンプルデータを調べてください。
人類の有用性と無害なデータセット(HH-RLHF)
- 人間のフィードバックからの役立つ無害なアシスタントをトレーニングするために収集された人間の選好データと、赤いチーム化言語モデルからの人間生成の赤いチーム化データを含む、人間の選好データを含む、人間の選好の比較を合計170kで比較して、3つのサブデータセットに分けられます。
- 44Kの有用な比較と42Kレッドチーム(無害)比較を備えたコンテキストが拡張した52Bモデルを使用したベースデータセット。
- 52Kの有用性比較のRSデータセットと、拒絶サンプリングがベースデータセットでトレーニングされた優先モデルを使用した拒絶サンプリングモデルを使用した2Kレッドチームの比較。
- RLHFモデルからのデータを含む繰り返されるオンラインデータセットは、5週間にわたって毎週更新され、22Kの有用性の比較があります。
OpenAssistant会話データセット(OASST1)
- 35の言語で161kのメッセージで構成される人間で生成された、人間が発射されたアシスタントスタイルの会話コーパスは、461kの品質評価が注釈付けされ、10k以上の完全に注釈された会話ツリーになります。
スタンフォードヒューマン選好データセット(SHP)
- RLHF報酬モデルとNLG評価モデルをトレーニングするための18のドメインでの質問/指示に対する回答に対する385kの集合的な人間の好み。 Redditから収集されたデータセット。
reddit eli5
- 3つのQ&A Subredditsから収集された質問、回答、スコアの270kの例。
HumanChatGpt比較コーパス(HC3)
- 60kの人間の回答と27kのChatGptは、約24kの質問に対する回答です。
- 中国語で利用可能な兄弟データセット。
Huggingface H4 stackexchange優先データセット
- Stackoverflowからの1,000万の質問(> = 2回の回答)と回答(投票数に基づいてスコア付けされた)。
sharegpt.com
- 90K(2023年4月現在)ユーザーが使用したChatGPTインタラクション。
ShareGPTのAPIを使用してデータにアクセスするには、こちらのドキュメントを参照してくださいShareGPT APIは現在無効になっています(「交通量が多いため」)。- Huggingfaceの不完全データセット。
アルパカ
- 自己理解のためのOpenaiのText-Davinci-003エンジンによって生成された52Kの指示とデモンストレーション。
gpt4all
- 2023年3月にGPT-3.5-Turbo APIを使用してコレクションされた1Mプロンプト応答ペア。GithubRepo。
Databricks Dolly Dataset
- Databricksの従業員がブレーンストーミング、分類、閉鎖QA、生成、情報抽出、オープンQA、要約などのカテゴリで生成した15Kの指導記録。
HH_GOLDEN
- 42kの無害なデータ、同じプロンプト、および「拒否された」応答は、人類のHHデータセットの無害なデータセットとして「拒否されました」が、「選択された」応答の応答は、GPT4を使用して書き直されて、より無害な答えを生み出します。書き直し前後の比較は、ここで見つけることができます。経験的には、元の無害なデータセットと比較して、このデータセットのトレーニングは、RLHFやDPOなどのさまざまなアライメント方法の無害なメトリックを改善します。