LLM에 대한 멋진 인간 선호 데이터 세트? ❤️?
LLM 명령 조정, RLHF 및 평가를위한 오픈 소스 인적 선호도 데이터 세트의 선별 된 목록.
일반 NLP 데이터 세트 및 텍스트 Corpora의 경우이 멋진 목록을 확인하십시오.
데이터 세트
Openai Webgpt 비교
- 20K 각 예제가 질문, 한 쌍의 모델 답변 및 각 답변에 대한 인간 등급 선호 점수를 포함하는 경우 20K 비교.
- RLHF 데이터 세트는 OpenAI WebGPT 보상 모델을 훈련시키는 데 사용됩니다.
Openai 요약
- 64K 텍스트 요약 예제 인간이 작성한 반응 및 인간 등급 모델 응답을 포함한 예제.
- RLHF 데이터 세트는 OpenAI 학습에 사용되어 인간 피드백 논문에서 요약합니다.
- 여기에서 샘플 데이터를 탐색하십시오.
인류의 도움과 무해함 데이터 세트 (HH-RLHF)
- 인간의 피드백의 강화 학습 및 레드 팀 언어 모델의 인간 생성 된 빨간 팀 구성 데이터를 훈련시키기 위해 수집 된 인적 선호도 데이터를 포함하여 총 170k 인적 선호도 비교는 3 개의 하위 다타 세트로 나뉘어져 있습니다.
- 44K 도움 비교와 42K 레드 팀 (무해 함) 비교를 갖춘 컨텍스트 분해 된 52B 모델을 사용하는 기본 데이터 세트.
- 거부 샘플링이 기본 데이터 세트에서 훈련 된 기본 설정 모델을 사용하는 52K 도움 비교 및 2K 레드 팀 비교의 RS 데이터 세트.
- RLHF 모델의 데이터를 포함한 반복 된 온라인 데이터 세트는 5 주에 걸쳐 매주 업데이트되었으며 22K 도움을 비교합니다.
OpenAsistant 대화 데이터 세트 (OASST1)
- 35 개 언어로 161k 메시지로 구성된 인간이 제작 한 인간이 발표 된 인간이 발표 된 보조 스타일 대화 코퍼스는 461k 품질의 등급으로 주석이 달린 10k+ 완전히 주석이 달린 대화 트리를 만듭니다.
Stanford Human Preferences 데이터 세트 (SHP)
- 385K RLHF 보상 모델 및 NLG 평가 모델을 훈련하기위한 18 개의 도메인의 질문/지침에 대한 응답에 대한 집단적 인간 선호. Reddit에서 수집 한 데이터 세트.
Reddit Eli5
- 270K 3 Q & A 하위 레드에서 수집 한 질문, 답변 및 점수의 예.
휴먼 chatgpt 비교 코퍼스 (HC3)
- 약 24K 질문에 대한 60K 인간 답변과 27K Chatgpt 답변.
- 중국어에 사용할 수있는 형제 데이터 세트.
Huggingface H4 StackexChange 기본 설정 데이터 세트
- StackoverFlow의 1 천만 개의 질문 (> = 2 답변) 및 답변 (투표 수에 따라 점수가 매겨짐).
sharegpt.com
- 90K (2023 년 4 월 기준) 사용자 공제 ChatGpt 상호 작용.
ShareGpt의 API를 사용하여 데이터에 액세스하려면 여기 문서를 참조하십시오. ShareGpt API는 현재 비활성화되어 있습니다 ( "초과 트래픽으로 인해").- Huggingface의 미리 완료 된 데이터 세트.
알파카
- 자체 강조 교육을위한 OpenAi의 Text-Davinci-003 엔진에 의해 생성 된 52K 지침 및 데모.
gpt4all
- 2023 년 3 월 GPT-3.5-Turbo API를 사용하여 1m 프롬프트-응답 쌍. Github Repo.
Databricks Dolly 데이터 세트
- 15K 뇌간 직원이 브레인 스토밍, 분류, 폐쇄 QA, 생성, 정보 추출, 오픈 QA 및 요약 등 카테고리에서 생성 한 15K 교육 기관 직원.
HH_GOLDEN
- 42K 무해한 데이터, 동일한 프롬프트 및 "거부"응답은 Anthropic HH 데이터 세트에서 무해한 데이터 세트와 "거부"반응을 보이지만 "선택된"응답의 응답은 GPT4를 사용하여 더 많은 무해한 대답을 얻기 위해 다시 작성됩니다. 다시 작성 전후의 비교는 여기에서 찾을 수 있습니다. 경험적으로, 원래 무해한 데이터 세트와 비교할 때이 데이터 세트에 대한 교육은 RLHF 및 DPO와 같은 다양한 정렬 방법에 대한 무해한 메트릭을 향상시킵니다.