ชุดข้อมูลการตั้งค่าของมนุษย์ที่ยอดเยี่ยมสำหรับ LLM? ❤?
รายการชุดข้อมูล การตั้งค่าของมนุษย์โอเพน ซอร์สสำหรับการปรับแต่ง LLM, RLHF และการประเมินผล
สำหรับชุดข้อมูล NLP ทั่วไปและ Text Corpora ลองดูรายการที่ยอดเยี่ยมนี้
ชุดข้อมูล
การเปรียบเทียบ OpenAI WebGPT
- การเปรียบเทียบ 20K ที่แต่ละตัวอย่างประกอบด้วยคำถามคำตอบแบบจำลองคู่และคะแนนการตั้งค่าที่ได้รับการจัดอันดับของมนุษย์สำหรับแต่ละคำตอบ
- ชุดข้อมูล RLHF ใช้ในการฝึกอบรมโมเดล OpenAI WebGPT รางวัล
การสรุป openai
- ตัวอย่างการสรุปข้อความ 64K รวมถึงการตอบสนองที่เขียนโดยมนุษย์และการตอบสนองแบบจำลองมนุษย์
- ชุดข้อมูล RLHF ที่ใช้ในการเรียนรู้ OpenAI เพื่อสรุปจากกระดาษตอบรับของมนุษย์
- สำรวจข้อมูลตัวอย่างที่นี่
ชุดข้อมูลความช่วยเหลือด้านมานุษยวิทยาและความไม่เป็นอันตราย (HH-RLHF)
- ในการเปรียบเทียบความพึงพอใจของมนุษย์ 170k รวมถึงข้อมูลการตั้งค่าของมนุษย์ที่รวบรวมไว้สำหรับการฝึกอบรมผู้ช่วยที่เป็นประโยชน์และไม่เป็นอันตรายด้วยการเรียนรู้การเสริมแรงจากข้อเสนอแนะของมนุษย์
- ชุดข้อมูล พื้นฐาน ที่ใช้โมเดล 52B แบบกลั่นบริบทโดยมีการเปรียบเทียบความช่วยเหลือ 44K และการเปรียบเทียบการประชุมสีแดง 42K (ความไม่เป็นอันตราย)
- ชุดข้อมูล RS ของการเปรียบเทียบความช่วยเหลือ 52K และการเปรียบเทียบการประชุม 2K สีแดงโดยใช้แบบจำลองการสุ่มตัวอย่างการปฏิเสธซึ่งการสุ่มตัวอย่างการปฏิเสธใช้แบบจำลองการตั้งค่าที่ผ่านการฝึกอบรมในชุดข้อมูลพื้นฐาน
- ชุดข้อมูล ออนไลน์ ซ้ำ ๆ รวมถึงข้อมูลจากรุ่น RLHF อัปเดตรายสัปดาห์ในช่วงห้าสัปดาห์ด้วยการเปรียบเทียบความช่วยเหลือ 22K
ชุดข้อมูลการสนทนา OpenAssistant (OASST1)
- คลังการสนทนาสไตล์ผู้ช่วยที่มนุษย์สร้างขึ้นและมนุษย์ซึ่งประกอบด้วยข้อความ 161K ใน 35 ภาษามีคำอธิบายประกอบด้วยการจัดอันดับคุณภาพ 461K ทำให้เกิดการสนทนาที่มีคำอธิบายประกอบ 10K+
ชุดข้อมูลการตั้งค่าของมนุษย์ Stanford (SHP)
- 385K การตั้งค่าของมนุษย์โดยรวมมากกว่าการตอบคำถาม/คำแนะนำใน 18 โดเมนสำหรับการฝึกอบรมแบบจำลองรางวัล RLHF และรูปแบบการประเมิน NLG ชุดข้อมูลที่รวบรวมจาก Reddit
reddit eli5
- 270k ตัวอย่างคำถามคำตอบและคะแนนที่รวบรวมจาก 3 คำถามและคำตอบย่อย
Corpus เปรียบเทียบ Human CHATGPT (HC3)
- คำตอบของมนุษย์ 60K และคำตอบ 27K CHATGPT สำหรับคำถามประมาณ 24K
- ชุดข้อมูลพี่น้องสำหรับภาษาจีน
ชุดข้อมูลการตั้งค่าการตั้งค่าของ Stackexchange H4
- 10 ล้านคำถาม (พร้อม> = 2 คำตอบ) และคำตอบ (ทำคะแนนตามจำนวนคะแนน) จาก StackoverFlow
sharegpt.com
- 90K (ณ เดือนเมษายน 2566) การโต้ตอบกับผู้ใช้ที่ได้รับการอัปโหลดของผู้ใช้
หากต้องการเข้าถึงข้อมูลโดยใช้ API ของ ShareGpt ดูเอกสารประกอบที่นี่ SHAREGPT API ถูกปิดใช้งานในปัจจุบัน ("เนื่องจากการรับส่งข้อมูลส่วนเกิน")- ชุดข้อมูลที่สมบูรณ์ล่วงหน้าบน HuggingFace
อัลปากา
- คำแนะนำและการสาธิต 52K ที่สร้างขึ้นโดยเครื่องยนต์ Text-Davinci-003 ของ OpenAI สำหรับการฝึกอบรม การควบคุมตนเอง
GPT4ALL
- 1M การตอบสนองต่อการตอบสนองต่อการตอบสนองโดยใช้ GPT-3.5-turbo API ในเดือนมีนาคม 2566 GitHub repo
ชุดข้อมูล Databricks Dolly
- บันทึกการเรียนการสอน 15K ที่สร้างขึ้นโดยพนักงาน Databricks ในหมวดหมู่รวมถึงการระดมสมองการจำแนกประเภท QA ปิดการสร้างการสกัดข้อมูลการเปิด QA และการสรุป
hh_golden
- ข้อมูลที่ไม่เป็นอันตราย 42K, พรอมต์เดียวกันและ "ปฏิเสธ" การตอบสนองเป็นชุดข้อมูลที่ไม่เป็นอันตรายในชุดข้อมูล HH มานุษยวิทยา แต่การตอบสนองในการตอบสนอง "เลือก" จะถูกเขียนขึ้นใหม่โดยใช้ GPT4 เพื่อให้คำตอบที่ไม่เป็นอันตรายมากขึ้น การเปรียบเทียบก่อนและหลังเขียนใหม่สามารถพบได้ที่นี่ เชิงประจักษ์เมื่อเทียบกับชุดข้อมูลที่ไม่เป็นอันตรายดั้งเดิมการฝึกอบรมในชุดข้อมูลนี้จะช่วยปรับปรุงการวัดที่ไม่เป็นอันตรายสำหรับวิธีการจัดตำแหน่งต่างๆเช่น RLHF และ DPO