awesome llm human preference datasets ดาวน์โหลด - awesome llm human preference datasets ดาวน์โหลดซอร์สโค้ด

awesome llm human preference datasets

ซอร์สโค้ดอื่น ๆ

1.0.0

ดาวน์โหลด

ชุดข้อมูลการตั้งค่าของมนุษย์ที่ยอดเยี่ยมสำหรับ LLM? ❤?

รายการชุดข้อมูล การตั้งค่าของมนุษย์โอเพน ซอร์สสำหรับการปรับแต่ง LLM, RLHF และการประเมินผล

สำหรับชุดข้อมูล NLP ทั่วไปและ Text Corpora ลองดูรายการที่ยอดเยี่ยมนี้

ชุดข้อมูล

การเปรียบเทียบ OpenAI WebGPT

การเปรียบเทียบ 20K ที่แต่ละตัวอย่างประกอบด้วยคำถามคำตอบแบบจำลองคู่และคะแนนการตั้งค่าที่ได้รับการจัดอันดับของมนุษย์สำหรับแต่ละคำตอบ
ชุดข้อมูล RLHF ใช้ในการฝึกอบรมโมเดล OpenAI WebGPT รางวัล

การสรุป openai

ตัวอย่างการสรุปข้อความ 64K รวมถึงการตอบสนองที่เขียนโดยมนุษย์และการตอบสนองแบบจำลองมนุษย์
ชุดข้อมูล RLHF ที่ใช้ในการเรียนรู้ OpenAI เพื่อสรุปจากกระดาษตอบรับของมนุษย์
สำรวจข้อมูลตัวอย่างที่นี่

ชุดข้อมูลความช่วยเหลือด้านมานุษยวิทยาและความไม่เป็นอันตราย (HH-RLHF)

ในการเปรียบเทียบความพึงพอใจของมนุษย์ 170k รวมถึงข้อมูลการตั้งค่าของมนุษย์ที่รวบรวมไว้สำหรับการฝึกอบรมผู้ช่วยที่เป็นประโยชน์และไม่เป็นอันตรายด้วยการเรียนรู้การเสริมแรงจากข้อเสนอแนะของมนุษย์
- ชุดข้อมูล พื้นฐาน ที่ใช้โมเดล 52B แบบกลั่นบริบทโดยมีการเปรียบเทียบความช่วยเหลือ 44K และการเปรียบเทียบการประชุมสีแดง 42K (ความไม่เป็นอันตราย)
- ชุดข้อมูล RS ของการเปรียบเทียบความช่วยเหลือ 52K และการเปรียบเทียบการประชุม 2K สีแดงโดยใช้แบบจำลองการสุ่มตัวอย่างการปฏิเสธซึ่งการสุ่มตัวอย่างการปฏิเสธใช้แบบจำลองการตั้งค่าที่ผ่านการฝึกอบรมในชุดข้อมูลพื้นฐาน
- ชุดข้อมูล ออนไลน์ ซ้ำ ๆ รวมถึงข้อมูลจากรุ่น RLHF อัปเดตรายสัปดาห์ในช่วงห้าสัปดาห์ด้วยการเปรียบเทียบความช่วยเหลือ 22K

ชุดข้อมูลการสนทนา OpenAssistant (OASST1)

คลังการสนทนาสไตล์ผู้ช่วยที่มนุษย์สร้างขึ้นและมนุษย์ซึ่งประกอบด้วยข้อความ 161K ใน 35 ภาษามีคำอธิบายประกอบด้วยการจัดอันดับคุณภาพ 461K ทำให้เกิดการสนทนาที่มีคำอธิบายประกอบ 10K+

ชุดข้อมูลการตั้งค่าของมนุษย์ Stanford (SHP)

385K การตั้งค่าของมนุษย์โดยรวมมากกว่าการตอบคำถาม/คำแนะนำใน 18 โดเมนสำหรับการฝึกอบรมแบบจำลองรางวัล RLHF และรูปแบบการประเมิน NLG ชุดข้อมูลที่รวบรวมจาก Reddit

reddit eli5

270k ตัวอย่างคำถามคำตอบและคะแนนที่รวบรวมจาก 3 คำถามและคำตอบย่อย

Corpus เปรียบเทียบ Human CHATGPT (HC3)

คำตอบของมนุษย์ 60K และคำตอบ 27K CHATGPT สำหรับคำถามประมาณ 24K
ชุดข้อมูลพี่น้องสำหรับภาษาจีน

ชุดข้อมูลการตั้งค่าการตั้งค่าของ Stackexchange H4

10 ล้านคำถาม (พร้อม> = 2 คำตอบ) และคำตอบ (ทำคะแนนตามจำนวนคะแนน) จาก StackoverFlow

sharegpt.com

90K (ณ เดือนเมษายน 2566) การโต้ตอบกับผู้ใช้ที่ได้รับการอัปโหลดของผู้ใช้
~~หากต้องการเข้าถึงข้อมูลโดยใช้ API ของ ShareGpt ดูเอกสารประกอบที่นี่~~ SHAREGPT API ถูกปิดใช้งานในปัจจุบัน ("เนื่องจากการรับส่งข้อมูลส่วนเกิน")
ชุดข้อมูลที่สมบูรณ์ล่วงหน้าบน HuggingFace

อัลปากา

คำแนะนำและการสาธิต 52K ที่สร้างขึ้นโดยเครื่องยนต์ Text-Davinci-003 ของ OpenAI สำหรับการฝึกอบรม การควบคุมตนเอง

GPT4ALL

1M การตอบสนองต่อการตอบสนองต่อการตอบสนองโดยใช้ GPT-3.5-turbo API ในเดือนมีนาคม 2566 GitHub repo

ชุดข้อมูล Databricks Dolly

บันทึกการเรียนการสอน 15K ที่สร้างขึ้นโดยพนักงาน Databricks ในหมวดหมู่รวมถึงการระดมสมองการจำแนกประเภท QA ปิดการสร้างการสกัดข้อมูลการเปิด QA และการสรุป

hh_golden

ข้อมูลที่ไม่เป็นอันตราย 42K, พรอมต์เดียวกันและ "ปฏิเสธ" การตอบสนองเป็นชุดข้อมูลที่ไม่เป็นอันตรายในชุดข้อมูล HH มานุษยวิทยา แต่การตอบสนองในการตอบสนอง "เลือก" จะถูกเขียนขึ้นใหม่โดยใช้ GPT4 เพื่อให้คำตอบที่ไม่เป็นอันตรายมากขึ้น การเปรียบเทียบก่อนและหลังเขียนใหม่สามารถพบได้ที่นี่ เชิงประจักษ์เมื่อเทียบกับชุดข้อมูลที่ไม่เป็นอันตรายดั้งเดิมการฝึกอบรมในชุดข้อมูลนี้จะช่วยปรับปรุงการวัดที่ไม่เป็นอันตรายสำหรับวิธีการจัดตำแหน่งต่างๆเช่น RLHF และ DPO

ขยาย

ข้อมูลเพิ่มเติม