chinese instruction datasets for llms ดาวน์โหลด - chinese instruction datasets for llms แหล่งที่มาดาวน์โหลด

chinese instruction datasets for llms

โค้ดแหล่งที่มา AI

1.0.0

ดาวน์โหลด

ชุดข้อมูลคำสั่งภาษาจีนสำหรับ LLMS

ทุกคนชอบ CHATGPT แต่มี บริษัท เทคโนโลยีขนาดใหญ่หรือห้องปฏิบัติการขนาดใหญ่เพียงไม่กี่แห่งเท่านั้นที่มีความสามารถในการฝึกอบรมแบบจำลองดังกล่าว เมื่อเร็ว ๆ นี้วิธีการเชิงรุกรานตนเองได้รับความนิยมในชุมชนโอเพ่นซอร์ส: สร้างชุดข้อมูลการเรียนการสอนผ่านคำแนะนำ/chatgpt จากนั้นปรับแต่ง LLMs ขนาดเล็ก (เช่น Llama 7b) ซึ่งสามารถบรรลุได้ "เทียบเท่ากับ" chatgpt หนึ่งในงานทั่วไปคือ Stanford Alpaca

ปัจจุบันมีชุดข้อมูลคำสั่งโอเพ่นซอร์สน้อยมากและส่วนใหญ่เป็นภาษาอังกฤษ ชุดข้อมูลคำสั่งภาษาจีนเพียงไม่กี่ชุดเท่านั้นที่แปลในชุดข้อมูลภาษาอังกฤษ อย่างไรก็ตามเมื่อพิจารณาถึงความต้องการที่แข็งแกร่งของทุกคนสำหรับ CHATGPT เราเชื่อว่าชุดข้อมูลการเรียนการสอนภาษาจีนขนาดใหญ่จำนวนมากขึ้นเรื่อย ๆ จะปรากฏขึ้นในอนาคต

โครงการนี้มีวัตถุประสงค์เพื่อรวบรวมชุดข้อมูลการสอนภาษาจีนเพื่อให้ทุกคนสามารถปรับแต่ง LLMS ของจีนได้อย่างสะดวกยิ่งขึ้น

ชุดข้อมูล	ขนาด	คำอธิบาย	แหล่งที่มา
ชุดข้อมูล Guanaco	27808	ชุดข้อมูลคำสั่งหลายภาษาสเกลจะได้รับการปรับปรุงเป็น 92530	ชาวกวานาโค
alpaca_chinese_dataset	การอัปเดต	การแปลของเครื่อง + การตรวจสอบด้วยตนเองของชุดข้อมูล ALPACA และเสริมข้อมูลการสนทนาบางส่วน	Stanford Alpaca
Alpaca-Chinese-Dataset	20465	การแปลเครื่องชุดข้อมูล Alpaca	Stanford Alpaca
จีน-อัลปาลา-ลอร่า	การอัปเดต	ชุดข้อมูล ALPACA เป็นเครื่องแปลเครื่อง รูปแบบการแปลคือ GPT-3.5-turbo และจะรวมกับชุดข้อมูล Guanaco ในอนาคต	Stanford Alpaca
gpt-4-llm	52K	ชุดข้อมูล ALPACA ถูกแปลโดยใช้ CHATGPT จากนั้นการตอบสนองของจีนจะได้รับโดยใช้ GPT-4	Stanford Alpaca
bellegroup/train_0.5m_cn	0.5m	พรอมต์เมล็ดพันธุ์จีนที่สร้างขึ้นโดยผู้เขียนโดยใช้ text-davinci-003 เพื่อรับการตอบกลับ	เบลล์
bellegroup/train_1m_cn	1m	เมล็ดพันธุ์จีนก็เหมือนกับข้างบน ได้รับการตอบสนองโดยใช้ text-davinci-003 เมื่อเปรียบเทียบกับชุดข้อมูล 0.5M ผู้เขียนทำความสะอาดข้อมูล: ข้อมูลคุณภาพต่ำบางส่วนถูกลบออกเช่นข้อมูลที่อ้างว่าเป็น `GPT模型`ข้อมูลที่โมเดลไม่สามารถตอบได้เนื่องจากอินพุตที่ไม่สมบูรณ์และข้อมูลที่มีคำแนะนำเป็นภาษาจีน แต่อินพุตหรือเป้าหมายเป็นภาษาอังกฤษ	เบลล์
Bellegroup/School_math_0.25m	0.25m	ข้อมูลปัญหาคณิตศาสตร์จีนรวมถึงกระบวนการแก้ปัญหาที่สร้างโดย chatgpt	เบลล์
bellegroup/multiturn_chat_0.8m	0.8m	การสนทนาหลายรอบระหว่างผู้ใช้และผู้ช่วยที่สร้างโดย chatgpt	เบลล์
bellegroup/generated_chat_0.4m	0.4m	ข้อมูลบทสนทนาบทบาทส่วนตัวรวมถึงการแนะนำบทบาทที่สร้างโดย chatgpt	เบลล์
bellegroup/train_2m_cn	2m	ข้อมูลคำสั่งภาษาจีนที่สร้างโดย chatgpt	เบลล์