ทุกคนชอบ CHATGPT แต่มี บริษัท เทคโนโลยีขนาดใหญ่หรือห้องปฏิบัติการขนาดใหญ่เพียงไม่กี่แห่งเท่านั้นที่มีความสามารถในการฝึกอบรมแบบจำลองดังกล่าว เมื่อเร็ว ๆ นี้วิธีการเชิงรุกรานตนเองได้รับความนิยมในชุมชนโอเพ่นซอร์ส: สร้างชุดข้อมูลการเรียนการสอนผ่านคำแนะนำ/chatgpt จากนั้นปรับแต่ง LLMs ขนาดเล็ก (เช่น Llama 7b) ซึ่งสามารถบรรลุได้ "เทียบเท่ากับ" chatgpt หนึ่งในงานทั่วไปคือ Stanford Alpaca
ปัจจุบันมีชุดข้อมูลคำสั่งโอเพ่นซอร์สน้อยมากและส่วนใหญ่เป็นภาษาอังกฤษ ชุดข้อมูลคำสั่งภาษาจีนเพียงไม่กี่ชุดเท่านั้นที่แปลในชุดข้อมูลภาษาอังกฤษ อย่างไรก็ตามเมื่อพิจารณาถึงความต้องการที่แข็งแกร่งของทุกคนสำหรับ CHATGPT เราเชื่อว่าชุดข้อมูลการเรียนการสอนภาษาจีนขนาดใหญ่จำนวนมากขึ้นเรื่อย ๆ จะปรากฏขึ้นในอนาคต
โครงการนี้มีวัตถุประสงค์เพื่อรวบรวมชุดข้อมูลการสอนภาษาจีนเพื่อให้ทุกคนสามารถปรับแต่ง LLMS ของจีนได้อย่างสะดวกยิ่งขึ้น
| ชุดข้อมูล | ขนาด | คำอธิบาย | แหล่งที่มา |
|---|---|---|---|
| ชุดข้อมูล Guanaco | 27808 | ชุดข้อมูลคำสั่งหลายภาษาสเกลจะได้รับการปรับปรุงเป็น 92530 | ชาวกวานาโค |
| alpaca_chinese_dataset | การอัปเดต | การแปลของเครื่อง + การตรวจสอบด้วยตนเองของชุดข้อมูล ALPACA และเสริมข้อมูลการสนทนาบางส่วน | Stanford Alpaca |
| Alpaca-Chinese-Dataset | 20465 | การแปลเครื่องชุดข้อมูล Alpaca | Stanford Alpaca |
| จีน-อัลปาลา-ลอร่า | การอัปเดต | ชุดข้อมูล ALPACA เป็นเครื่องแปลเครื่อง รูปแบบการแปลคือ GPT-3.5-turbo และจะรวมกับชุดข้อมูล Guanaco ในอนาคต | Stanford Alpaca |
| gpt-4-llm | 52K | ชุดข้อมูล ALPACA ถูกแปลโดยใช้ CHATGPT จากนั้นการตอบสนองของจีนจะได้รับโดยใช้ GPT-4 | Stanford Alpaca |
| bellegroup/train_0.5m_cn | 0.5m | พรอมต์เมล็ดพันธุ์จีนที่สร้างขึ้นโดยผู้เขียนโดยใช้ text-davinci-003 เพื่อรับการตอบกลับ | เบลล์ |
| bellegroup/train_1m_cn | 1m | เมล็ดพันธุ์จีนก็เหมือนกับข้างบน ได้รับการตอบสนองโดยใช้ text-davinci-003 เมื่อเปรียบเทียบกับชุดข้อมูล 0.5M ผู้เขียนทำความสะอาดข้อมูล: ข้อมูลคุณภาพต่ำบางส่วนถูกลบออกเช่นข้อมูลที่อ้างว่าเป็น GPT模型ข้อมูลที่โมเดลไม่สามารถตอบได้เนื่องจากอินพุตที่ไม่สมบูรณ์และข้อมูลที่มีคำแนะนำเป็นภาษาจีน แต่อินพุตหรือเป้าหมายเป็นภาษาอังกฤษ | เบลล์ |
| Bellegroup/School_math_0.25m | 0.25m | ข้อมูลปัญหาคณิตศาสตร์จีนรวมถึงกระบวนการแก้ปัญหาที่สร้างโดย chatgpt | เบลล์ |
| bellegroup/multiturn_chat_0.8m | 0.8m | การสนทนาหลายรอบระหว่างผู้ใช้และผู้ช่วยที่สร้างโดย chatgpt | เบลล์ |
| bellegroup/generated_chat_0.4m | 0.4m | ข้อมูลบทสนทนาบทบาทส่วนตัวรวมถึงการแนะนำบทบาทที่สร้างโดย chatgpt | เบลล์ |
| bellegroup/train_2m_cn | 2m | ข้อมูลคำสั่งภาษาจีนที่สร้างโดย chatgpt | เบลล์ |