ที่เก็บมีรหัสเพื่อกำหนดค่ารุ่น Param GPT-2 28M เพื่อฝึกอบรมในชุดข้อมูล TinyStories เช่นกระดาษ TinyStories ในกระดาษพวกเขาใช้โมเดล GPT-2 และ GPT-Neo หลายรูปแบบ แต่ GPT-2 เป็นรุ่นสปอตไลท์ พวกเขาพยายามที่จะแสดงว่าคุณสามารถสร้าง SLM (โมเดลภาษาขนาดเล็ก) ได้ไม่เกินพารามิเตอร์ขนาดเล็กจนกว่าจะสมเหตุสมผลและแข่งขันกับ LLM
ฉันเพียงแค่ให้รหัสเพื่อกำหนดค่าโมเดล 28M เนื่องจากหม้อแปลงกำลังมีปัญหาในการติดตั้ง transformers==4.2.2 และหม้อแปลงใหม่ต้องเร่งความเร็วหากคุณใช้ Pytorch และต้องใช้ partial state ฉันไม่แน่ใจว่าคุณแก้ไขข้อผิดพลาดของสถานะบางส่วนได้อย่างไร แต่ฉันต้องการวิธีการกำหนดค่ารุ่น 28M โดยเร็ว! นี่คือเหตุผลที่ฉันเพียงแค่ให้รหัสกำหนดค่าเท่านั้น ในภายหลังจะอัปเดต repo เพื่อเพิ่มรหัสการฝึกอบรม
การอัปเดตที่กำลังจะมาถึง:
.txtการอัปเดตปัจจุบัน:
ชุดข้อมูล: ชุดข้อมูล TinyStories มีสองส่วน `` `1 ชุดข้อมูล GPT-3.5 Turbo ที่สร้างขึ้น and ชุดข้อมูลที่สร้างขึ้น 2.GPT-4 รวมถึงทั้งคู่จะใช้พื้นที่จำนวนมากซึ่งเป็นเหตุผลว่าทำไมฉันถึงให้ชุดข้อมูล Turbo GPT-3.5 เท่านั้น ลิงค์ Google Drive
ในลิงค์ Google Drive ที่มีให้ในส่วนชุดข้อมูลคุณจะพบทั้งชุดข้อมูล GPT-3.5 (Turbo) และ GPT-4 ที่ใช้โดย Autors ของกระดาษ '
ได้โปรดแสดงที่เก็บข้อมูลหากคุณพบว่ามีประโยชน์และช่วยเหลือผู้อื่นในการค้นหา ลิงค์กระดาษ