บรรณาธิการของ Downcodes ได้เรียนรู้ว่าทีม Shanghai AI Lab ได้เปิดโปรเจ็กต์ LLaMA เวอร์ชัน o1 แล้ว นี่เป็นข่าวที่น่าตื่นเต้น! โปรเจ็กต์นี้มีจุดมุ่งหมายเพื่อสร้าง o1 ของ OpenAI ซึ่งเป็นสิ่งประดิษฐ์ในการไขปริศนาทางคณิตศาสตร์ และมีความก้าวหน้าอย่างมาก ทีมงานใช้เทคโนโลยีขั้นสูงอย่างเชี่ยวชาญ เช่น การค้นหาต้นไม้แบบมอนติคาร์โลและการเรียนรู้แบบเสริมกำลังเพื่อให้เหนือกว่าโซลูชันแบบปิดจำนวนมากในการทดสอบเกณฑ์มาตรฐาน AIME2024 ซึ่งแสดงให้เห็นถึงความแข็งแกร่งทางเทคนิคที่แข็งแกร่งและจิตวิญญาณของโอเพ่นซอร์ส โปรเจ็กต์โอเพ่นซอร์สประกอบด้วยชุดข้อมูล โมเดล และโค้ดการฝึกอบรมที่ได้รับการฝึกอบรมล่วงหน้า เพื่อให้นักพัฒนาได้รับทรัพยากรการเรียนรู้ที่มีคุณค่า

ก่อนที่ซีรีส์ o1 ของ OpenAI จะเปิดตัว ทีม Shanghai AI Lab ได้เริ่มสำรวจการใช้การค้นหาแบบต้นไม้แบบมอนติคาร์โล เพื่อปรับปรุงความสามารถทางคณิตศาสตร์ของแบบจำลองขนาดใหญ่ หลังจากการเปิดตัว o1 ทีมงานได้อัปเกรดอัลกอริธึมเพิ่มเติม โดยมุ่งเน้นไปที่ปัญหาคณิตศาสตร์โอลิมปิก และพัฒนาเป็นเวอร์ชันโอเพ่นซอร์สของ OpenAI Strawberry Project
เพื่อปรับปรุงประสิทธิภาพของแบบจำลอง LLaMA ในปัญหาคณิตศาสตร์โอลิมปิก ทีมงานได้ใช้กลยุทธ์การปรับให้เหมาะสมแบบคู่ ซึ่งไม่ได้ให้คะแนนสัมบูรณ์ของคำตอบโดยตรง แต่เปรียบเทียบข้อดีของทั้งสองคำตอบ ด้วยแนวทางนี้ พวกเขาได้รับการปรับปรุงที่สำคัญในเกณฑ์มาตรฐาน AIME2024 ที่ยากที่สุด ในบรรดาคำถามทดสอบ 30 ข้อ โมเดลที่ปรับให้เหมาะสมมีคำถามถูก 8 ข้อ ในขณะที่โมเดล LLaMA-3.1-8B-Instruct ดั้งเดิมตอบคำถามถูกเพียง 2 ข้อ ความสำเร็จนี้เหนือกว่าโซลูชันโอเพนซอร์สเชิงพาณิชย์อื่นๆ ยกเว้น o1-preview และ o1-mini
เมื่อปลายเดือนตุลาคม ทีมงานประกาศว่ามีความก้าวหน้าอย่างมากในการสร้าง OpenAI o1 โดยใช้สถาปัตยกรรม AlphaGo Zero ซึ่งประสบความสำเร็จในการทำให้โมเดลได้รับความสามารถในการคิดขั้นสูงโดยการโต้ตอบกับแผนผังการค้นหาในระหว่างกระบวนการเรียนรู้โดยไม่ต้องใส่คำอธิบายประกอบด้วยตนเอง ภายในเวลาไม่ถึงหนึ่งสัปดาห์ โปรเจ็กต์นี้ก็ได้รับการเปิดซอร์ส
ปัจจุบัน เนื้อหาโอเพ่นซอร์สของ LLaMA เวอร์ชัน o1 ประกอบด้วย: ชุดข้อมูลก่อนการฝึกอบรม โมเดลก่อนการฝึกอบรม และรหัสการฝึกอบรมการเรียนรู้แบบเสริมกำลัง ในบรรดาชุดข้อมูล "OpenLongCoT-Pretrain" ประกอบด้วยข้อมูลลูกโซ่การคิดแบบยาวมากกว่า 100,000 รายการ ข้อมูลแต่ละชิ้นประกอบด้วยกระบวนการให้เหตุผลของปัญหาทางคณิตศาสตร์ที่สมบูรณ์ ซึ่งรวมถึงเนื้อหาการคิด ผลลัพธ์การให้คะแนน คำอธิบายปัญหา พิกัดกราฟิก กระบวนการคำนวณ และข้อสรุป การเชื่อมโยงการให้เหตุผลที่สมบูรณ์ รวมถึงเนื้อหาการวิจารณ์และการตรวจสอบของแต่ละขั้นตอนการให้เหตุผล ให้การประเมินและคำแนะนำสำหรับกระบวนการให้เหตุผล หลังจากการฝึกอบรมล่วงหน้าอย่างต่อเนื่องกับชุดข้อมูลนี้ โมเดลสามารถอ่านและส่งออกกระบวนการห่วงโซ่ความคิดที่ยาวนาน เช่น o1
แม้ว่าโครงการนี้จะเรียกว่า LLaMA-O1 แต่รูปแบบการฝึกอบรมก่อนการฝึกอบรมอย่างเป็นทางการในปัจจุบันนั้นอิงจาก Gemma2 ของ Google ตามโมเดลที่ได้รับการฝึกอบรมล่วงหน้า นักพัฒนาสามารถดำเนินการฝึกอบรมการเรียนรู้แบบเสริมกำลังต่อไปได้ กระบวนการฝึกอบรมประกอบด้วย: การใช้การค้นหาแผนผังมอนติคาร์โลเพื่อเล่นด้วยตนเองเพื่อสร้างประสบการณ์ การจัดเก็บประสบการณ์ในบัฟเฟอร์การเล่นประสบการณ์ลำดับความสำคัญ การสุ่มตัวอย่างข้อมูลแบทช์จากบัฟเฟอร์สำหรับการฝึกอบรม การอัปเดตพารามิเตอร์โมเดลและลำดับความสำคัญของประสบการณ์ เทคโนโลยีหลักบางอย่างยังใช้ในโค้ดการฝึกอบรม รวมถึงการใช้ LoRA เพื่อการปรับแต่งพารามิเตอร์อย่างละเอียดอย่างมีประสิทธิภาพ การใช้อัลกอริธึม PPO เป็นวิธีการปรับกลยุทธ์ให้เหมาะสม การใช้อัลกอริธึม GAE เพื่อคำนวณฟังก์ชันความได้เปรียบ และใช้การเล่นประสบการณ์ลำดับความสำคัญเพื่อปรับปรุงการฝึกอบรม ประสิทธิภาพ.
เป็นที่น่าสังเกตว่ารหัส LLaMA-O1 ได้รับการเผยแพร่ภายใต้บัญชี GitHub ชื่อ SimpleBerry บัญชีนี้ไม่มีการแนะนำพิเศษและดูเหมือนจะค่อนข้างลึกลับ จากบัญชีอื่นๆและข้อมูลเว็บไซต์อย่างเป็นทางการที่เกี่ยวข้องกับ SimpleBerry จะเห็นได้เพียงว่าลักษณะของมันคือห้องปฏิบัติการวิจัย แต่ไม่มีการเปิดเผยข้อมูลเพิ่มเติมเกี่ยวกับทิศทางการวิจัย
นอกจาก LLaMA-O1 แล้ว โครงการจำลอง o1 อีกโครงการหนึ่งที่มีความคืบหน้าต่อสาธารณะก็คือ O1-Journey จากทีมงาน Shanghai Jiao Tong University ทีมงานเผยแพร่รายงานความคืบหน้าฉบับแรกเมื่อต้นเดือนตุลาคม โดยนำเสนอกระบวนทัศน์ Journey Learning ที่เป็นนวัตกรรม และเป็นโมเดลแรกที่ประสบความสำเร็จในการบูรณาการการค้นหาและการเรียนรู้เข้ากับการใช้เหตุผลทางคณิตศาสตร์ ทีมพัฒนาหลักของ O1-Journey ส่วนใหญ่ประกอบด้วยนักศึกษาระดับปริญญาตรีและอาวุโสของ Shanghai Jiao Tong University รวมถึงนักศึกษาระดับปริญญาเอกปีแรกจาก GAIR Laboratory (Generative Artificial Intelligence Research Laboratory) ของ Shanghai Jiao Tong University รวมถึง Liu Pengfei และ Yao Ban รองศาสตราจารย์ของ Shanghai Jiao Tong University และ Li Yuanzhi ผู้ชนะรางวัล Sloan เป็นต้น
ที่อยู่กระดาษ: https://arxiv.org/pdf/2410.02884
https://arxiv.org/pdf/2406.07394
โอเพ่นซอร์สของโครงการ LLaMA เวอร์ชัน o1 ได้นำพลังใหม่มาสู่แวดวงการแก้ปัญหาทางคณิตศาสตร์ของ AI และยังมอบทรัพยากรการเรียนรู้และการวิจัยอันทรงคุณค่าให้กับนักพัฒนาอีกด้วย เราหวังว่าจะมีโครงการโอเพ่นซอร์สที่คล้ายกันมากขึ้นซึ่งปรากฏในอนาคตเพื่อส่งเสริมการพัฒนาอย่างต่อเนื่องของสาขาปัญญาประดิษฐ์!