ในสาขาปัญญาประดิษฐ์การทดลองที่มีราคาแพงกำลังเปลี่ยนวิธีการฝึกอบรมแบบจำลองภาษาขนาดใหญ่อย่างเงียบ ๆ ทีมวิจัยแบบทีละขั้นตอนเพิ่งเปิดตัวผลการวิจัยที่สำคัญ พวกเขาฝึกฝนขนาดที่แตกต่างกัน 3,700 รุ่นตั้งแต่เริ่มต้นด้วยการใช้จ่ายเกือบ 1 ล้าน Nvidia H800 GPU ชั่วโมงการคำนวณและได้รับการฝึกฝนทั้งหมด 100 ล้านล้านโทเค็นเผยให้เห็นกฎการปรับขนาดสากลที่เรียกว่า "กฎหมายขั้นตอน" การค้นพบนี้ให้ทิศทางแนวทางใหม่สำหรับการฝึกอบรมที่มีประสิทธิภาพของแบบจำลองภาษาขนาดใหญ่
การศึกษาครั้งนี้ไม่เพียง แต่เป็นการสำรวจการเพิ่มประสิทธิภาพของพารามิเตอร์ไฮเปอร์พารามิเตอร์เท่านั้น แต่ยังเป็นการตรวจสอบความมั่นคงของพารามิเตอร์ที่เหมาะสมที่สุดภายใต้รูปร่างที่แตกต่างกันความกระจัดกระจายและการกระจายข้อมูล ผลการวิจัยแสดงให้เห็นว่ากฎหมายขั้นตอนแสดงให้เห็นถึงความแข็งแกร่งอย่างมากโดยไม่คำนึงถึงการออกแบบสถาปัตยกรรมของแบบจำลองและภาษาหรือสาขาวิชาของข้อมูลการฝึกอบรมซึ่งช่วยเพิ่มคุณค่าของเครื่องมือในการใช้งานจริง
โมเดล 3,700 รุ่นที่ได้รับการฝึกฝนโดยทีมวิจัยครอบคลุมการกำหนดค่าของเครื่องชั่งที่แตกต่างกันการรวมกันของพารามิเตอร์ hyperparameter ที่แตกต่างกันรูปร่างที่แตกต่างกันอัตราส่วนข้อมูลที่แตกต่างกันและ sparsity ที่แตกต่างกันรวมถึงสถาปัตยกรรมสองรายการ: MOE และหนาแน่น จากการทดลองครั้งใหญ่เหล่านี้พบว่าอัตราการเรียนรู้ที่ดีที่สุดแสดงให้เห็นถึงการเปลี่ยนแปลงของกฎหมายพลังงานด้วยมาตราส่วนพารามิเตอร์แบบจำลองและมาตราส่วนข้อมูลและขนาดแบทช์ที่ดีที่สุดส่วนใหญ่เกี่ยวข้องกับมาตราส่วนข้อมูล การค้นพบนี้ทำลายความเข้าใจดั้งเดิมของอุตสาหกรรมเกี่ยวกับการตั้งค่าไฮเปอร์พารามิเตอร์

ข้อมูลการทดลองแสดงให้เห็นว่าภายใต้เงื่อนไขของขนาดของรุ่นคงที่และขนาดข้อมูลภูมิทัศน์ที่ได้รับการปรับปรุงด้วยพารามิเตอร์แบบไฮเปอร์พารามิเตอร์นำเสนอลักษณะการนูนที่ชัดเจนซึ่งหมายความว่ามีพื้นที่ไฮเปอร์พารามิเตอร์ที่มีความเสถียรและง่ายต่อการค้นหา เพื่อตรวจสอบสิ่งนี้ทีมวิจัยได้สร้างพื้นที่ภาพสามมิติเพื่อแสดงให้เห็นถึงผลกระทบของอัตราการเรียนรู้และขนาดแบทช์ต่อการสูญเสียการฝึกอบรม ผลลัพธ์แสดงให้เห็นอย่างชัดเจนว่ารูปร่าง "หุบเขา" โดยที่ปลายด้านล่างนูนเป็นพื้นที่ที่ค่อนข้างแบนซึ่งให้พื้นฐานทางทฤษฎีที่มีค่าสำหรับการปรับจูนพารามิเตอร์ไฮเปอร์พารามิเตอร์ในทางปฏิบัติ
เพื่อให้การค้นพบนี้เป็นประโยชน์ต่อชุมชน AI ทั้งหมดทีมได้พัฒนาและเปิดตัวเครื่องมือการประมาณค่าพารามิเตอร์ไฮเปอร์พารามิเตอร์ที่ดีที่สุดทั่วไป เมื่อเทียบกับพารามิเตอร์ที่ดีที่สุดทั่วโลกที่ได้รับจากการค้นหาอย่างละเอียดช่องว่างประสิทธิภาพระหว่างผลการทำนายของเครื่องมือนี้มีเพียง 0.09% ซึ่งหมายความว่านักวิจัยและวิศวกรไม่สามารถพึ่งพาการค้นหากริดที่มีราคาแพงได้อีกต่อไป
สิ่งที่น่าประทับใจยิ่งกว่าคือความเป็นสากลของกฎหมายขั้นตอน ทีมวิจัยตรวจสอบขอบเขตของการใช้งานจากสามมุมที่แตกต่างกัน: ครั้งแรกไม่ว่ารูปแบบการเปลี่ยนแปลงรูปแบบจะเกิดขึ้นได้อย่างไร - ไม่ว่าจะมีอคติต่อความกว้างความลึกหรือความกว้างเชิงลึก - กฎหมายขั้นตอนสามารถทำนายภูมิภาคไฮเปอร์พารามิเตอร์ที่ดีที่สุดได้อย่างถูกต้อง ประการที่สองกฎนี้ไม่เพียง แต่ใช้กับโมเดลหนาแน่นเท่านั้น แต่ยังขยายไปถึงโมเดล MOE ที่มีความแตกต่างกัน ในที่สุดไม่ว่าจะเป็นข้อมูลการฝึกอบรมที่นำโดยภาษาอังกฤษภาษาจีน-อังกฤษสองภาษาการแจกจ่ายแบบผสมผสานแบบภาษาอังกฤษแบบภาษาอังกฤษหรือการกระจายตามรหัส
การวิจัยยังเผยให้เห็นถึงทิศทางการเพิ่มประสิทธิภาพของกลยุทธ์การจัดตารางอัตราการเรียนรู้ ซึ่งแตกต่างจากกลยุทธ์การสลายตัวของอัตราการเรียนรู้แบบดั้งเดิมทีมเสนอให้ใช้อัตราการเรียนรู้ขั้นต่ำที่แน่นอน (1E-5) แทนที่จะกำหนดค่าต่ำสุดเป็นหนึ่งในสิบของค่าสูงสุดในวิธีการดั้งเดิม การเปลี่ยนแปลงนี้ช่วยให้การฝึกอบรมรักษาขนาดขั้นตอนการอัปเดตพารามิเตอร์ที่สมเหตุสมผลมากขึ้นในระยะต่อมาโดยหลีกเลี่ยงการสั่นอย่างต่อเนื่องของฟังก์ชั่นการสูญเสียในขั้นตอนการบรรจบกันอย่างมีประสิทธิภาพ
นอกจากนี้การศึกษาพบว่าการสูญเสียการฝึกอบรมที่ราบรื่นมีความสอดคล้องอย่างมากกับพารามิเตอร์ไฮเปอร์พารามิเตอร์ที่ดีที่สุดของการสูญเสียการตรวจสอบซึ่งให้วิธีการที่ประหยัดยิ่งขึ้นในการเลือกพารามิเตอร์ไฮเปอร์พารามิเตอร์ - นักวิจัยสามารถเป็นแนวทางในการปรับพารามิเตอร์ไฮเปอร์พารามิเตอร์โดยการตรวจสอบการสูญเสียการฝึกอบรมที่ราบรื่นโดยไม่ต้องประเมินประสิทธิภาพของแบบจำลอง
แม้จะมีผลลัพธ์ที่น่าทึ่งทีมวิจัย Jieyuexing ยอมรับว่านี่เป็นเพียงจุดเริ่มต้น พวกเขาวางแผนที่จะดำเนินการรายละเอียดต่าง ๆ ของการทดลองโอเพนซอร์สรวมถึงจุดตรวจสุดท้ายของแบบจำลองเกือบ 4,000 แบบสำหรับการวิเคราะห์เชิงลึกและคำอธิบายเชิงทฤษฎีทั่วทั้งชุมชน ทิศทางการวิจัยในอนาคตรวมถึงการสำรวจความนูนของพื้นที่สามมิติ Loss-BS-LR การปรับปรุงวิธีการที่เหมาะสมของพารามิเตอร์ไฮเปอร์พารามิเตอร์ที่ดีที่สุดอธิบายการเปลี่ยนแปลงในภูมิภาคที่เหมาะสมที่สุดของการกำหนดค่าที่แตกต่างกันและการวิจัยเชิงลึกเกี่ยวกับการเปลี่ยนแปลงการเปลี่ยนแปลงภายใต้การตั้งค่าที่แตกต่างกัน
งานติดตามผลในซีรีย์สเกลที่คาดการณ์ได้อาจหารือเกี่ยวกับการทำนายประสิทธิภาพของแบบจำลองที่มีขนาดใหญ่มาก, คุณสมบัติการปรับสเกลของรหัสและคณิตศาสตร์และลักษณะการปรับขนาดของประเภทความสนใจที่แตกต่างกัน อาจคาดการณ์ได้ว่าการวิจัยชุดนี้จะให้คำแนะนำทางทฤษฎีที่ครอบคลุมมากขึ้นและเครื่องมือปฏิบัติสำหรับการฝึกอบรมที่มีประสิทธิภาพของแบบจำลองภาษาขนาดใหญ่และส่งเสริมเทคโนโลยี AI เพื่อพัฒนาในทิศทางที่มีประสิทธิภาพและควบคุมได้มากขึ้น