บทความนี้สำรวจผลกระทบของขนาดชุดข้อมูลก่อนการฝึกอบรมต่อประสิทธิภาพของงานดาวน์สตรีมในการฝึกอบรมโมเดลขนาดใหญ่ โดยเฉพาะอย่างยิ่งกฎการปรับขนาดของการเรียนรู้แบบถ่ายโอน นักวิจัยวิเคราะห์ความสัมพันธ์ระหว่างขนาดชุดข้อมูลก่อนการฝึกอบรมและประสิทธิภาพงานขั้นปลาย (วัดเป็นคะแนน BLEU และเอนโทรปีข้าม) และเสนอแนวทางสองประการสำหรับการประเมินมูลค่าของชุดข้อมูลก่อนการฝึกอบรม การศึกษาพบว่าคะแนน BLEU สอดคล้องกับมาตราส่วนลอการิทึมมากกว่า ในขณะที่ความสัมพันธ์ของเอนโทรปีข้ามนั้นไม่ดี ประสิทธิผลของชุดข้อมูลก่อนการฝึกอบรมขึ้นอยู่กับการจัดแนวกับงานดาวน์สตรีม และชุดข้อมูลที่มีขนาดใหญ่เกินไปอาจไม่ นำมาปรับปรุงเพิ่มเติม
ความสำเร็จของโมเดลขนาดใหญ่ส่วนใหญ่เกิดจากการมีกฎมาตราส่วนอยู่ นักวิจัยได้สำรวจกฎการปรับขนาดของการเรียนรู้แบบถ่ายโอนและศึกษาตัวบ่งชี้สองตัว ได้แก่ คะแนน BLEU ปลายน้ำและเอนโทรปีข้ามปลายน้ำ และความสัมพันธ์ระหว่างขนาดของชุดข้อมูลก่อนการฝึกอบรมและประสิทธิภาพของงานปลายน้ำหลังการปรับแต่งงานอย่างละเอียด การสูญเสียข้ามเอนโทรปีเป็นตัวชี้วัดที่ดีเสมอไปหรือไม่ คะแนน BLEU ใกล้เคียงกับกฎหมายลอการิทึมมากกว่า นักวิจัยได้ให้แนวทางสองประการในการประเมินคุณค่าของชุดข้อมูลก่อนการฝึกอบรมสำหรับงานเป้าหมายปลายน้ำ ผลการทดลองแสดงให้เห็นว่าการฝึกอบรมก่อนการฝึกอบรมมีการปรับปรุงเล็กน้อยในคะแนน BLEU และกฎการปรับขนาดที่ใช้กับคะแนน BLEU นั้นแตกต่างจากเอนโทรปีข้ามและความฉงนสนเท่ห์ ซึ่งเป็นไปตามพฤติกรรมการปรับขนาดกฎกำลัง ความสัมพันธ์ระหว่างเอนโทรปีข้ามกับคะแนน BLEU นั้นไม่ดี และคู่มือการประเมินข้อมูลก่อนการฝึกอบรมจะให้วิธีการประเมินสำหรับมูลค่าของงานขั้นปลายน้ำ ผลกระทบของชุดข้อมูลก่อนการฝึกอบรมต่อประสิทธิภาพของงานขึ้นอยู่กับระดับของการจัดตำแหน่ง และชุดข้อมูลก่อนการฝึกอบรมที่มีขนาดใหญ่เกินไปอาจไม่ทำให้เกิดการปรับปรุงเพิ่มเติม กฎหมายมาตราส่วนสามารถใช้เพื่อคาดการณ์การปรับปรุงประสิทธิภาพงานปลายน้ำได้หรือไม่ กฎหมายมาตราส่วนสามารถปรับให้เข้ากับคะแนน BLEU ได้หรือไม่ บ่งชี้ว่าข้อมูลก่อนการฝึกอบรมมีความสอดคล้องกับงานแปลเฉพาะเจาะจงเพียงใดโดยสรุป การศึกษานี้เผยให้เห็นบทบาทของกฎหมายมาตราส่วนในการประเมินประสิทธิภาพของข้อมูลก่อนการฝึกอบรมแบบจำลองขนาดใหญ่ และเน้นถึงความสำคัญของการเลือกตัวชี้วัดการประเมินที่เหมาะสม และการพิจารณาระดับการจัดตำแหน่งของข้อมูลก่อนการฝึกอบรมกับงานขั้นปลายน้ำ ให้ข้อมูลเชิงลึกที่มีคุณค่าสำหรับ การฝึกอบรมโมเดลขนาดใหญ่และคำแนะนำ การวิจัยในอนาคตสามารถสำรวจตัวบ่งชี้และวิธีการประเมินที่มีประสิทธิภาพมากขึ้นเพื่อเป็นแนวทางในการฝึกอบรมและการเพิ่มประสิทธิภาพของแบบจำลองขนาดใหญ่ได้ดียิ่งขึ้น