รายงานล่าสุดที่เผยแพร่โดย Epochai ระบุว่าชุดข้อมูลการฝึกอบรมข้อความคุณภาพสูงต่อสาธารณะของโลกจะหมดลงโดยโมเดลภาษาขนาดใหญ่ในอีกไม่กี่ปีข้างหน้า รายงานคาดการณ์ว่าระหว่างปี 2569 ถึง 2575 ข้อมูลที่มีอยู่ประมาณ 300 ล้านล้านโทเค็นจะถูกนำมาใช้หมด และ "การฝึกอบรมมากเกินไป" ของแบบจำลองได้เร่งกระบวนการนี้ เวอร์ชัน Llama3 8B ของ Meta ได้รับการฝึกมากเกินไปถึง 100 เท่า หากทุกรุ่นใช้แนวทางนี้ ข้อมูลอาจหมดลงภายในปี 2568 เมื่อเผชิญกับ "การขาดแคลนข้อมูล" ที่จะเกิดขึ้น Epochai ได้เสนอวิธีแก้ปัญหาที่เป็นไปได้ 4 ประการ ซึ่งเป็นแนวทางใหม่สำหรับการเก็บข้อมูลในด้านปัญญาประดิษฐ์

นักวิจัยชี้ให้เห็นโดยเฉพาะว่า "การฝึกมากเกินไป" เป็นสาเหตุหลักในการเร่งการใช้ข้อมูลการฝึกอบรม ตัวอย่างเช่น โอเพ่นซอร์ส Llama3 เวอร์ชัน 8B ล่าสุดของ Meta มีการฝึกฝนมากเกินไปถึง 100 เท่า! หากโมเดลทั้งหมดมีพฤติกรรมเช่นนี้ ข้อมูลของเราอาจต้องบอกลาในปี 2025

แต่ไม่ต้องกังวล เรายังมีวิธีอยู่ Epoch AI นำเสนอวิธีการใหม่สี่วิธีในการรับข้อมูลการฝึกอบรม ทำให้ "การขาดแคลนข้อมูล" ในโลก AI ไม่ใช่เรื่องฝันร้ายอีกต่อไป
1) ข้อมูลสังเคราะห์: เช่นเดียวกับอาหารที่ทำจากชุดทำอาหาร ข้อมูลสังเคราะห์ใช้การเรียนรู้เชิงลึกเพื่อจำลองข้อมูลจริงและสร้างข้อมูลใหม่ แต่อย่าตื่นเต้นเร็วเกินไป คุณภาพของข้อมูลสังเคราะห์อาจไม่เท่ากัน มีแนวโน้มที่จะไม่เหมาะสมเกินไป และขาดคุณสมบัติทางภาษาที่เหมาะสมของข้อความจริง
2) การเรียนรู้ข้อมูลหลายรูปแบบและข้ามโดเมน: วิธีการนี้ไม่จำกัดเฉพาะข้อความ แต่ยังรวมถึงรูปภาพ วิดีโอ เสียง และข้อมูลประเภทอื่น ๆ เช่นเดียวกับใน KTV คุณไม่เพียงแต่สามารถร้องเพลง เต้นรำ แต่ยังแสดงได้อีกด้วย การเรียนรู้แบบหลายรูปแบบช่วยให้โมเดลเข้าใจและจัดการงานที่ซับซ้อนได้อย่างครอบคลุมมากขึ้น
3) ข้อมูลส่วนตัว: ปัจจุบันจำนวนข้อมูลข้อความส่วนตัวในโลกมีประมาณ 3100 ล้านล้านโทเค็น ซึ่งมากกว่าข้อมูลสาธารณะถึง 10 เท่า แต่คุณต้องระมัดระวังเมื่อใช้ข้อมูลส่วนตัว ความปลอดภัยเป็นเรื่องใหญ่ นอกจากนี้ กระบวนการรับและบูรณาการข้อมูลที่ไม่เปิดเผยต่อสาธารณะอาจมีความซับซ้อน
4) การเรียนรู้เชิงโต้ตอบแบบเรียลไทม์กับโลกแห่งความเป็นจริง: ให้โมเดลเรียนรู้และปรับปรุงผ่านการโต้ตอบโดยตรงกับโลกแห่งความเป็นจริง แนวทางนี้ต้องการให้โมเดลเป็นแบบอัตโนมัติและปรับเปลี่ยนได้ สามารถเข้าใจคำแนะนำของผู้ใช้ได้อย่างแม่นยำ และดำเนินการในโลกแห่งความเป็นจริง
วิธีการทั้งสี่ที่เสนอโดย Epochai แต่ละวิธีมีข้อดีและข้อเสียของตัวเอง และเผชิญกับความท้าทายที่แตกต่างกัน ในอนาคตวิธีการแก้ไขปัญหาข้อมูลอย่างมีประสิทธิภาพจะส่งผลโดยตรงต่อการพัฒนาและการประยุกต์ใช้เทคโนโลยีปัญญาประดิษฐ์ สิ่งนี้ต้องการให้นักวิจัยทางวิทยาศาสตร์และอุตสาหกรรมทำงานร่วมกันเพื่อสำรวจวิธีที่มีประสิทธิภาพมากขึ้นในการรับและใช้ข้อมูลเพื่อให้แน่ใจว่าปัญญาประดิษฐ์จะมีการพัฒนาที่ยั่งยืนและมีสุขภาพดี