สงสัยว่าเอาท์พุตของโมเดล GPT-3.5 มากถึง 60% เป็นการลอกเลียนแบบ

ผู้เขียน：Eve Cole เวลาอัปเดต：2025-02-04 00:16:01

เมื่อเร็ว ๆ นี้ บริษัทตรวจจับการลอกเลียนแบบ Copyleaks เผยแพร่รายงานระบุว่าเนื้อหามากถึง 60% ที่สร้างโดยโมเดล GPT-3.5 ของ OpenAI มีการลอกเลียนแบบรูปแบบที่แตกต่างกัน รายงานดังกล่าวก่อให้เกิดความกังวลอย่างกว้างขวางเกี่ยวกับปัญหาลิขสิทธิ์และความคิดริเริ่มในโมเดล AI Copyleaks ใช้วิธีการให้คะแนนที่พัฒนาขึ้นเองโดยพิจารณาปัจจัยต่างๆ อย่างครอบคลุม เช่น ความคล้ายคลึงกันของข้อความ การเปลี่ยนแปลงเล็กน้อย และการตีความ รายงานแสดงให้เห็นว่าวิชาวิทยาการคอมพิวเตอร์ ฟิสิกส์ จิตวิทยา และวิชาอื่นๆ มีความคล้ายคลึงกันสูงกว่า ในขณะที่วิชาการละคร มนุษยศาสตร์ ภาษาอังกฤษ และวิชาอื่นๆ มีความคล้ายคลึงกันน้อยกว่า OpenAI ตอบว่าได้ใช้มาตรการเพื่อจำกัดหน่วยความจำของโมเดลโดยไม่ได้ตั้งใจ และห้ามผู้ใช้อย่างชัดเจนจากการแก้ไขเนื้อหาซ้ำโดยเจตนา

บริษัทตรวจจับการลอกเลียนแบบ Copyleaks เพิ่งเผยแพร่รายงานระบุว่าเนื้อหามากถึง 60% ที่สร้างโดยโมเดลภาษา GPT-3.5 ที่ OpenAI เปิดตัวนั้นมีรูปแบบการลอกเลียนแบบที่แตกต่างกัน Copyleaks ใช้วิธีการให้คะแนนที่พัฒนาขึ้นเองโดยพิจารณาปัจจัยหลายประการ เช่น ความคล้ายคลึงกันของข้อความ การเปลี่ยนแปลงเล็กน้อย และการถอดความ เพื่อระบุเนื้อหาที่คล้ายกันว่าเป็น "การลอกเลียนแบบ" วิทยาการคอมพิวเตอร์ ฟิสิกส์ จิตวิทยา และวิชาอื่นๆ มีความคล้ายคลึงกันมากที่สุด ในขณะที่การละคร มนุษยศาสตร์ และภาษาอังกฤษ มีความคล้ายคลึงกันน้อยกว่า OpenAI ระบุว่าได้ใช้มาตรการต่างๆ เพื่อจำกัดหน่วยความจำที่ไม่ได้ตั้งใจ และข้อกำหนดการใช้งานยังห้ามผู้ใช้อย่างชัดเจนจากการจงใจอนุญาตให้โมเดลตั้งโปรแกรมเนื้อหาใหม่ นอกจากนี้ นอกเหนือจากคดีความที่มีชื่อเสียงซึ่งยื่นโดย New York Times แล้ว ผู้สร้างเนื้อหาบางรายยังพยายามอ้างว่าโมเดล AI ได้รับการฝึกอบรมเกี่ยวกับผลงานของตน ดังนั้นเนื้อหาที่สร้างสำเนาโดยประมาณจึงควรได้รับ แบ่งปัน.

รายงานดังกล่าวไม่เพียงเน้นย้ำถึงความท้าทายของโมเดล AI ในการสร้างเนื้อหา แต่ยังก่อให้เกิดการอภิปรายในประเด็นทางกฎหมายและจริยธรรม เช่น ลิขสิทธิ์ข้อมูลการฝึกอบรมโมเดล AI ความเป็นต้นฉบับของเนื้อหา และการเป็นเจ้าของทรัพย์สินทางปัญญา ที่อุตสาหกรรมจำเป็นต้องร่วมกันสำรวจวิธีแก้ปัญหา ส่งเสริมการพัฒนาเทคโนโลยี AI เพื่อสุขภาพที่ดี