บทความนี้กล่าวถึงผลการทดสอบของระบบการป้องกันความปลอดภัยของ AI Model AI ของมานุษยวิทยา นักวิจัยทดสอบประสิทธิภาพของกลไกความปลอดภัยใหม่ตัวจําแนกร่างกายผ่านการท้าทายแบบเปิดหกวัน ผู้เข้าร่วมพยายามข้ามมาตรการป้องกันความปลอดภัยทั้งหมดของ Claude 3.5 และในที่สุดก็ประสบความสำเร็จในระดับความปลอดภัยทั้งแปดระดับทำให้เกิดการอภิปรายเชิงลึกเกี่ยวกับการป้องกันความปลอดภัยของ AI แม้ว่าผู้ท้าชิงจะประสบความสำเร็จในการพัฒนา แต่ก็ไม่มีการค้นพบ "วิธีการแหกคุก" ซึ่งแสดงให้เห็นว่ายังมีความท้าทายในการป้องกันความปลอดภัยของ AI แต่ก็ไม่สามารถแตกหักได้อย่างสมบูรณ์
ในเวลาเพียงหกวันผู้เข้าร่วมประสบความสำเร็จในการหลีกเลี่ยงมาตรการป้องกันความปลอดภัยทั้งหมดในโมเดลปัญญาประดิษฐ์มานุษยวิทยา (AI) Claude 3.5 ซึ่งเป็นความก้าวหน้าที่นำการอภิปรายใหม่มาสู่การป้องกันความปลอดภัย AI Jan Leike อดีตสมาชิกทีม Openai จัดตำแหน่งและตอนนี้ทำงานให้กับมานุษยวิทยาประกาศบนแพลตฟอร์ม X ว่าผู้เข้าร่วมประสบความสำเร็จในระดับแปดระดับความปลอดภัย ความพยายามร่วมกันนี้เกี่ยวข้องกับการทดสอบประมาณ 3,700 ชั่วโมงและ 300,000 ข้อความจากผู้เข้าร่วม
แม้จะมีการพัฒนาที่ประสบความสำเร็จของผู้ท้าชิง แต่ Leike ก็เน้นว่าไม่มีใครสามารถเสนอ "วิธีการแหกคุก" ร่วมกันเพื่อแก้ปัญหาความปลอดภัยทั้งหมดในครั้งเดียว ซึ่งหมายความว่าแม้จะมีการพัฒนา แต่ก็ยังไม่มีทางที่จะหาวิธีสากลในการข้ามการป้องกันความปลอดภัยทั้งหมด

ความท้าทายและการปรับปรุงตัวแยกประเภททางกายภาพ
เมื่อเทคโนโลยี AI มีพลังมากขึ้นเรื่อย ๆ วิธีการปกป้องพวกเขาจากการจัดการและการละเมิดโดยเฉพาะอย่างยิ่งเมื่อพูดถึงผลผลิตที่เป็นอันตรายได้กลายเป็นปัญหาที่สำคัญมากขึ้น มานุษยวิทยาได้พัฒนาวิธีการรักษาความปลอดภัยใหม่ - ตัวจําแนกรัฐธรรมนูญโดยเฉพาะเพื่อป้องกันการเกิดขึ้นของการแหกคุกทั่วไป วิธีนี้ใช้กฎที่ตั้งไว้ล่วงหน้าเพื่อตรวจสอบว่าเนื้อหาอินพุตเป็นไปได้ในการจัดการโมเดลหรือไม่ดังนั้นจึงป้องกันการตอบสนองที่เป็นอันตราย
เพื่อทดสอบประสิทธิภาพของระบบนี้มานุษยวิทยาคัดเลือกผู้เข้าร่วม 183 คนในช่วงเวลาสองเดือนเพื่อพยายามที่จะผ่านการป้องกันความปลอดภัยของโมเดล Claude 3.5 ผู้เข้าร่วมถูกขอให้พยายามหลีกเลี่ยงกลไกความปลอดภัยทำให้ Claude ตอบคำถาม "ข้อห้าม" สิบข้อ แม้จะเสนอโบนัส $ 15,000 และการทดสอบเกือบ 3,000 ชั่วโมง แต่ก็ไม่มีใครสามารถข้ามการป้องกันความปลอดภัยทั้งหมดได้
ตัวจําแนกรัฐธรรมนูญรุ่นก่อนหน้านี้มีปัญหาบางอย่างรวมถึงการทำเครื่องหมายข้อผิดพลาดของคำขอที่ไม่เป็นอันตรายเป็นคำขอที่อันตรายและความต้องการอำนาจการคำนวณจำนวนมาก แต่ด้วยการปรับปรุงที่ตามมาปัญหาเหล่านี้ได้รับการแก้ไขอย่างมีประสิทธิภาพ ข้อมูลการทดสอบแสดงให้เห็นว่า 86% ของความพยายามในการจัดการถูกส่งผ่านในโมเดล Claude ที่ไม่มีการป้องกันในขณะที่รุ่นที่ได้รับการป้องกันจะป้องกันไม่ให้มีการพยายามจัดการมากกว่า 95% แม้ว่าระบบจะต้องใช้กำลังการคำนวณสูง
ข้อมูลการฝึกอบรมที่สังเคราะห์ขึ้นและความท้าทายด้านความปลอดภัยในอนาคต
ระบบรักษาความปลอดภัยขึ้นอยู่กับข้อมูลการฝึกอบรมสังเคราะห์โดยใช้กฎที่กำหนดไว้ล่วงหน้าเพื่อสร้าง "รัฐธรรมนูญ" ของแบบจำลองที่กำหนดว่าอินพุตที่ได้รับอนุญาตและห้ามใด ตัวจําแนกที่ผ่านการฝึกอบรมผ่านตัวอย่างสังเคราะห์เหล่านี้สามารถระบุอินพุตที่น่าสงสัยได้อย่างมีประสิทธิภาพ อย่างไรก็ตามนักวิจัยรับทราบว่าระบบนี้ไม่สมบูรณ์แบบและไม่สามารถรับมือกับการโจมตีการแหกคุกสากลทุกรูปแบบได้ดังนั้นจึงแนะนำให้ใช้ร่วมกับมาตรการรักษาความปลอดภัยอื่น ๆ
เพื่อเสริมสร้างการตรวจสอบของระบบต่อไปมานุษยวิทยาได้เปิดตัวเวอร์ชันสาธิตสาธารณะระหว่างวันที่ 3 และ 10 กุมภาพันธ์ 2025 เชิญผู้เชี่ยวชาญด้านความปลอดภัยเข้าร่วมในการท้าทายและผลลัพธ์จะถูกแบ่งปันกับคุณผ่านการอัปเดตที่ตามมา
การประกวดการรักษาความปลอดภัย AI นี้แสดงให้เห็นถึงความท้าทายและความซับซ้อนของการป้องกันโมเดล AI ด้วยความก้าวหน้าอย่างต่อเนื่องของเทคโนโลยีวิธีการปรับปรุงการทำงานของโมเดลในขณะที่มั่นใจว่าการรักษาความปลอดภัยยังคงเป็นปัญหาสำคัญที่อุตสาหกรรม AI จำเป็นต้องแก้ปัญหาอย่างเร่งด่วน
ในระยะสั้นผลลัพธ์ของความท้าทายด้านความปลอดภัยนี้ไม่เพียง แต่เปิดเผยข้อบกพร่องของการป้องกันความปลอดภัย AI แต่ยังแสดงความพยายามและความคืบหน้าของมานุษยวิทยาในการปรับปรุงความปลอดภัยของ AI ในอนาคตความปลอดภัยของ AI ยังคงต้องได้รับการปรับปรุงและปรับปรุงอย่างต่อเนื่องเพื่อตอบสนองความท้าทายที่มีการพัฒนาตลอดเวลา