OpenredTeaming
การสำรวจของเรา: กับส้นเท้าของ Achilles: การสำรวจเกี่ยวกับการเป็นทีมสีแดงสำหรับรุ่นกำเนิด [กระดาษ]
เพื่อให้ได้ความเข้าใจที่ครอบคลุมเกี่ยวกับการโจมตีที่อาจเกิดขึ้นกับ Genai และพัฒนาอุปกรณ์ป้องกันที่แข็งแกร่ง เรา:
- การสำรวจเอกสารมากกว่า 120 ฉบับครอบคลุมท่อส่งจากอนุกรมวิธานความเสี่ยงกลยุทธ์การโจมตีตัวชี้วัดการประเมินผลและมาตรฐานไปยังแนวทางการป้องกัน
- เสนออนุกรมวิธานที่ครอบคลุมของกลยุทธ์การโจมตี LLM ซึ่งมีพื้นฐานมาจากความสามารถโดยธรรมชาติของแบบจำลองที่พัฒนาขึ้นในระหว่างการปรับแต่งและปรับแต่ง
- ใช้วิธีการเป็นทีมสีแดงมากกว่า 30+ รายการ
หากต้องการอัปเดตหรือลองใช้เครื่องมือ redteaming ของเราโปรดสมัครรับจดหมายข่าวของเราที่เว็บไซต์ของเราหรือเข้าร่วมกับเราใน Discord!
เอกสารล่าสุดเกี่ยวกับการเป็นทีมสีแดง
แบบสำรวจอนุกรมวิธานและอื่น ๆ
การสำรวจ
- ตัวแทน LLM ส่วนบุคคล: ข้อมูลเชิงลึกและการสำรวจเกี่ยวกับความสามารถประสิทธิภาพและความปลอดภัย [กระดาษ]
- Trustllm: ความน่าเชื่อถือในรูปแบบภาษาขนาดใหญ่ [กระดาษ]
- อนุกรมวิธานความเสี่ยงการบรรเทาและการประเมินมาตรฐานของระบบโมเดลภาษาขนาดใหญ่ [กระดาษ]
- ความท้าทายด้านความปลอดภัยและความเป็นส่วนตัวของแบบจำลองภาษาขนาดใหญ่: การสำรวจ [กระดาษ]
แบบสำรวจการโจมตี
- การทดสอบที่แข็งแกร่งของความยืดหยุ่นของแบบจำลองภาษา AI ด้วยการแจ้งเตือนที่แปลกใหม่ [กระดาษ]
- อย่าฟังฉัน: การทำความเข้าใจและสำรวจการแหกคุกของแบบจำลองภาษาขนาดใหญ่ [กระดาษ]
- การทำลายการป้องกัน: การสำรวจเปรียบเทียบการโจมตีในรูปแบบภาษาขนาดใหญ่ [กระดาษ]
- LLM Jailbreak Attack เทียบกับเทคนิคการป้องกัน - การศึกษาที่ครอบคลุม [กระดาษ]
- การจัดหมวดหมู่แรกของการโจมตีแบบฉีดทันทีในรูปแบบภาษาขนาดใหญ่ [กระดาษ]
- การประเมินที่ครอบคลุมของการโจมตีการแหกคุกกับ LLMS [กระดาษ]
- "ทำอะไรก็ได้ตอนนี้": การกำหนดลักษณะและการประเมินผลการแหกคุกในช่วงเวลาที่มีรูปแบบภาษาขนาดใหญ่ [กระดาษ]
- การสำรวจช่องโหว่ในรูปแบบภาษาขนาดใหญ่ที่เปิดเผยโดยการโจมตีของฝ่ายตรงข้าม [กระดาษ]
- ไม่สนใจชื่อเรื่องนี้และแฮ็คแร็ปต์: การเปิดเผยช่องโหว่ของระบบของ LLMS ผ่านการแข่งขันแฮ็คการแฮ็คระดับโลก [กระดาษ]
- การโจมตีและการป้องกันที่เป็นปฏิปักษ์ในรูปแบบภาษาขนาดใหญ่: ภัยคุกคามเก่าและใหม่ [กระดาษ]
- การหลอก LLMs ไปสู่การไม่เชื่อฟัง: การทำให้เป็นทางการวิเคราะห์และตรวจจับการแหกคุก [กระดาษ]
- เรียกปีศาจและผูกมัน: ทฤษฎีที่มีพื้นฐานของการรวมตัวกันของ LLM สีแดงในป่า [กระดาษ]
- การสำรวจที่ครอบคลุมเกี่ยวกับเทคนิคการโจมตีการใช้งานและกลยุทธ์การบรรเทาผลกระทบในรูปแบบภาษาขนาดใหญ่ [กระดาษ]
- Beyond Boundaries: การสำรวจที่ครอบคลุมเกี่ยวกับการโจมตีที่สามารถถ่ายโอนได้ในระบบ AI [กระดาษ]
- Beyond Boundaries: การสำรวจที่ครอบคลุมเกี่ยวกับการโจมตีที่สามารถถ่ายโอนได้ในระบบ AI [กระดาษ]
การสำรวจความเสี่ยง
- การทำแผนที่ภูมิทัศน์การรักษาความปลอดภัย LLM: ข้อเสนอการประเมินความเสี่ยงของผู้มีส่วนได้ส่วนเสียที่ครอบคลุม [กระดาษ]
- การรักษาความปลอดภัยแบบจำลองภาษาขนาดใหญ่: ภัยคุกคามช่องโหว่และการปฏิบัติที่รับผิดชอบ [กระดาษ]
- ความเป็นส่วนตัวในรูปแบบภาษาขนาดใหญ่: การโจมตีการป้องกันและทิศทางในอนาคต [กระดาษ]
- นอกเหนือจากการป้องกัน: สำรวจความเสี่ยงด้านความปลอดภัยของ CHATGPT [PAPER]
- ต่อแบบจำลองภาษาที่ปลอดภัยกว่า: การสำรวจความเสี่ยงด้านความปลอดภัยการประเมินและการปรับปรุง [กระดาษ]
- การใช้ LLM เพื่อวัตถุประสงค์ที่ผิดกฎหมาย: ภัยคุกคามมาตรการป้องกันและช่องโหว่ [กระดาษ]
- จาก CHATGPT ถึง TRASKGPT: ผลกระทบของ AI Generative ในความปลอดภัยทางไซเบอร์และความเป็นส่วนตัว [กระดาษ]
- การระบุและบรรเทาช่องโหว่ในแอพพลิเคชั่น LLM แบบบูรณาการ [กระดาษ]
- พลังของการกำเนิด AI ในโลกไซเบอร์: โอกาสและความท้าทาย [กระดาษ]
อนุกรมวิธาน
- บังคับให้ LLMs ทำและเปิดเผย (เกือบ) อะไร [กระดาษ]
- ประวัติและความเสี่ยงของการเรียนรู้การเสริมแรงและข้อเสนอแนะของมนุษย์ [กระดาษ]
- จาก chatbots ถึง Phishbots? - การป้องกันการหลอกลวงฟิชชิ่งที่สร้างขึ้นโดยใช้ Chatgpt, Google Bard และ Claude [Paper]
- Jailbreaking Chatgpt ผ่านทางวิศวกรรมที่รวดเร็ว: การศึกษาเชิงประจักษ์ [กระดาษ]
- การสร้างการโจมตีแบบฟิชชิ่งโดยใช้ CHATGPT [กระดาษ]
- การปรับเปลี่ยนส่วนบุคคลภายในขอบเขต: อนุกรมวิธานความเสี่ยงและกรอบนโยบายสำหรับการจัดตำแหน่งของแบบจำลองภาษาขนาดใหญ่ที่มีข้อเสนอแนะส่วนบุคคล [กระดาษ]
- การหลอกลวง AI: การสำรวจตัวอย่างความเสี่ยงและการแก้ปัญหาที่อาจเกิดขึ้น [กระดาษ]
- อนุกรมวิธานความเสี่ยงด้านความปลอดภัยสำหรับแบบจำลองภาษาขนาดใหญ่ [กระดาษ]
ตำแหน่ง
- การแข่งขันสีแดงสำหรับ AI Generative: Silver Bullet หรือ Security Theatre? [กระดาษ]
- จริยธรรมของการมีปฏิสัมพันธ์: บรรเทาภัยคุกคามความปลอดภัยใน LLMS [กระดาษ]
- ท่าเรือที่ปลอดภัยสำหรับการประเมิน AI และการเป็นทีมสีแดง [กระดาษ]
- Red Teaming CHATGPT ผ่าน Jailbreaking: อคติความทนทานความน่าเชื่อถือและความเป็นพิษ [กระดาษ]
- สัญญาและอันตรายของปัญญาประดิษฐ์ - การทำงานร่วมกันของไวโอเล็ตเสนอเส้นทางที่สมดุลไปข้างหน้า [กระดาษ]
ปรากฏการณ์
- ส่วนของทีมสีแดงทุกรูปแบบ [กระดาษ]
- ความเข้าใจกลไกของอัลกอริทึมการจัดตำแหน่ง: กรณีศึกษาเกี่ยวกับ DPO และความเป็นพิษ [กระดาษ]
- พูดออกมา: ช่องโหว่ด้านความปลอดภัยของแบบจำลองภาษาขนาดใหญ่ในบทสนทนาหลายครั้ง [กระดาษ]
- การแลกเปลี่ยนระหว่างการจัดตำแหน่งและความช่วยเหลือในรูปแบบภาษา [กระดาษ]
- การประเมินความเปราะบางของการจัดตำแหน่งความปลอดภัยผ่านการตัดแต่งกิ่งและการปรับเปลี่ยนระดับต่ำ [กระดาษ]
- "มันเป็นเกมที่ยุติธรรม '' หรือว่าเป็นอย่างไรตรวจสอบว่าผู้ใช้นำทางความเสี่ยงและผลประโยชน์ของการเปิดเผยข้อมูลอย่างไรเมื่อใช้ตัวแทนการสนทนาที่ใช้ LLM [กระดาษ]
- การใช้ประโยชน์จากพฤติกรรมการเขียนโปรแกรมของ LLMS: การใช้คู่ผ่านการโจมตีความปลอดภัยมาตรฐาน [กระดาษ]
- รูปแบบภาษาขนาดใหญ่สามารถเปลี่ยนการตั้งค่าของผู้ใช้ได้หรือไม่? [กระดาษ]
- เครือข่ายประสาทที่ได้รับการจัดตำแหน่งเป็นแนวเดียวกันหรือไม่? [กระดาษ]
- การจัดตำแหน่งปลอม: LLMs ได้รับการจัดแนวดีจริง ๆ หรือไม่? [กระดาษ]
- การวิเคราะห์เชิงสาเหตุสำหรับการประเมินความปลอดภัยของแบบจำลองภาษาขนาดใหญ่ [กระดาษ]
- ถ่ายโอนการโจมตีและการป้องกันสำหรับโมเดลภาษาขนาดใหญ่ในการเข้ารหัสงาน [กระดาษ]
กลยุทธ์การโจมตี
การปฏิบัติตามเสร็จสมบูรณ์
- การเรียนรู้ที่ไม่กี่ฝ่ายตรงข้ามกับโมเดลภาษาวิสัยทัศน์ [กระดาษ]
- การจี้บริบทในโมเดลหลายโมเดลขนาดใหญ่ [กระดาษ]
- เยี่ยมมากตอนนี้เขียนบทความเกี่ยวกับเรื่องนี้: การโจมตีการแหกคุก LLM หลายครั้ง
- BadChain: Backdoor Chain-of-Thought-Shought สำหรับแบบจำลองภาษาขนาดใหญ่ [Paper]
- ช่องโหว่สากลในรูปแบบภาษาขนาดใหญ่: การโจมตีแบ็คดอร์สำหรับการเรียนรู้ในบริบท [กระดาษ]
- Nevermind: คำสั่งแทนที่และการกลั่นกรองในรูปแบบภาษาขนาดใหญ่ [กระดาษ]
- แบบจำลองภาษาขนาดใหญ่ของทีมสีแดงโดยใช้โซ่แห่งคำพูดเพื่อการจัดตำแหน่งความปลอดภัย [กระดาษ]
- การโจมตีแบ็คดอร์สำหรับการเรียนรู้ในบริบทด้วยโมเดลภาษา [กระดาษ]
- Jailbreak และ Guard จัดเรียงโมเดลภาษาที่มีการสาธิตในบริบทเพียงไม่กี่ครั้ง [Paper]
- การวิเคราะห์แนวโน้มการตอบสนองโดยธรรมชาติของ LLMS: การแหกคุกที่ขับเคลื่อนด้วยคำแนะนำในโลกแห่งความเป็นจริง [กระดาษ]
- ข้ามการฝึกอบรมความปลอดภัยของ LLM โอเพนซอร์สด้วยการโจมตีรองพื้น [กระดาษ]
- การจี้รูปแบบภาษาขนาดใหญ่ผ่านการเรียนรู้ในบริบทของฝ่ายตรงข้าม [กระดาษ]
คำแนะนำทางอ้อม
- เกี่ยวกับความทนทานของแบบจำลองหลายรูปแบบขนาดใหญ่กับการโจมตีของภาพที่เป็นปฏิปักษ์ [กระดาษ]
- Vision-llms สามารถหลอกตัวเองด้วยการโจมตีตัวอักษรที่สร้างขึ้นเอง [กระดาษ]
- รูปภาพเป็นส้นเท้าของ Achilles: การใช้ประโยชน์จากช่องโหว่ทางสายตาสำหรับการเขียนแบบจำลองภาษาขนาดใหญ่หลายรูป แบบ [กระดาษ]
- Figstep: Jailbreaking รุ่น Vision Language ขนาดใหญ่ผ่านการแจ้งเตือนภาพพิมพ์ [กระดาษ]
- คำแนะนำ: การโจมตีเป้าหมายที่ปรับแต่งสำหรับโมเดลภาษาวิสัยทัศน์ขนาดใหญ่ [กระดาษ]
- ภาพและเสียงที่ใช้ในทางที่ผิดสำหรับการฉีดคำสั่งทางอ้อมใน LLM แบบหลายรูปแบบ [กระดาษ]
- Jailbreak เป็นชิ้น ๆ : การโจมตีที่เป็นปฏิปักษ์กับโมเดลภาษาหลายรูปแบบ [กระดาษ]
- เล่นเกมเดาด้วย LLM: การโจมตีการแหกคุกทางอ้อมด้วยเบาะแสโดยปริยาย [กระดาษ]
- Fuzzllm: กรอบนวนิยายและสากลฟัซซิ่งสำหรับการค้นพบช่องโหว่ในเชิงรุกในรูปแบบภาษาขนาดใหญ่ [กระดาษ]
- gptfuzzer: Red Teaming รุ่นภาษาขนาดใหญ่ที่มีพรอมต์การแหกคุกที่สร้างขึ้นอัตโนมัติ [กระดาษ]
- Prompt Packer: การหลอกลวง LLMs ผ่านคำสั่งองค์ประกอบด้วยการโจมตีที่ซ่อนอยู่ [กระดาษ]
- Deepinception: สะกดจิตแบบจำลองภาษาขนาดใหญ่ที่จะเป็น Jailbreaker [Paper]
- หมาป่าในเสื้อผ้าของแกะ: การแจ้งเตือนการแหกคุกแบบซ้อนกันทั่วไปสามารถหลอกแบบจำลองภาษาขนาดใหญ่ได้อย่างง่ายดาย [กระดาษ]
- การจัดตำแหน่งความปลอดภัยในงาน NLP: การสรุปการจัดตำแหน่งที่อ่อนแอเป็นการโจมตีในบริบท [กระดาษ]
- ความรู้ความเข้าใจโอเวอร์โหลด: การเจลเบรคภาษาขนาดใหญ่ที่มีความคิดเชิงตรรกะมากเกินไป [กระดาษ]
- จิ๊กซอว์ปริศนา: การแยกคำถามที่เป็นอันตรายให้กับการแหกคุกแบบจำลองภาษาขนาดใหญ่ [กระดาษ]
- Audio เป็นส้นเท้า Achilles: Red Teaming Audio Multimodal Multimodal Models [Paper]
การร่อนทั่วไป
ภาษา
- การสอบสวนข้ามภาษาเกี่ยวกับการโจมตีของการแหกคุกในรูปแบบภาษาขนาดใหญ่ [กระดาษ]
- อุปสรรคด้านภาษา: การผ่าความท้าทายด้านความปลอดภัยของ LLM ในบริบทหลายภาษา [กระดาษ]
- Sandwich Attack: การโจมตีแบบปรับตัวหลายภาษาใน LLMS [Paper]
- การโจมตี Backdoor ในการแปลเครื่องหลายภาษา [กระดาษ]
- ความท้าทายในการแหกคุกหลายภาษาในรูปแบบภาษาขนาดใหญ่ [กระดาษ]
- ภาษาทรัพยากรต่ำ Jailbreak GPT-4 [กระดาษ]
เข้ารอบ
- การใช้ภาพหลอนเพื่อบายพาสตัวกรองของ GPT4 [กระดาษ]
- เอฟเฟกต์ผีเสื้อของการเปลี่ยนแปลงพรอมต์: การเปลี่ยนแปลงเล็ก ๆ น้อย ๆ และการแหกคุกส่งผลกระทบต่อประสิทธิภาพของแบบจำลองภาษาขนาดใหญ่ [กระดาษ]
- ทำให้พวกเขาถามและตอบ: การเจลเบรกแบบจำลองภาษาขนาดใหญ่ในแบบสอบถามไม่กี่ครั้งผ่านการปลอมแปลงและการสร้างใหม่ [กระดาษ]
- PRP: การแพร่กระจายการก่อกวนสากลเพื่อโจมตีแบบจำลองภาษาขนาดใหญ่ Guard-Rail [Paper]
- GPT-4 นั้นฉลาดเกินไปที่จะปลอดภัย: แชทที่ซ่อนเร้นกับ LLMs ผ่าน Cipher [Paper]
- เครื่องหมายวรรคตอนสำคัญ! การโจมตีลับๆที่ซ่อนเร้นสำหรับโมเดลภาษา [กระดาษ]
การเป็นตัวตน
- เท้าเข้าประตู: ทำความเข้าใจกับรูปแบบภาษาขนาดใหญ่ที่เขียนขึ้นผ่านจิตวิทยาความรู้ความเข้าใจ [กระดาษ]
- PSYSAFE: กรอบการทำงานที่ครอบคลุมสำหรับการโจมตีทางจิตวิทยาการป้องกันและการประเมินความปลอดภัยของระบบหลายตัวแทน [กระดาษ]
- จอห์นนี่สามารถโน้มน้าว LLMs ให้กับพวกเขาได้อย่างไร: ทบทวนการโน้มน้าวใจเพื่อท้าทายความปลอดภัยของ AI โดยการทำให้เป็นมนุษย์ LLMs [กระดาษ]
- การเบรกแบบกล่องดำที่ปรับขนาดได้และสามารถถ่ายโอนได้สำหรับแบบจำลองภาษาผ่านการปรับตัวบุคคล
- CHATGPT คือใคร? การเปรียบเทียบการพรรณนาทางจิตวิทยาของ LLMS โดยใช้ psychobench [กระดาษ]
- ใช้ประโยชน์จากแบบจำลองภาษาขนาดใหญ่ (LLMs) ผ่านเทคนิคการหลอกลวงและหลักการโน้มน้าวใจ [กระดาษ]
การจัดการแบบจำลอง
การโจมตีลับๆ
- Shadowcast: การโจมตีที่เป็นพิษของข้อมูลที่ซ่อนเร้นจากโมเดล Vision-Language [Paper]
- ตัวแทนการนอนหลับ: การฝึกอบรม LLM ที่หลอกลวงซึ่งยังคงอยู่ผ่านการฝึกอบรมด้านความปลอดภัย [กระดาษ]
- ข้อมูล "ปลอดภัย" ของคุณคืออะไร: การระบุข้อมูลที่เป็นพิษเป็นภัยที่ทำลายความปลอดภัย [กระดาษ]
- การโจมตีด้วยพิษข้อมูลเกี่ยวกับวิธีการประเมินนโยบายนอกนโยบาย [กระดาษ]
- Badedit: Backdooring รุ่นภาษาขนาดใหญ่โดยการแก้ไขแบบจำลอง [Paper]
- Best-of-venom: โจมตี RLHF โดยการฉีดข้อมูลการตั้งค่าที่เป็นพิษ [กระดาษ]
- เรียนรู้ที่จะวางยาพิษแบบจำลองภาษาขนาดใหญ่ระหว่างการปรับแต่ง [กระดาษ]
- การสำรวจช่องโหว่ของแบ็คดอร์ของโมเดลแชท [กระดาษ]
- คำแนะนำเป็น backdoors: ช่องโหว่ของแบ็คดอร์ของการปรับแต่งการเรียนการสอนสำหรับโมเดลภาษาขนาดใหญ่ [กระดาษ]
- การบังคับให้แบบจำลองการกำเนิดต้องเสื่อมสภาพ: พลังของการโจมตีพิษข้อมูล [กระดาษ]
- ไม่มั่นคงและไม่สอดคล้องกันในแบบจำลองภาษาขนาดใหญ่ผ่านการฉีดแบ็คดอร์ [กระดาษ]
- การเปิดใช้งานการเปิดใช้งาน Backdoor: โจมตีแบบจำลองภาษาขนาดใหญ่โดยใช้การเปิดใช้งานการปรับแต่งเพื่อการจัดตำแหน่งความปลอดภัย [กระดาษ]
- เกี่ยวกับการใช้ประโยชน์จากการเรียนรู้การเสริมแรงด้วยความคิดเห็นของมนุษย์สำหรับแบบจำลองภาษาขนาดใหญ่ [กระดาษ]
- การลดช่วงเวลาการทดสอบการลดลงของแบ็ค
- สากล Jailbreak Backdoors จากข้อเสนอแนะของมนุษย์ที่เป็นพิษ [กระดาษ]
ความเสี่ยงในการปรับแต่ง
- Lora-as-an-attack! การเจาะความปลอดภัยของ LLM ภายใต้สถานการณ์การแบ่งปันและเล่น [กระดาษ]
- Disalignment ที่เลียนแบบ: การจัดตำแหน่งความปลอดภัยสำหรับแบบจำลองภาษาขนาดใหญ่อาจย้อนกลับมาได้! [กระดาษ]
- การปรับแต่ง Lora อย่างมีประสิทธิภาพยกเลิกการฝึกอบรมด้านความปลอดภัยใน Llama 2-Chat 70b [กระดาษ]
- Badllama: การลบการปรับแต่งความปลอดภัยอย่างถูกต้องจาก Llama 2-Chat 13b [กระดาษ]
- โมเดลภาษาไม่สอดคล้องกัน: การกำหนดค่าเฉลี่ยของพารามิเตอร์สีแดงเพื่อให้ได้รับอันตรายและอคติที่ซ่อนอยู่ [กระดาษ]
- การลบการป้องกัน RLHF ใน GPT-4 ผ่านการปรับแต่ง [กระดาษ]
- เพื่อความปลอดภัยของแบบจำลองภาษาขนาดใหญ่ที่เปิดกว้าง: การจัดตำแหน่งป้องกันไม่ให้พวกเขาถูกนำไปใช้ในทางที่ผิดหรือไม่? [กระดาษ]
- การจัดแนวเงา: ความสะดวกในการล้มล้างรูปแบบภาษาที่สอดคล้องอย่างปลอดภัย [กระดาษ]
- แบบจำลองภาษาที่ปรับแต่งได้อย่างละเอียดทำให้ความปลอดภัยแม้ว่าผู้ใช้จะไม่ตั้งใจ! [กระดาษ]
โจมตีผู้ค้นหา
ผู้ค้นหาคำต่อท้าย
- การแจ้งเตือน 4debugging: การกระจายแบบข้อความสีแดงเป็นรูปแบบการแพร่กระจายของข้อความเป็นภาพโดยการค้นหาพรอมต์ที่มีปัญหา [กระดาษ]
- จากเสียงรบกวนไปสู่ความชัดเจน: คลี่คลายคำต่อท้ายของการโจมตีแบบจำลองภาษาขนาดใหญ่ผ่านการแปลข้อความฝังตัว [กระดาษ]
- การโจมตีที่เป็นปฏิปักษ์อย่างรวดเร็วในรูปแบบภาษาในหนึ่งนาที GPU [กระดาษ]
- รูปแบบภาษาที่ใช้การไล่ระดับสีแดงร่วมทีม [กระดาษ]
- การโจมตีด้วยการฉีดแบบอัตโนมัติและเป็นสากลกับโมเดลภาษาขนาดใหญ่ [กระดาษ]
- $ textit {linkprompt} $ : การโจมตีที่เป็นธรรมชาติและเป็นสากลในรูปแบบภาษาที่รวดเร็ว [กระดาษ]
- Neural Exec: การเรียนรู้ (และการเรียนรู้จาก) การดำเนินการกระตุ้นให้เกิดการโจมตีแบบฉีดทันที [กระดาษ]
- LLMs ที่จัดตำแหน่งความปลอดภัยชั้นนำด้วยการโจมตีแบบง่าย ๆ [กระดาษ]
- การเพิ่มประสิทธิภาพอย่างรวดเร็วสำหรับ LLMs Jailbreaking ผ่านการแสวงประโยชน์จากจิตใต้สำนึกและ echopraxia [กระดาษ]
- Autodan: การโจมตีที่มีการไล่ระดับสีตามการไล่ระดับสีในรูปแบบภาษาขนาดใหญ่ [กระดาษ]
- การโจมตีที่เป็นสากลและสามารถถ่ายโอนได้ในรูปแบบภาษาที่จัดเรียง [กระดาษ]
- การปรับแต่งแบบนุ่มนวลสำหรับแบบจำลองภาษาขนาดใหญ่เพื่อประเมินอคติ [กระดาษ]
- Trojllm: การโจมตีด้วยโทรจันบ็อกซ์แบ็กบ็อกซ์ในรูปแบบภาษาขนาดใหญ่ [กระดาษ]
- Autodan: สร้างการแหกคุกที่ซ่อนเร้นในรูปแบบภาษาขนาดใหญ่ที่จัดเรียง [กระดาษ]
ผู้ค้นหาแจ้ง
รูปแบบภาษา
- พฤติกรรมแบบจำลองภาษาโดยใช้แบบจำลองภาษาย้อนกลับ [กระดาษ]
(2023)
- ทั้งหมดในวิธีที่คุณขอมัน: วิธีการกล่องดำง่ายๆสำหรับการโจมตีการแหกคุก [กระดาษ]
- การโจมตีที่เป็นปฏิปักษ์ต่อ GPT-4 ผ่านการค้นหาแบบสุ่มอย่างง่าย [กระดาษ]
- Tastle: เบี่ยงเบนความสนใจแบบจำลองภาษาขนาดใหญ่สำหรับการโจมตีด้วยการแหกคุกอัตโนมัติ [กระดาษ]
- แบบจำลองภาษาร่วมทีมสีแดงพร้อมรูปแบบภาษา [กระดาษ]
- LLM สามารถหลอกตัวเองได้: การโจมตีที่เป็นไปได้อย่างรวดเร็ว [กระดาษ]
- Jailbreaking Black Box รุ่นภาษาขนาดใหญ่ในยี่สิบเคียวรี [กระดาษ]
- Tree of Attacks: Black-Box Black-Box LLM โดยอัตโนมัติ [กระดาษ]
- AART: AI-ASSISTED RED-TEAMING พร้อมการสร้างข้อมูลที่หลากหลายสำหรับแอพพลิเคชั่นใหม่ LLM [PAPER]
- DALA: การโจมตีที่ใช้การกระจายตัวของ LORA จากแบบจำลองภาษา [PAPER]
- JAB: การกระตุ้นและการเสริมความเชื่อร่วมกัน [กระดาษ]
- ไม่มีการกระทำผิดกฎหมาย: ทำให้เกิดความไม่พอใจจากแบบจำลองภาษา [กระดาษ]
- Loft: การปรับแต่งพร็อกซีในท้องถิ่นเพื่อปรับปรุงการถ่ายโอนการโจมตีของฝ่ายตรงข้ามกับรูปแบบภาษาขนาดใหญ่ [กระดาษ]
การถอดรหัส
- การแหกคุกที่อ่อนแอต่อความอ่อนแอในรูปแบบภาษาขนาดใหญ่ [กระดาษ]
- Cold-Attack: LLMs Jailbreaking ด้วยความลอบรอและการควบคุมได้ [กระดาษ]
อัลกอริทึมทางพันธุกรรม
- การแหกคุกกระจกแบบความหมาย: อัลกอริทึมทางพันธุกรรมที่ใช้การแหกคุกที่ใช้กับ LLMS โอเพนซอร์ส [กระดาษ]
- เปิดงา! สากลแบ็กแบ็กเจลเบิร์ตของรุ่นภาษาขนาดใหญ่ [กระดาษ]
การเรียนรู้เสริมแรง
- SneakyPrompt: การสร้างแบบจำลองการสร้างข้อความเป็นภาพรวม [Paper]
- Red Teaming Game: A Game-Theoretic Framework สำหรับรูปแบบภาษา Red Teaming [Paper]
- สำรวจสร้างใช้ประโยชน์: รูปแบบภาษาของทีมสีแดงตั้งแต่เริ่มต้น [กระดาษ]
- เปิดตัวความเป็นพิษโดยนัยในแบบจำลองภาษาขนาดใหญ่ [กระดาษ]
การป้องกัน
การป้องกันเวลาฝึกอบรม
RLHF
- การปรับแต่งความปลอดภัยที่กำหนดค่าได้ของแบบจำลองภาษาที่มีข้อมูลการตั้งค่าสังเคราะห์ [กระดาษ]
- เพิ่มความปลอดภัย LLM ผ่านการเพิ่มประสิทธิภาพการตั้งค่าโดยตรงที่ จำกัด [กระดาษ]
- Safe RLHF: การเรียนรู้การเสริมแรงอย่างปลอดภัยจากข้อเสนอแนะของมนุษย์ [กระดาษ]
- Beavertails: ไปสู่การจัดตำแหน่งความปลอดภัยที่ดีขึ้นของ LLM ผ่านชุดข้อมูลที่เป็นความนิยมของมนุษย์ [กระดาษ]
- Safer-Instruct: จัดแนวโมเดลภาษากับข้อมูลการตั้งค่าอัตโนมัติ [กระดาษ]
การปรับแต่ง
- Safegen: บรรเทาการสร้างเนื้อหาที่ไม่ปลอดภัยในรูปแบบข้อความเป็นภาพ [กระดาษ]
- การปรับแต่งความปลอดภัยที่ (เกือบ) ไม่มีค่าใช้จ่าย: พื้นฐานสำหรับการมองเห็นแบบจำลองภาษาขนาดใหญ่ [กระดาษ]
- การพัฒนาแบบจำลองภาษาขนาดใหญ่ที่ปลอดภัยและมีความรับผิดชอบ - กรอบการทำงานที่ครอบคลุม [กระดาษ]
- การฉีดวัคซีนป้องกันการโจมตีแบบปรับแต่งที่เป็นอันตราย [กระดาษ]
- บรรเทาการโจมตีของ Jailbreak การปรับแต่งอย่างละเอียดด้วยการจัดตำแหน่งที่เพิ่มขึ้นของแบ็คดอร์ [กระดาษ]
- การจัดแนววิภาษวิธี: การแก้ไขความตึงเครียดของ 3H และภัยคุกคามความปลอดภัยของ LLMS [กระดาษ]
- การตัดแต่งกิ่งเพื่อการป้องกัน: การเพิ่มความต้านทานต่อการแหกคุกใน LLMS ที่จัดตำแหน่งโดยไม่ต้องปรับแต่ง [กระดาษ]
- Eraser: การป้องกันการเร่าร้อนในรูปแบบภาษาขนาดใหญ่ผ่านความรู้ที่เป็นอันตรายที่ไม่ได้รับรู้ [กระดาษ]
- สองหัวดีกว่าหนึ่ง: poe ซ้อนกันสำหรับการป้องกันที่แข็งแกร่งกับหลาย backgoors [paper]
- ป้องกันการโจมตีแบ็คดอร์น้ำหนักที่เป็นบวกสำหรับการปรับแต่งพารามิเตอร์อย่างละเอียด [กระดาษ]
- Llamas ที่ปรับความปลอดภัย: บทเรียนจากการปรับปรุงความปลอดภัยของแบบจำลองภาษาขนาดใหญ่ที่ปฏิบัติตามคำแนะนำ [กระดาษ]
- ป้องกันการโจมตีที่จัดตำแหน่งผ่าน LLM ที่มีการจัดตำแหน่งที่แข็งแกร่ง [กระดาษ]
- เรียนรู้สิ่งที่ไม่ต้องเรียนรู้: เพื่อความปลอดภัยในการกำเนิดใน Chatbots [Paper]
- JATMO: การป้องกันการฉีดอย่างรวดเร็วโดย finetuning เฉพาะงาน [กระดาษ]
การป้องกันเวลาอนุมาน
การแจ้งเตือน
- ADASHIELD: การปกป้องแบบจำลองภาษาขนาดใหญ่หลายรูปแบบจากการโจมตีตามโครงสร้างผ่านการปรับเปลี่ยนโล่แบบปรับได้ [กระดาษ]
- ทำลายการฝ่าวงล้อม: สร้างการป้องกัน LM ใหม่จากการโจมตีของการแหกคุกด้วยการฟื้นฟูตนเอง [กระดาษ]
- ในการปกป้องที่ขับเคลื่อนด้วยคำสั่งสำหรับแบบจำลองภาษาขนาดใหญ่ [กระดาษ]
- Signed-Prompt: วิธีการใหม่ในการป้องกันการโจมตีแบบฉีดทันทีจากแอปพลิเคชัน LLM แบบรวม [Paper]
Xuchen Suo (2024)
- การวิเคราะห์ความตั้งใจทำให้ LLMS เป็นผู้พิทักษ์การแหกคุกที่ดี [กระดาษ]
- ป้องกันการโจมตีด้วยการฉีดโดยทางอ้อมด้วยสปอตไลท์ [กระดาษ]
- สร้างความมั่นใจว่าเอาท์พุทที่ปลอดภัยและคุณภาพสูง: แนวทางแนวทางปฏิบัติสำหรับแบบจำลองภาษา [กระดาษ]
- การโจมตีแบบกระตุ้นการฉีดแบบกระตุ้นด้วยเป้าหมายในแบบจำลองภาษาขนาดใหญ่ [Paper]
- Struq: ป้องกันการฉีดทันทีด้วยการสืบค้นที่มีโครงสร้าง [กระดาษ]
- บ๊อบต่อสู้กับการเจลเบรคผ่านการปรับแต่งที่ตรงไปตรงมา [กระดาษ]
- Guard Self-Guard: เสริมพลัง LLM เพื่อปกป้องตัวเอง [กระดาษ]
- การใช้การเรียนรู้ในบริบทเพื่อปรับปรุงความปลอดภัยการสนทนา [กระดาษ]
- ปกป้องโมเดลภาษาขนาดใหญ่จากการโจมตีที่ถูกคุมขังผ่านการจัดลำดับความสำคัญของเป้าหมาย [กระดาษ]
- Bergeron: การต่อสู้กับการโจมตีของฝ่ายตรงข้ามผ่านกรอบการจัดตำแหน่งที่มีความรู้สึกผิดชอบชั่วดี [กระดาษ]
วงดนตรี
- การต่อสู้กับการโจมตีที่เป็นปฏิปักษ์กับการอภิปรายหลายตัวแทน [กระดาษ]
- TrustAgent: ไปสู่ตัวแทนที่ใช้ LLM ที่ปลอดภัยและน่าเชื่อถือผ่านรัฐธรรมนูญตัวแทน [Paper]
- Autodefense: การป้องกัน LLM หลายตัวแทนต่อต้านการโจมตีของการแหกคุก [กระดาษ]
- เรียนรู้ที่จะปลอมตัว: หลีกเลี่ยงการปฏิเสธการตอบสนองในการป้องกันของ LLM ผ่านเกมผู้โจมตีหลายราย [กระดาษ]
- Jailbreaker in Jail: การย้ายการป้องกันเป้าหมายสำหรับรูปแบบภาษาขนาดใหญ่ [กระดาษ]
รั้ว
อินพุตรั้ว
- UFID: เฟรมเวิร์กแบบครบวงจรสำหรับการตรวจจับแบ็คดอร์ระดับอินพุตในรุ่นการแพร่กระจาย [กระดาษ]
- universal promptication impormizer สำหรับการสร้างข้อความถึงภาพที่ปลอดภัย
- ปิดตา, ความปลอดภัยบน: การปกป้อง LLM หลายรูปแบบผ่านการแปลงภาพเป็นข้อความ [กระดาษ]
- ปิดตา, ความปลอดภัยบน: การปกป้อง LLM หลายรูปแบบผ่านการแปลงภาพเป็นข้อความ [กระดาษ]
- MLLM-PROTECTOR: สร้างความมั่นใจในความปลอดภัยของ MLLM โดยไม่ทำร้ายประสิทธิภาพ
- เพิ่มการลดความเป็นพิษในเวลาอนุมานสำหรับการแปลหลายภาษาและหลายภาษา [กระดาษ]
- วิธีการกลายพันธุ์ที่ใช้สำหรับการตรวจจับการโจมตีด้วยการโจมตีแบบหลายรูปแบบ [กระดาษ]
- การตรวจจับและป้องกันการโจมตีที่โดดเด่นเกี่ยวกับผู้ช่วยเสมือนจริงของ LLM ที่มีเงื่อนไขล่วงหน้า [กระดาษ]
- Shieldlm: เพิ่มขีดความสามารถ LLMS ในฐานะเครื่องตรวจจับความปลอดภัยที่ปรับแต่งได้และอธิบายได้ [กระดาษ]
- การป้องกันการแปลไปกลับกับรูปแบบภาษาขนาดใหญ่การโจมตีการโจมตี [กระดาษ]
- Groadient Cuff: การตรวจจับการโจมตีของ Jailbreak ในรูปแบบภาษาขนาดใหญ่โดยการสำรวจภูมิทัศน์การสูญเสียการปฏิเสธ [กระดาษ]
- ป้องกันการแหกคุกที่ได้รับการแจ้งเตือนผ่านเกมที่เป็นคู่แข่งในบริบท [Paper]
- SPML: DSL สำหรับการป้องกันแบบจำลองภาษาจากการโจมตีที่รวดเร็ว [กระดาษ]
- ตัวจําแนกด้านความปลอดภัยที่แข็งแกร่งสำหรับแบบจำลองภาษาขนาดใหญ่: ป้องกันตัวเอง
- การควบคุม AI: การปรับปรุงความปลอดภัยแม้จะมีการโค่นล้มโดยเจตนา [กระดาษ]
- Maatphor: การวิเคราะห์ตัวแปรอัตโนมัติสำหรับการโจมตีแบบฉีดทันที [กระดาษ]
รั้วเอาท์พุท
- ปกป้อง LLMs จากการโจมตีที่ถูกคุมขังผ่าน backtranslation [Paper]
- การเพิ่มประสิทธิภาพที่รวดเร็วพร้อมสำหรับการป้องกันแบบจำลองภาษาจากการโจมตีที่ถูกคุกคาม [กระดาษ]
- Jailbreaking ได้รับการแก้ไขที่ดีที่สุดโดยนิยาม [กระดาษ]
- การป้องกันตนเอง LLM: โดยการตรวจสอบด้วยตนเอง LLMs รู้ว่าพวกเขาถูกหลอก [กระดาษ]
อินพุต & เอาต์พุต
- Rigorllm: ร่องรอยที่ยืดหยุ่นสำหรับรุ่นภาษาขนาดใหญ่กับเนื้อหาที่ไม่พึงประสงค์ [กระดาษ]
- Nemo Guardrails: ชุดเครื่องมือสำหรับแอพพลิเคชั่น LLM ที่ควบคุมได้และปลอดภัยพร้อมรางที่ตั้งโปรแกรมได้ [กระดาษ]
- Llama Guard: Safeguard อินพุตอินพุตที่ใช้ LLM สำหรับการสนทนาของมนุษย์-AI [กระดาษ]
การป้องกันคำต่อท้ายของฝ่ายตรงข้าม
- ปกป้องโมเดลภาษาขนาดใหญ่จากการโจมตีของการแหกคุกผ่านการปรับให้เรียบแบบความหมาย [กระดาษ]
- รับรองความปลอดภัยของ LLM ต่อการกระตุ้นการตอบสนองของฝ่ายตรงข้าม [กระดาษ]
- การป้องกันพื้นฐานสำหรับการโจมตีฝ่ายตรงข้ามกับแบบจำลองภาษาที่จัดเรียง [กระดาษ]
- การตรวจจับการโจมตีแบบจำลองภาษาด้วยความงุนงง [กระดาษ]
- Smoothllm: ปกป้องโมเดลภาษาขนาดใหญ่จากการโจมตีที่น่ารังเกียจ [กระดาษ]
- การตรวจจับความพร้อมที่มีระดับโทเค็นตามการวัดความงุนงงและข้อมูลบริบท [กระดาษ]
การถอดรหัสการป้องกัน
- ต่อความปลอดภัยและการตอบสนองที่สมดุลผ่านแบบจำลองภาษาขนาดใหญ่ที่ควบคุมได้ [กระดาษ]
- SafeDecoding: ป้องกันการโจมตีของ Jailbreak ผ่านการถอดรหัสความปลอดภัย [กระดาษ]
การประเมินผล
ตัวชี้วัดการประเมินผล
โจมตีตัวชี้วัด
- กรอบการประเมินใหม่สำหรับการประเมินความยืดหยุ่นต่อการโจมตีการฉีดทันทีในรูปแบบภาษาขนาดใหญ่ [กระดาษ]
- AttackEval: วิธีการประเมินประสิทธิภาพของการโจมตีการแหกคุกในรูปแบบภาษาขนาดใหญ่ [กระดาษ]
- ลองดูสิ! ทบทวนวิธีการประเมินรูปแบบภาษา Jailbreak [Paper]
ตัวชี้วัดการป้องกัน
- วิธีการตอบโต้การเรียนการสอนเป็นศูนย์กลางของ LLMS (UN) เป็นอย่างไร? การเปิดเผยช่องโหว่ของรั้วความปลอดภัยต่อการสอบถามที่เป็นอันตราย [กระดาษ]
- ศิลปะแห่งการปกป้อง: การประเมินและการวิเคราะห์อย่างเป็นระบบของกลยุทธ์การป้องกัน LLM เกี่ยวกับความปลอดภัยและการทุจริตมากเกินไป [กระดาษ]
มาตรฐานการประเมินผล
- Jailbreakbench: เกณฑ์มาตรฐานความทนทานแบบเปิดสำหรับรุ่นภาษาขนาดใหญ่ที่น่ากลัว [กระดาษ]
- SafetyPrompts: การทบทวนชุดข้อมูลแบบเปิดอย่างเป็นระบบสำหรับการประเมินและปรับปรุงความปลอดภัยแบบจำลองภาษาขนาดใหญ่ [กระดาษ]
- จากอันตรายจากการเป็นตัวแทนไปจนถึงอันตรายคุณภาพการบริการ: กรณีศึกษาเกี่ยวกับการป้องกันความปลอดภัย Llama 2 [กระดาษ]
- SALAD-BENCH: มาตรฐานความปลอดภัยแบบลำดับชั้นและครอบคลุมสำหรับแบบจำลองภาษาขนาดใหญ่ [กระดาษ]
- strondreject สำหรับการแหกคุกที่ว่างเปล่า [กระดาษ]
- Harmbench: กรอบการประเมินมาตรฐานสำหรับการเป็นทีมสีแดงอัตโนมัติและการปฏิเสธที่แข็งแกร่ง [กระดาษ]
- Safetybench: ประเมินความปลอดภัยของแบบจำลองภาษาขนาดใหญ่ด้วยคำถามแบบปรนัย [กระดาษ]
- XSTEST: ชุดทดสอบสำหรับการระบุพฤติกรรมความปลอดภัยที่เกินจริงในรูปแบบภาษาขนาดใหญ่ [กระดาษ]
- Do-Not-Answer: ชุดข้อมูลสำหรับการประเมินการป้องกันใน LLMS [Paper]
- การประเมินความปลอดภัยของแบบจำลองภาษาขนาดใหญ่จีน [กระดาษ]
- แบบจำลองภาษาร่วมทีมสีแดงเพื่อลดอันตราย: วิธีการปรับขนาดและบทเรียนที่เรียนรู้ [กระดาษ]
- ชุดข้อมูล Dices: ความหลากหลายในการประเมิน AI การสนทนาเพื่อความปลอดภัย [กระดาษ]
- การแหกคุกแฝง: มาตรฐานสำหรับการประเมินความปลอดภัยของข้อความและความทนทานของเอาท์พุทของแบบจำลองภาษาขนาดใหญ่ [กระดาษ]
- TENSOR Trust: การโจมตีการฉีดทันทีที่ตีความได้จากเกมออนไลน์ [กระดาษ]
- LLMS สามารถทำตามกฎง่ายๆได้หรือไม่? [กระดาษ]
- Simplesafetytests: ชุดทดสอบสำหรับการระบุความเสี่ยงด้านความปลอดภัยที่สำคัญในรูปแบบภาษาขนาดใหญ่ [กระดาษ]
- การเปรียบเทียบและป้องกันการโจมตีการฉีดโดยทางอ้อมในแบบจำลองภาษาขนาดใหญ่ [กระดาษ]
- SC-Safety: เกณฑ์มาตรฐานความปลอดภัยที่เป็นปฏิปักษ์ต่อความปลอดภัยหลายรอบสำหรับแบบจำลองภาษาขนาดใหญ่ในภาษาจีน [กระดาษ]
- การเดินไต่เชือก-การประเมินแบบจำลองภาษาขนาดใหญ่ในโดเมนที่มีความเสี่ยงสูง [กระดาษ]
แอปพลิเคชัน
โดเมนแอปพลิเคชัน
ตัวแทน
- MM-Safetybench: มาตรฐานสำหรับการประเมินความปลอดภัยของแบบจำลองภาษาขนาดใหญ่หลายรูปแบบ [กระดาษ]
- Agent Smith: ภาพเดียวสามารถแหกคุกหนึ่งล้าน Multimodal LLM Agents เร็วแบบทวีคูณ [กระดาษ]
- ภาพนี้มีกี่ยูนิคอร์น? มาตรฐานการประเมินความปลอดภัยสำหรับการมองเห็น LLMS [กระดาษ]
- สู่การเป็นทีมสีแดงในการแปลหลายภาษาและหลายภาษา [กระดาษ]
- JailbreakVV-28K: มาตรฐานสำหรับการประเมินความทนทานของแบบจำลองภาษาขนาดใหญ่หลายรูปแบบกับการโจมตี Jailbreak [กระดาษ]
- Red Teaming GPT-4V: GPT-4V ปลอดภัยจากการโจมตีของการโจมตีด้วยการแหกคุกแบบ UNI/Multi-Modal หรือไม่? [กระดาษ]
- R-Judge: การเปรียบเทียบความเสี่ยงด้านความเสี่ยงสำหรับตัวแทน LLM [กระดาษ]
- GPT ในเสื้อผ้าแกะ: ความเสี่ยงของ GPT ที่กำหนดเอง [กระดาษ]
- Toolsword: เปิดเผยปัญหาด้านความปลอดภัยของแบบจำลองภาษาขนาดใหญ่ในการเรียนรู้เครื่องมือในสามขั้นตอน [กระดาษ]
- บ้านตัวสั่น? การทำแผนที่การโจมตีที่เป็นปฏิปักษ์ต่อตัวแทนภาษา [กระดาษ]
- การยอมรับอย่างรวดเร็วความเสี่ยงที่ซ่อนอยู่: ผลกระทบสองประการของการปรับแต่งแบบจำลองภาษาขนาดใหญ่ [กระดาษ]
- การโจมตีที่รวดเร็วและมุ่งเน้นการประเมินความปลอดภัยสำหรับ LLMS [กระดาษ]
- การระบุความเสี่ยงของตัวแทน LM ด้วย Sandbox ที่ได้รับการตกแต่งด้วย LM [Paper]
- cvalues: การวัดค่าของแบบจำลองภาษาขนาดใหญ่ของจีนตั้งแต่ความปลอดภัยไปจนถึงความรับผิดชอบ [กระดาษ]
- ใช้ประโยชน์จากนวนิยาย GPT-4 APIs [Paper]
- Evil Geniuses: การเจาะลึกความปลอดภัยของตัวแทนที่ใช้ LLM [กระดาษ]
- การประเมินความเสี่ยงในการฉีดทันทีใน GPTs ที่กำหนดเอง 200+ [กระดาษ]
การเขียนโปรแกรม
- DeceptPrompt: ใช้ประโยชน์จากการสร้างรหัสที่ขับเคลื่อนด้วย LLM ผ่านคำแนะนำภาษาธรรมชาติที่เป็นปฏิปักษ์ [กระดาษ]
- Poisoned Chatgpt ค้นหางานสำหรับมือที่ไม่ได้ใช้งาน: สำรวจแนวทางปฏิบัติของนักพัฒนาซอฟต์แวร์ที่มีคำแนะนำที่ไม่ปลอดภัยจากโมเดล AI ที่เป็นพิษ [กระดาษ]
ความเสี่ยงต่อการใช้งาน
ฉีดทันที
- พฤติกรรมการปรับขนาดของการแปลด้วยเครื่องด้วยแบบจำลองภาษาขนาดใหญ่ภายใต้การโจมตีแบบฉีดทันที [กระดาษ]
- จากการฉีดทันทีไปจนถึงการโจมตีแบบฉีด SQL: เว็บแอปพลิเคชันที่มีการรวมตัวกันของ LLM ของคุณได้รับการปกป้องอย่างไร [กระดาษ]
- ไม่ใช่สิ่งที่คุณสมัครใช้งาน: ประนีประนอมแอพพลิเคชั่น LLM ในโลกแห่งความเป็นจริงด้วยการฉีดทันทีทางอ้อม [กระดาษ]
- การโจมตีอย่างรวดเร็วจากแอพพลิเคชั่น LLM ที่รวมเข้าด้วยกัน [กระดาษ]
การสกัด
- Jailbreaking GPT-4V ผ่านการโจมตีด้วยตนเองด้วยการแจ้งเตือนระบบ [กระดาษ]
- การขโมยการโจมตีแบบจำลองภาษาขนาดใหญ่ [กระดาษ]
- การสกัดพร้อมท์ที่มีประสิทธิภาพจากแบบจำลองภาษา [กระดาษ]
การทำงานร่วมกันสีแดงหลายรูปแบบ
กลยุทธ์การโจมตี
การปฏิบัติตามเสร็จสมบูรณ์
- การเรียนรู้ที่ไม่กี่ฝ่ายตรงข้ามกับโมเดลภาษาวิสัยทัศน์ [กระดาษ]
- การจี้บริบทในโมเดลหลายโมเดลขนาดใหญ่ [กระดาษ]
คำแนะนำทางอ้อม
- เกี่ยวกับความทนทานของแบบจำลองหลายรูปแบบขนาดใหญ่กับการโจมตีของภาพที่เป็นปฏิปักษ์ [กระดาษ]
- รูปภาพเป็นส้นเท้าของ Achilles: การใช้ประโยชน์จากช่องโหว่ทางสายตาสำหรับการเขียนแบบจำลองภาษาขนาดใหญ่หลายรูป แบบ [กระดาษ]
- Vision-llms สามารถหลอกตัวเองด้วยการโจมตีตัวอักษรที่สร้างขึ้นเอง [กระดาษ]
- Jailbreak เป็นชิ้น ๆ : การโจมตีที่เป็นปฏิปักษ์กับโมเดลภาษาหลายรูปแบบ [กระดาษ]
- ภาพและเสียงที่ใช้ในทางที่ผิดสำหรับการฉีดคำสั่งทางอ้อมใน LLM แบบหลายรูปแบบ [กระดาษ]
- Figstep: Jailbreaking รุ่น Vision Language ขนาดใหญ่ผ่านการแจ้งเตือนภาพพิมพ์ [กระดาษ]
- คำแนะนำ: การโจมตีเป้าหมายที่ปรับแต่งสำหรับโมเดลภาษาวิสัยทัศน์ขนาดใหญ่ [กระดาษ]
โจมตีผู้ค้นหา
ผู้ค้นหารูปภาพ
- การโจมตีแบบแพร่กระจาย: ใช้ประโยชน์จากการแพร่กระจายที่มั่นคงสำหรับการโจมตีภาพตามธรรมชาติ [กระดาษ]
- เกี่ยวกับความทนทานของความทนทานของแบบจำลองพื้นฐานหลายรูปแบบ [กระดาษ]
- Bard ของ Google มีความแข็งแกร่งแค่ไหนในการโจมตีภาพที่เป็นปฏิปักษ์? [กระดาษ]
- การทดสอบแบ็คดอร์เวลาทดสอบในแบบจำลองภาษาขนาดใหญ่หลายรูปแบบ [กระดาษ]
ผู้ค้นหาข้ามรูปแบบ
- SA-ATTACK: การปรับปรุงความสามารถในการถ่ายโอนที่เป็นปฏิปักษ์ของแบบจำลองการฝึกฝนภาษาวิสัยทัศน์ผ่านการเสริมตนเอง [กระดาษ]
- MMA-diffusion: การโจมตีแบบหลายรูปแบบในรูปแบบการแพร่กระจาย [กระดาษ]
- การปรับปรุงความสามารถในการถ่ายโอนที่เป็นปฏิปักษ์ของโมเดลการฝึกอบรมภาษาภาพผ่านการทำงานร่วมกันแบบหลายรูปแบบร่วมกัน [กระดาษ]
- ภาพมีค่า 1,000 คำโกหก: ความสามารถในการถ่ายโอนของภาพที่เป็นปฏิปักษ์ในการแจ้งเตือนในรูปแบบภาษาวิสัยทัศน์ [กระดาษ]
คนอื่น
- SneakyPrompt: การสร้างแบบจำลองการสร้างข้อความเป็นภาพรวม [Paper]
- การแจ้งเตือน 4debugging: การกระจายแบบข้อความสีแดงเป็นรูปแบบการแพร่กระจายของข้อความเป็นภาพโดยการค้นหาพรอมต์ที่มีปัญหา [กระดาษ]
การป้องกัน
การป้องกันแบบรั้ว
- UFID: เฟรมเวิร์กแบบครบวงจรสำหรับการตรวจจับแบ็คดอร์ระดับอินพุตในรุ่นการแพร่กระจาย [กระดาษ]
- universal promptication impormizer สำหรับการสร้างข้อความถึงภาพที่ปลอดภัย
- ปิดตา, ความปลอดภัยบน: การปกป้อง LLM หลายรูปแบบผ่านการแปลงภาพเป็นข้อความ [กระดาษ]
- ปิดตา, ความปลอดภัยบน: การปกป้อง LLM หลายรูปแบบผ่านการแปลงภาพเป็นข้อความ [กระดาษ]
- MLLM-PROTECTOR: สร้างความมั่นใจในความปลอดภัยของ MLLM โดยไม่ทำร้ายประสิทธิภาพ
- เพิ่มการลดความเป็นพิษในเวลาอนุมานสำหรับการแปลหลายภาษาและหลายภาษา [กระดาษ]
- วิธีการกลายพันธุ์ที่ใช้สำหรับการตรวจจับการโจมตีด้วยการโจมตีแบบหลายรูปแบบ [กระดาษ]
การป้องกันอื่น ๆ
- Safegen: บรรเทาการสร้างเนื้อหาที่ไม่ปลอดภัยในรูปแบบข้อความเป็นภาพ [กระดาษ]
- ADASHIELD: การปกป้องแบบจำลองภาษาขนาดใหญ่หลายรูปแบบจากการโจมตีตามโครงสร้างผ่านการปรับเปลี่ยนโล่แบบปรับได้ [กระดาษ]
- การปรับแต่งความปลอดภัยที่ (เกือบ) ไม่มีค่าใช้จ่าย: พื้นฐานสำหรับการมองเห็นแบบจำลองภาษาขนาดใหญ่ [กระดาษ]
แอปพลิเคชัน
ตัวแทน
- Red Teaming GPT-4V: GPT-4V ปลอดภัยจากการโจมตีของการโจมตีด้วยการแหกคุกแบบ UNI/Multi-Modal หรือไม่? [กระดาษ]
- JailbreakVV-28K: มาตรฐานสำหรับการประเมินความทนทานของแบบจำลองภาษาขนาดใหญ่หลายรูปแบบกับการโจมตี Jailbreak [กระดาษ]
- Agent Smith: ภาพเดียวสามารถแหกคุกหนึ่งล้าน Multimodal LLM Agents เร็วแบบทวีคูณ [กระดาษ]
- MM-Safetybench: มาตรฐานสำหรับการประเมินความปลอดภัยของแบบจำลองภาษาขนาดใหญ่หลายรูปแบบ [กระดาษ]
- ภาพนี้มีกี่ยูนิคอร์น? มาตรฐานการประเมินความปลอดภัยสำหรับการมองเห็น LLMS [กระดาษ]
- สู่การเป็นทีมสีแดงในการแปลหลายภาษาและหลายภาษา [กระดาษ]
เกณฑ์มาตรฐาน
- ฝ่ายตรงข้าม Nibbler: วิธีการเปิดตัวสีแดงแบบเปิดสำหรับการระบุอันตรายที่หลากหลายในการสร้างข้อความเป็นภาพ [กระดาษ]
- รูปแบบภาษาภาพสีแดงเป็นทีม [กระดาษ]
การอ้างอิง
@article{lin2024achilles,
title={Against The Achilles' Heel: A Survey on Red Teaming for Generative Models},
author={Lizhi Lin and Honglin Mu and Zenan Zhai and Minghan Wang and Yuxia Wang and Renxi Wang and Junjie Gao and Yixuan Zhang and Wanxiang Che and Timothy Baldwin and Xudong Han and Haonan Li},
year={2024},
journal={arXiv preprint, arXiv:2404.00629},
primaryClass={cs.CL}
}