OpenRedTeaming
Survei kami: Melawan Tumit Achilles: Survei tentang Tim Merah untuk Model Generatif [Kertas]
Untuk mendapatkan pemahaman komprehensif tentang serangan potensial pada Genai dan mengembangkan perlindungan yang kuat. Kami:
- Survei lebih dari 120 makalah, mencakup pipa dari taksonomi risiko, strategi serangan, metrik evaluasi, dan tolok ukur ke pendekatan defensif.
- mengusulkan taksonomi komprehensif strategi serangan LLM yang didasarkan pada kemampuan yang melekat pada model yang dikembangkan selama pretraining dan fine-tuning.
- Menerapkan lebih dari 30+ metode tim merah otomatis.
Untuk tetap diperbarui atau mencoba alat redteaming kami, silakan berlangganan buletin kami di situs web kami atau bergabung dengan kami di Perselisihan!
Makalah terbaru tentang tim merah
Survei, taksonomi dan banyak lagi
Survei
- Agen LLM Pribadi: Wawasan dan Survei tentang Kemampuan, Efisiensi, dan Keamanan [Kertas]
- Trustllm: Kepercayaan dalam model bahasa besar [kertas]
- Taksonomi risiko, mitigasi, dan tolok ukur penilaian sistem model bahasa besar [kertas]
- Tantangan Keamanan dan Privasi Model Bahasa Besar: Survei [Kertas]
Survei serangan
- Pengujian yang kuat dari ketahanan model bahasa AI dengan permintaan novel permusuhan [kertas]
- Don't Listen To Me: Memahami dan Menjelajahi Jailbreak Permintaan Model Bahasa Besar [Kertas]
- Memecah pertahanan: Survei komparatif serangan pada model bahasa besar [kertas]
- Serangan jailbreak llm versus teknik pertahanan - studi komprehensif [kertas]
- Kategorisasi awal serangan injeksi cepat pada model bahasa besar [kertas]
- Penilaian komprehensif serangan jailbreak terhadap LLM [kertas]
- "Do Apapun Sekarang": Mengkarakterisasi dan Mengevaluasi Permintaan Jailbreak di Wild pada Model Bahasa Besar [Kertas]
- Survei Kerentanan dalam Model Bahasa Besar Diungkapkan oleh Serangan Perselisihan [Kertas]
- Abaikan judul ini dan hackaprompt: Mengekspos kerentanan sistemik LLM melalui kompetisi peretasan prompt skala global [kertas]
- Serangan dan pertahanan permusuhan dalam model bahasa besar: ancaman lama dan baru [kertas]
- Tricking llms menjadi ketidaktaatan: formalisasi, menganalisis, dan mendeteksi jailbreak [kertas]
- Summon A Demon and Bind It: A Grounded Theory of LLM Red Teaming in the Wild [Paper]
- Survei komprehensif teknik serangan, implementasi, dan strategi mitigasi dalam model bahasa besar [kertas]
- Beyond Batas: Survei komprehensif serangan yang dapat ditransfer pada sistem AI [kertas]
- Beyond Batas: Survei komprehensif serangan yang dapat ditransfer pada sistem AI [kertas]
Survei tentang risiko
- Pemetaan Landscapes Keamanan LLM: Proposal Penilaian Risiko Pemangku Kepentingan yang Komprehensif [Makalah]
- Mengamankan Model Bahasa Besar: Ancaman, Kerentanan, dan Praktik Bertanggung Jawab [Kertas]
- Privasi dalam Model Bahasa Besar: Serangan, Pertahanan, dan Arah Masa Depan [Kertas]
- Beyond the Safeguards: Menjelajahi risiko keamanan chatgpt [kertas]
- Menuju model bahasa generatif yang lebih aman: survei tentang risiko keselamatan, evaluasi, dan perbaikan [kertas]
- Penggunaan LLM untuk tujuan ilegal: ancaman, langkah -langkah pencegahan, dan kerentanan [kertas]
- Dari chatgpt ke ancaman: dampak AI generatif dalam keamanan siber dan privasi [kertas]
- Mengidentifikasi dan mengurangi kerentanan dalam aplikasi terintegrasi LLM [kertas]
- Kekuatan AI generatif dalam keamanan siber: peluang dan tantangan [kertas]
Taksonomi
- Memaksa LLMS untuk melakukan dan mengungkapkan (hampir) apa pun [kertas]
- Sejarah dan risiko pembelajaran penguatan dan umpan balik manusia [kertas]
- Dari chatbots ke phishbots? - Mencegah penipuan phishing dibuat menggunakan chatgpt, google bard dan claude [kertas]
- Jailbreaking chatgpt melalui rekayasa cepat: studi empiris [kertas]
- Menghasilkan serangan phishing menggunakan chatgpt [kertas]
- Personalisasi dalam batas: Taksonomi risiko dan kerangka kerja kebijakan untuk penyelarasan model bahasa besar dengan umpan balik yang dipersonalisasi [kertas]
- Penipuan AI: Survei contoh, risiko, dan solusi potensial [kertas]
- Taksonomi risiko keamanan untuk model bahasa besar [kertas]
Posisi
- Teaming merah untuk AI generatif: peluru perak atau teater keamanan? [Kertas]
- Etika Interaksi: Memitigasi Ancaman Keamanan di LLMS [Kertas]
- Pelabuhan yang aman untuk evaluasi AI dan [kertas] [kertas]
- Red Teaming ChatGPT melalui jailbreak: bias, ketahanan, keandalan dan toksisitas [kertas]
- Janji dan bahaya Kecerdasan Buatan - Violet Teaming menawarkan jalur ke depan yang seimbang [kertas]
Fenomena
- Segmen Tim Merah Model apa pun [kertas]
- Pemahaman mekanistik tentang algoritma penyelarasan: studi kasus tentang DPO dan toksisitas [kertas]
- Bicaralah Out of Turns: Kerentanan Keselamatan Model Bahasa Besar dalam Dialog Multi-Turn [Kertas]
- Pengorbanan antara penyelarasan dan bantuan dalam model bahasa [kertas]
- Menilai kerapuhan kerapuhan keselarasan melalui pemangkasan dan modifikasi rendah [kertas]
- "Ini permainan yang adil '', atau apakah itu? Memeriksa bagaimana pengguna menavigasi risiko pengungkapan dan manfaat saat menggunakan agen percakapan berbasis LLM [kertas]
- Mengeksploitasi perilaku terprogram LLMS: penggunaan ganda melalui serangan keamanan standar [kertas]
- Dapatkah model bahasa besar mengubah preferensi pengguna secara permusuhan? [Kertas]
- Apakah jaringan saraf yang selaras secara bersamaan diselaraskan? [Kertas]
- Penyelarasan Palsu: Apakah LLM benar -benar selaras dengan baik? [Kertas]
- Analisis kausalitas untuk mengevaluasi keamanan model bahasa besar [kertas]
- Transfer serangan dan pertahanan untuk model bahasa besar pada tugas pengkodean [kertas]
Strategi Serangan
Kepatuhan penyelesaian
- Beberapa shot appersarial prompt belajar pada model visi-bahasa [kertas]
- Konteks pembajakan dalam model multi-modal besar [kertas]
- Hebat, sekarang tulis artikel tentang itu: The Crescendo Multi-Turn LLM Jailbreak Attack [Paper]
- Badchain: rantai backdoor-morughought untuk model bahasa besar [kertas]
- Kerentanan universal dalam model bahasa besar: serangan backdoor untuk pembelajaran dalam konteks [kertas]
- Nevermind: Instruction Override dan Moderasi dalam Model Bahasa Besar [Kertas]
- Model Bahasa Besar Tim Merah Menggunakan Rantai Ucapan untuk Keselamatan-Alignment [Kertas]
- Serangan backdoor untuk pembelajaran dalam konteks dengan model bahasa [kertas]
- Jailbreak dan penjaga model bahasa yang selaras dengan hanya sedikit demonstrasi dalam konteks [kertas]
- Menganalisis kecenderungan respons yang melekat dari LLMS: Jailbreak yang digerakkan oleh instruksi dunia nyata [kertas]
- Melewati pelatihan keselamatan LLMS sumber terbuka dengan serangan priming [kertas]
- Membajak model bahasa besar melalui pembelajaran dalam konteks apresaria [kertas]
Instruksi tidak langsung
- Tentang ketahanan model multimodal besar terhadap serangan permusuhan gambar [kertas]
- Visi-llms dapat membodohi diri mereka sendiri dengan serangan tipografi yang dihasilkan sendiri [kertas]
- Gambar adalah Achilles 'Heel of Alignment: Memanfaatkan Kerentanan Visual untuk Model Bahasa Multimodal Multimodal [Kertas] Jailbreaking [kertas]
- FigStep: Jailbreaking model bahasa penglihatan besar melalui prompt visual tipografi [kertas]
- Instruktur: serangan target instruksi yang disesuaikan untuk model bahasa penglihatan besar [kertas]
- Menyalahgunakan gambar dan suara untuk injeksi instruksi tidak langsung di LLMS multi-modal [kertas]
- Contoh permusuhan visual jailbreak selaras model bahasa besar [kertas]
- Jailbreak in Pieces: Serangan permusuhan komposisi pada model bahasa multi-modal [kertas]
- Putar permainan menebak dengan LLM: serangan jailbreak tidak langsung dengan petunjuk implisit [kertas]
- Fuzzllm: Kerangka kerja baru yang baru dan universal untuk secara proaktif menemukan kerentanan jailbreak dalam model bahasa besar [kertas]
- GPTFUZZER: Model Bahasa Besar Peaming Merah Dengan Penjelasan Jailbreak yang Dibebaskan Otomatis [Kertas]
- Prompt Packer: Menipu LLMS melalui instruksi komposisi dengan serangan tersembunyi [kertas]
- DeepInception: Hipnotis model bahasa besar menjadi jailbreaker [kertas]
- A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts dapat membodohi model bahasa besar dengan mudah [kertas]
- Penyelarasan Keselamatan dalam Tugas NLP: Ringkasan yang selaras dengan lemah sebagai serangan dalam konteks [kertas]
- Overload kognitif: Model bahasa besar jailbreak dengan pemikiran logis yang kelebihan beban [kertas]
- Teka -teki Jigsaw: Memisahkan pertanyaan berbahaya untuk jailbreak model bahasa besar [kertas]
- Audio adalah Achilles 'Heel: Red Teaming Audio Model Multimodal Besar [Kertas]
Generalisasi meluncur
Bahasa
- Investigasi lintas bahasa terhadap serangan jailbreak dalam model bahasa besar [kertas]
- Hambatan Bahasa: Membedah tantangan keamanan LLM dalam konteks multibahasa [kertas]
- Serangan Sandwich: Serangan Adaptif Campuran Multi-Bahasa pada LLMS [Kertas]
- Serangan backdoor pada terjemahan mesin multibahasa [kertas]
- Tantangan jailbreak multibahasa dalam model bahasa besar [kertas]
- Bahasa rendah sumber daya jailbreak gpt-4 [kertas]
Sandi
- Menggunakan halusinasi untuk bypass filter gpt4 [kertas]
- Efek kupu -kupu dari mengubah petunjuk: seberapa kecil perubahan dan jailbreak mempengaruhi kinerja model bahasa besar [kertas]
- Membuat Mereka Tanya dan Jawab: Jailbreaking Model Bahasa Besar dalam beberapa pertanyaan melalui penyamaran dan rekonstruksi [kertas]
- PRP: Propagasi gangguan universal untuk menyerang model bahasa besar penjaga [kertas]
- GPT-4 terlalu pintar untuk aman: obrolan sembunyi-sembunyi dengan LLMS melalui cipher [kertas]
- Tanda baca penting! Serangan backdoor siluman untuk model bahasa [kertas]
Pengejawantahan
- Foot in the Door: Memahami model bahasa besar jailbreak melalui psikologi kognitif [kertas]
- PSYSAFE: Kerangka kerja komprehensif untuk serangan, pertahanan, dan evaluasi keselamatan sistem multi-agen [kertas] multi-agen [kertas]
- Bagaimana Johnny dapat membujuk LLMS untuk melakukan jailbreak mereka: Memikirkan kembali persuasi untuk menantang keselamatan AI dengan memanusiakan LLM [kertas]
- Jailbreak kotak hitam yang dapat diskalakan dan dapat ditransfer untuk model bahasa melalui modulasi persona [kertas]
- Siapa chatgpt? Penggambaran psikologis LLMS 'Benchmarking menggunakan PsychoBench [kertas]
- Mengeksploitasi model bahasa besar (LLM) melalui teknik penipuan dan prinsip persuasi [kertas]
Manipulasi model
Serangan backdoor
- Shadowcast: Serangan Keracunan Data Stealthy Terhadap Model Visi-Bahasa [Kertas]
- Agen Sleeper: Pelatihan Penipuan LLM yang bertahan melalui pelatihan keselamatan [kertas]
- Apa yang ada dalam data "aman" Anda?: Mengidentifikasi data jinak yang merusak keamanan [kertas]
- Serangan keracunan data pada metode evaluasi kebijakan off-kebijakan [kertas]
- Badedit: Model Bahasa Besar Backdooring Dengan Model Editing [Paper]
- Best-of-Venom: Menyerang RLHF dengan menyuntikkan data preferensi beracun [kertas]
- Belajar meracuni model bahasa besar selama penyetelan instruksi [kertas]
- Menjelajahi kerentanan backdoor dari model obrolan [kertas]
- Instruksi sebagai pintu belakang: Kerentanan pintu belakang penyetelan instruksi untuk model bahasa besar [kertas]
- Memaksa model generatif untuk merosot: kekuatan serangan keracunan data [kertas]
- Ketidaksejajaran dan persisten pada model bahasa besar melalui suntikan backdoor [kertas]
- Serangan Aktivasi Backdoor: Serang Model Bahasa Besar Menggunakan Kemudi Aktivasi Untuk Keselamatan-Alignment [Kertas]
- Tentang eksploitabilitas pembelajaran penguatan dengan umpan balik manusia untuk model bahasa besar [kertas]
- Mitigasi Backdoor Uji-Waktu untuk Model Bahasa Besar Kotak Hitam dengan Demonstrasi Defensif [Kertas]
- Pintu belakang jailbreak universal dari umpan balik manusia yang beracun [kertas]
Risiko penyesuaian
- Lora-as-an-attack! Piercing LLM Keamanan Di Bawah Skenario Bagikan-dan-Putar [Kertas]
- Disalignment yang ditiru: Penyelarasan keselamatan untuk model bahasa besar dapat menjadi bumerang! [Kertas]
- Lora Fine-Tuning Secara efisien melanggar pelatihan keselamatan di llama 2-chat 70b [kertas]
- Badllama: Dengan murah menghapus fine-tuning keselamatan dari llama 2-chat 13b [kertas]
- Model Bahasa Ketidaktahuan: Time-Teaming Parametrik untuk Mengekspos Kerugian Tersembunyi dan Bias [Kertas]
- Menghapus perlindungan RLHF di GPT-4 melalui fine-tuning [kertas]
- Pada keamanan model bahasa besar yang bersumber terbuka: Apakah penyelarasan benar-benar mencegah mereka disalahgunakan? [Kertas]
- Penyelarasan Bayangan: Kemudahan merongrong model bahasa yang selaras dengan aman [kertas]
- Model bahasa yang diselaraskan menyempurnakan kompromi keamanan, bahkan ketika pengguna tidak bermaksud! [Kertas]
Serang pencari
Pencari sufiks
- Prompting4Debugging: Model difusi teks-ke-gambar tim merah dengan menemukan permintaan yang bermasalah [kertas]
- Dari Noise hingga Clarity: Mengungkap Sufiks Perselisihan dari Serangan Model Bahasa Besar Melalui Terjemahan Teks Embeddings [Kertas]
- Serangan permusuhan cepat pada model bahasa dalam satu menit GPU [kertas]
- Model Bahasa Berbasis Gradien Red Teaming [kertas]
- Serangan injeksi prompt otomatis dan universal terhadap model bahasa besar [kertas]
- $ textit {LinkPrompt} $ : Serangan permusuhan alami dan universal pada model bahasa berbasis prompt [kertas]
- EXEC NEURA: Belajar (dan Belajar dari) Pemicu eksekusi untuk serangan injeksi cepat [kertas]
- Jailbreak Breaking LLMS yang disejajarkan dengan keselamatan dengan serangan adaptif sederhana [kertas]
- Optimalisasi Cepat untuk Jailbreaking LLMs melalui eksploitasi bawah sadar dan echopraxia [kertas]
- Autodan: serangan permusuhan berbasis gradien yang dapat ditafsirkan pada model bahasa besar [kertas]
- Serangan permusuhan universal dan dapat ditransfer pada model bahasa yang selaras [kertas]
- Tuning prestasi lunak untuk model bahasa besar untuk mengevaluasi bias [kertas]
- Trojllm: Serangan Prompt Trojan Kotak Hitam pada Model Bahasa Besar [Kertas]
- Autodan: Menghasilkan permintaan jailbreak siluman pada model bahasa besar yang selaras [kertas]
Pencari cepat
Model Bahasa
- Memunculkan perilaku model bahasa menggunakan model bahasa terbalik [kertas]
(2023)
- Semua dalam cara Anda memintanya: metode kotak hitam sederhana untuk serangan jailbreak [kertas]
- Serangan permusuhan pada GPT-4 melalui pencarian acak sederhana [kertas]
- THEASTLE: mengalihkan model bahasa besar untuk serangan jailbreak otomatis [kertas]
- Model bahasa tim merah dengan model bahasa [kertas]
- An LLM Can Fool sendiri: serangan permusuhan berbasis prompt [kertas]
- Jailbreaking Black Box Model Bahasa Besar Dalam Dua Puluh Kueri [Kertas]
- Pohon Serangan: Jailbreaking Black-Box LLMS secara otomatis [kertas]
- AART: AI-ASISTED Red Teaming dengan beragam pembuatan data untuk aplikasi bertenaga LLM baru [kertas]
- DALA: Serangan permusuhan berbasis distribusi-Lora terhadap model bahasa [kertas]
- JAB: Didorsi Perselisihan Bersama dan Keyakinan Augmentasi [Kertas]
- Tidak ada pelanggaran: memunculkan pelanggaran dari model bahasa [kertas]
- Loteng: Fine-tuning proxy lokal untuk meningkatkan transferabilitas serangan permusuhan terhadap model bahasa besar [kertas]
Decoding
- Jailbreaking lemah-ke-kuat pada model bahasa besar [kertas]
- Cold-Attack: Jailbreaking LLMS dengan santai dan kemampuan kontrol [kertas]
Algoritma genetika
- Jailbreak Cermin Semantik: Jailbreak berbasis algoritma genetika meminta LLMS open-source [kertas]
- Buka Wijen! Jailbreaking kotak hitam Universal dari model bahasa besar [kertas]
Pembelajaran Penguatan
- SneakyPrompt: Model generatif teks-ke-gambar jailbreaking [kertas]
- Permainan Tim Merah: Kerangka kerja permainan-teoretis untuk model bahasa tim merah [kertas]
- Jelajahi, Bangun, Eksploitasi: Model Bahasa Peaming Merah Dari Scratch [Paper]
- Mengungkap toksisitas implisit dalam model bahasa besar [kertas]
Pertahanan
Pertahanan waktu pelatihan
Rlhf
- Tuning keamanan yang dapat dikonfigurasi dari model bahasa dengan data preferensi sintetis [kertas]
- Meningkatkan keamanan LLM melalui optimasi preferensi langsung yang dibatasi [kertas]
- RLHF yang aman: Pembelajaran penguatan yang aman dari umpan balik manusia [kertas]
- Beavertails: Menuju Peningkatan Keselamatan Keselamatan LLM melalui Dataset Preferensi Manusia [Kertas]
- Safer-Instruct: Menyelaraskan model bahasa dengan data preferensi otomatis [kertas]
Fine-tuning
- Safegen: Mitigasi pembuatan konten yang tidak aman dalam model teks-ke-gambar [kertas]
- Safety Fine Tuning AT (Hampir) Tidak Ada Biaya: Baseline untuk Visi Model Bahasa Besar [Kertas]
- Mengembangkan model bahasa besar yang aman dan bertanggung jawab - kerangka kerja komprehensif [kertas]
- Imunisasi terhadap serangan penyempurnaan yang berbahaya [kertas]
- Memitigasi serangan jailbreak fine-tuning dengan backdoor ditingkatkan alignment [kertas]
- Penyelarasan Dialektis: Menyelesaikan Ketegangan 3H dan Ancaman Keamanan LLMS [Kertas]
- Pemangkasan untuk Perlindungan: Meningkatkan Resistensi Jailbreak di LLM yang selaras tanpa menyempurnakan [kertas]
- ERASER: Jailbreaking Defense dalam model bahasa besar melalui tidak belajar pengetahuan [kertas]
- Dua kepala lebih baik dari satu: Poe bersarang untuk pertahanan yang kuat melawan multi-backdoors [kertas]
- Pertahanan terhadap serangan backdoor keracunan berat badan untuk penyempurnaan yang efisien parameter [kertas]
- Llamas yang disetel keselamatan: Pelajaran dari meningkatkan keamanan model bahasa besar yang mengikuti instruksi [kertas]
- Pertahanan terhadap serangan pemecahan penyelarasan melalui LLM [kertas] yang disejajarkan dengan kuat
- Pelajari apa yang tidak harus dipelajari: Menuju keamanan generatif di chatbots [kertas]
- Jatmo: Pertahanan injeksi cepat dengan finetuning khusus tugas [kertas]
Pertahanan waktu inferensi
Dorongan
- Adashield: Melindungi Model Bahasa Multimodal Besar dari Serangan Berbasis Struktur Melalui Perisai Adaptif Meminta [Kertas]
- Break the Breakout: menciptakan kembali pertahanan LM terhadap serangan jailbreak dengan [kertas]
- Pada pengamanan berbasis prompt untuk model bahasa besar [kertas]
- Ditandatangani Prompt: Pendekatan baru untuk mencegah serangan injeksi cepat terhadap aplikasi terintegrasi LLM [kertas]
Xuchen Suo (2024)
- Analisis Niat Membuat LLMS Jailbreak Defender yang Baik [Kertas]
- Pertahanan terhadap serangan injeksi cepat tidak langsung dengan sorotan [kertas]
- Memastikan output yang aman dan berkualitas tinggi: pendekatan perpustakaan pedoman untuk model bahasa [kertas]
- Serangan injeksi prompt generatif yang dipandu tujuan pada model bahasa besar [kertas]
- Struq: Pertahanan terhadap injeksi cepat dengan kueri terstruktur [kertas]
- Studious Bob Fight Back melawan jailbreaking melalui penyetelan permusuhan yang cepat [kertas]
- Penjaga Diri: Memberdayakan LLM untuk melindungi dirinya sendiri [kertas]
- Menggunakan pembelajaran dalam konteks untuk meningkatkan keamanan dialog [kertas]
- Mempertahankan model bahasa besar terhadap serangan jailbreaking melalui prioritas sasaran [kertas]
- Bergeron: Memerangi serangan permusuhan melalui kerangka kerja perataan berbasis hati nurani [kertas]
Ansambel
- Memerangi serangan permusuhan dengan debat multi-agen [kertas]
- Trustagent: Menuju agen berbasis LLM yang aman dan dapat dipercaya melalui Konstitusi Agen [kertas]
- Autodefense: Pertahanan LLM multi-agen terhadap serangan jailbreak [kertas]
- Belajar untuk menyamarkan: Hindari tanggapan penolakan dalam pertahanan LLM melalui game penyerang multi-agen [kertas]
- Jailbreaker di penjara: Memindahkan pertahanan target untuk model bahasa besar [kertas]
Pagar pembatas
Input pagar pembatas
- UFID: Kerangka kerja terpadu untuk deteksi backdoor tingkat input pada model difusi [kertas]
- Pengoptimal prompt universal untuk pembuatan teks-ke-gambar yang aman [kertas]
- Mata Tertutup, Keselamatan: Melindungi LLM Multimodal Melalui Transformasi Gambar ke Teks [Kertas]
- Mata Tertutup, Keselamatan: Melindungi LLM Multimodal Melalui Transformasi Gambar ke Teks [Kertas]
- MLLM-Protektor: Memastikan Keselamatan MLLM tanpa merusak kinerja [kertas]
- Menambahkan mitigasi toksisitas pada waktu inferensi untuk terjemahan multipodal dan multibahasa [kertas]
- Metode berbasis mutasi untuk deteksi serangan jailbreaking multi-modal [kertas]
- Deteksi dan pertahanan terhadap serangan terkemuka pada asisten virtual terintegrasi LLM yang terkondisikan [kertas]
- SHIELDLM: Memberdayakan LLMS sebagai detektor keselamatan yang disejajarkan, dapat disesuaikan, dan dapat dijelaskan [kertas]
- Pertahanan Terjemahan Round Trip Melawan Serangan Jailbreaking Model Bahasa Besar [Kertas]
- Gradient Cuff: Mendeteksi serangan jailbreak pada model bahasa besar dengan mengeksplorasi lanskap kehilangan penolakan [kertas]
- Defending Jailbreak meminta melalui permainan permusuhan dalam-konteks [kertas]
- SPML: DSL untuk mempertahankan model bahasa terhadap serangan cepat [kertas]
- Klasifikasi Keselamatan Kuat untuk Model Bahasa Besar: Perisai Prompt Prompt [Kertas]
- Kontrol AI: Meningkatkan Keselamatan Meskipun disengaja subversi [kertas]
- Maatphor: Analisis varian otomatis untuk serangan injeksi cepat [kertas]
Output Guardrails
- Membela LLMS terhadap serangan jailbreaking melalui backtranslation [kertas]
- Optimalisasi cepat yang kuat untuk mempertahankan model bahasa terhadap serangan jailbreaking [kertas]
- Jailbreak paling baik diselesaikan menurut definisi [kertas]
- Llm pertahanan diri: dengan pemeriksaan diri, llms tahu mereka ditipu [kertas]
Input & output pagar
- Rigorllm: Pagar Tangguh untuk Model Bahasa Besar Terhadap Konten yang Tidak Diinginkan [Kertas]
- Nemo Guardrails: Toolkit untuk aplikasi LLM yang dapat dikendalikan dan aman dengan rel yang dapat diprogram [kertas]
- Penjaga Llama: Perlindungan input-output berbasis LLM untuk percakapan manusia-AI [kertas]
Pertahanan akhiran yang bermusuhan
- Mempertahankan model bahasa besar terhadap serangan jailbreak melalui semantik smoothing [kertas]
- Sertifikasi Keselamatan LLM terhadap permusuhan yang diminta [kertas]
- Pertahanan dasar untuk serangan permusuhan terhadap model bahasa yang selaras [kertas]
- Mendeteksi serangan model bahasa dengan kebingungan [kertas]
- Smoothllm: Membela model bahasa besar terhadap serangan jailbreaking [kertas]
- Token-level permusuhan deteksi prompt berdasarkan langkah-langkah kebingungan dan informasi kontekstual [kertas]
Decoding pertahanan
- Menuju tanggapan seimbang keamanan dan bantuan melalui model bahasa besar yang dapat dikendalikan [kertas]
- SafeDecoding: Membela terhadap serangan jailbreak melalui decoding [kertas] yang sadar keselamatan ]
Evaluasi
Metrik evaluasi
Serangan metrik
- Kerangka evaluasi baru untuk menilai ketahanan terhadap serangan injeksi cepat dalam model bahasa besar [kertas]
- Serangan: Cara Mengevaluasi Efektivitas Menyerang Jailbreak pada Model Bahasa Besar [Kertas]
- Lihatlah itu! Memikirkan Kembali Cara Mengevaluasi Model Bahasa Jailbreak [kertas]
Metrik pertahanan
- Bagaimana (tidak) etis respons instruksi-sentris LLM? Mengungkap kerentanan pagar pengaman untuk pertanyaan berbahaya [kertas]
- Seni Pertahanan: Evaluasi Sistematik dan Analisis Strategi Pertahanan LLM tentang Keselamatan dan Ketahanan berlebih [kertas]
Tolok ukur evaluasi
- Jailbreakbench: Benchmark ketahanan terbuka untuk jailbreaking model bahasa besar [kertas]
- SafetyPrompts: Tinjauan sistematis dataset terbuka untuk mengevaluasi dan meningkatkan keselamatan model bahasa besar [kertas]
- Dari bahaya representasional hingga kerugian layanan: studi kasus tentang Llama 2 Safety Safeguards [kertas]
- Salad-Bench: Benchmark keamanan hierarkis dan komprehensif untuk model bahasa besar [kertas]
- A StrongreJect untuk jailbreak kosong [kertas]
- Harmbench: Kerangka evaluasi standar untuk tim merah otomatis dan penolakan yang kuat [kertas]
- Safetybench: Mengevaluasi keamanan model bahasa besar dengan pertanyaan pilihan ganda [kertas]
- Xstest: Test Suite untuk mengidentifikasi perilaku keselamatan yang berlebihan dalam model bahasa besar [kertas]
- Do-not-jawab: Dataset untuk mengevaluasi perlindungan di LLMS [kertas]
- Penilaian Keselamatan Model Bahasa Besar Cina [Kertas]
- Model Bahasa Tim Merah Untuk Mengurangi Kerusakan: Metode, Perilaku Penskalaan, dan Pelajaran yang Dipetik [Kertas]
- Dataset DICES: Keragaman dalam evaluasi AI percakapan untuk keselamatan [kertas]
- Latent Jailbreak: Benchmark untuk Mengevaluasi Keamanan Teks dan Ketahanan Output Model Bahasa Besar [Kertas]
- Tensor Trust: serangan injeksi cepat yang dapat ditafsirkan dari permainan online [kertas]
- Bisakah LLM mengikuti aturan sederhana? [Kertas]
- SIMPLESSAFETYTESTS: Suite tes untuk mengidentifikasi risiko keselamatan kritis dalam model bahasa besar [kertas]
- Benchmarking dan bertahan melawan serangan injeksi cepat tidak langsung pada model bahasa besar [kertas]
- SC-Safety: tolok ukur keselamatan ajaib multi-putaran untuk model bahasa besar dalam [kertas] Cina ]
- Walking a Tightrope-Mengevaluasi model bahasa besar di domain berisiko tinggi [kertas]
Aplikasi
Domain aplikasi
Agen
- MM-SafetyBench: Benchmark untuk Evaluasi Keselamatan Model Bahasa Multimodal Besar [Kertas]
- Agen Smith: Satu gambar dapat melakukan jailbreak satu juta agen LLM multimodal dengan cepat secara eksponensial [kertas]
- Berapa banyak unicorn dalam gambar ini? Benchmark evaluasi keamanan untuk Vision LLMS [kertas]
- Menuju Peaming Merah dalam Terjemahan Multimodal dan Multilingual [Kertas]
- JailBreakv-28K: Benchmark untuk menilai kekokohan model bahasa multimodal terhadap serangan jailbreak [kertas]
- Red Teaming GPT-4V: Apakah GPT-4V Aman Melawan Serangan Jailbreak Uni/Multi-Modal? [Kertas]
- R-Judge: Benchmarking Keselamatan Keselamatan Keselamatan untuk Agen LLM [Kertas]
- GPT dalam pakaian domba: risiko GPT [kertas] yang disesuaikan
- Toolsword: Meluncurkan masalah keselamatan model bahasa besar dalam pembelajaran alat di tiga tahap [kertas]
- Rumah kartu yang gemetar? Pemetaan serangan permusuhan terhadap agen bahasa [kertas]
- Adopsi Cepat, Risiko Tersembunyi: Dampak Ganda Model Bahasa Kustomisasi Besar [Kertas]
- Evaluasi serangan dan keselamatan yang berorientasi pada tujuan untuk LLM [kertas]
- Mengidentifikasi risiko agen LM dengan kotak pasir yang ditemui LM [kertas]
- CVALUES: Mengukur nilai -nilai model bahasa besar Cina dari keamanan hingga tanggung jawab [kertas]
- Mengeksploitasi novel GPT-4 API [kertas]
- Evil Geniuses: Menggali Keamanan Agen Berbasis LLM [Kertas]
- Menilai risiko injeksi cepat di 200+ GPT khusus [kertas]
Pemrograman
- DeceptPrompt: Mengeksploitasi pembuatan kode yang digerakkan oleh LLM melalui instruksi bahasa alami permusuhan [kertas]
- Racun chatgpt menemukan pekerjaan untuk tangan kosong: Menjelajahi praktik pengkodean pengembang dengan saran tidak aman dari model AI beracun [kertas]
Risiko Aplikasi
Injeksi cepat
- Perilaku penskalaan terjemahan mesin dengan model bahasa besar di bawah serangan injeksi cepat [kertas]
- Dari suntikan cepat hingga serangan injeksi SQL: Seberapa terlindungi aplikasi web yang terintegrasi LLM Anda? [Kertas]
- Bukan untuk apa yang Anda daftarkan: kompromi aplikasi yang terintegrasi dengan LLM dunia nyata dengan injeksi cepat tidak langsung [kertas]
- Serangan injeksi cepat terhadap aplikasi terintegrasi LLM [kertas]
Ekstraksi cepat
- Jailbreaking GPT-4V melalui serangan petualangan diri dengan permintaan sistem [kertas]
- Segera mencuri serangan terhadap model bahasa besar [kertas]
- Ekstraksi cepat yang efektif dari model bahasa [kertas]
Tim Multimodal Red
Strategi Serangan
Kepatuhan penyelesaian
- Beberapa shot appersarial prompt belajar pada model visi-bahasa [kertas]
- Konteks pembajakan dalam model multi-modal besar [kertas]
Instruksi tidak langsung
- Tentang ketahanan model multimodal besar terhadap serangan permusuhan gambar [kertas]
- Gambar adalah Achilles 'Heel of Alignment: Memanfaatkan Kerentanan Visual untuk Model Bahasa Multimodal Multimodal [Kertas] Jailbreaking [kertas]
- Visi-llms dapat membodohi diri mereka sendiri dengan serangan tipografi yang dihasilkan sendiri [kertas]
- Contoh permusuhan visual jailbreak selaras model bahasa besar [kertas]
- Jailbreak in Pieces: Serangan permusuhan komposisi pada model bahasa multi-modal [kertas]
- Menyalahgunakan gambar dan suara untuk injeksi instruksi tidak langsung di LLMS multi-modal [kertas]
- FigStep: Jailbreaking model bahasa penglihatan besar melalui prompt visual tipografi [kertas]
- Instruktur: serangan target instruksi yang disesuaikan untuk model bahasa penglihatan besar [kertas]
Pencari Serang
Pencari gambar
- Serangan difusi: Memanfaatkan difusi stabil untuk penyerang gambar naturalistik [kertas]
- Tentang Ketahanan Model Modal Multi-Modal [kertas] multi-modal [kertas]
- Seberapa kuat google's Bard terhadap serangan gambar permusuhan? [Kertas]
- Serangan back-time-time pada model bahasa besar multimodal [kertas]
Pencari modalitas silang
- Sa-serangan: Meningkatkan transferabilitas permusuhan dari model pra-pelatihan visi-bahasa melalui penumpukan diri [kertas]
- MMA-Diffusion: Serangan multimodal pada model difusi [kertas]
- Meningkatkan transferabilitas permusuhan model pra-pelatihan bahasa visual melalui interaksi multimodal kolaboratif [kertas]
- Gambar bernilai 1000 kebohongan: transferabilitas gambar permusuhan di seluruh petunjuk pada model visi-bahasa [kertas]
Yang lain
- SneakyPrompt: Model generatif teks-ke-gambar jailbreaking [kertas]
- Prompting4Debugging: Model difusi teks-ke-gambar tim merah dengan menemukan permintaan yang bermasalah [kertas]
Pertahanan
Pertahanan pagar pembanan
- UFID: Kerangka kerja terpadu untuk deteksi backdoor tingkat input pada model difusi [kertas]
- Pengoptimal prompt universal untuk pembuatan teks-ke-gambar yang aman [kertas]
- Mata Tertutup, Keselamatan: Melindungi LLM Multimodal Melalui Transformasi Gambar ke Teks [Kertas]
- Mata Tertutup, Keselamatan: Melindungi LLM Multimodal Melalui Transformasi Gambar ke Teks [Kertas]
- MLLM-Protektor: Memastikan Keselamatan MLLM tanpa merusak kinerja [kertas]
- Menambahkan mitigasi toksisitas pada waktu inferensi untuk terjemahan multipodal dan multibahasa [kertas]
- Metode berbasis mutasi untuk deteksi serangan jailbreaking multi-modal [kertas]
Pertahanan lainnya
- Safegen: Mitigasi pembuatan konten yang tidak aman dalam model teks-ke-gambar [kertas]
- Adashield: Melindungi Model Bahasa Multimodal Besar dari Serangan Berbasis Struktur Melalui Perisai Adaptif Meminta [Kertas]
- Safety Fine Tuning AT (Hampir) Tidak Ada Biaya: Baseline untuk Visi Model Bahasa Besar [Kertas]
Aplikasi
Agen
- Red Teaming GPT-4V: Apakah GPT-4V Aman Melawan Serangan Jailbreak Uni/Multi-Modal? [Kertas]
- JailBreakv-28K: Benchmark untuk menilai kekokohan model bahasa multimodal terhadap serangan jailbreak [kertas]
- Agen Smith: Satu gambar dapat melakukan jailbreak satu juta agen LLM multimodal dengan cepat secara eksponensial [kertas]
- MM-SafetyBench: Benchmark untuk Evaluasi Keselamatan Model Bahasa Multimodal Besar [Kertas]
- Berapa banyak unicorn dalam gambar ini? Benchmark evaluasi keamanan untuk Vision LLMS [kertas]
- Menuju Peaming Merah dalam Terjemahan Multimodal dan Multilingual [Kertas]
Tolok ukur
- Nibbler permusuhan: Metode tim merah terbuka untuk mengidentifikasi beragam bahaya dalam pembuatan teks-ke-gambar [kertas]
- Model Bahasa Visual Peaming Merah [Kertas]
Kutipan
@article{lin2024achilles,
title={Against The Achilles' Heel: A Survey on Red Teaming for Generative Models},
author={Lizhi Lin and Honglin Mu and Zenan Zhai and Minghan Wang and Yuxia Wang and Renxi Wang and Junjie Gao and Yixuan Zhang and Wanxiang Che and Timothy Baldwin and Xudong Han and Haonan Li},
year={2024},
journal={arXiv preprint, arXiv:2404.00629},
primaryClass={cs.CL}
}