Daftar makalah dan alat yang dikuratori yang mencakup ancaman dan kerentanan LLM, baik dari sudut pandang keamanan dan privasi. Ringkasan, titik takeaway kunci, dan detail tambahan untuk setiap kertas ditemukan di folder kertas-rume.
File Main.bib berisi kutipan terbaru dari makalah yang tercantum di sini.
Tinjauan Gambar: Taksonomi tentang keamanan dan ancaman privasi saat ini terhadap model pembelajaran yang mendalam dan model bahasa besar (LLM) berturut -turut.
| TIDAK. | Judul kertas | Lokasi | Tahun | Kategori | Kode | Ringkasan |
|---|---|---|---|---|---|---|
| 1. | Injectagent: Benchmarking Tidak Langsung Suntikan Prompt dalam Agen Model Bahasa Besar yang Terintegrasi Alat | pra-cetak | 2024 | Injeksi cepat | N/a | Tbd |
| 2. | Agen LLM dapat secara mandiri meretas situs web | pra-cetak | 2024 | Aplikasi | N/a | Tbd |
| 3. | Gambaran Umum Risiko AI Catastrophic | pra-cetak | 2023 | Umum | N/a | Tbd |
| 4. | Penggunaan LLM untuk tujuan ilegal: ancaman, langkah -langkah pencegahan, dan kerentanan | pra-cetak | 2023 | Umum | N/a | Tbd |
| 5. | Sensor LLM: Tantangan pembelajaran mesin atau masalah keamanan komputer? | pra-cetak | 2023 | Umum | N/a | Tbd |
| 6. | Beyond the Safeguards: Menjelajahi Risiko Keamanan Chatgpt | pra-cetak | 2023 | Umum | N/a | Tbd |
| 7. | Serangan injeksi cepat terhadap aplikasi yang terintegrasi LLM | pra-cetak | 2023 | Injeksi cepat | N/a | Tbd |
| 8. | Mengidentifikasi dan mengurangi risiko keamanan AI generatif | pra-cetak | 2023 | Umum | N/a | Tbd |
| 9. | PassGPT: Pemodelan Kata Sandi dan generasi (dipandu) dengan model bahasa besar | Esorik | 2023 | Aplikasi | Tbd | |
| 10. | Memanfaatkan GPT-4 untuk Generasi Kebijakan GRC Cybersecurity: Fokus pada Mitigasi Serangan Ransomware | Komputer & Keamanan | 2023 | Aplikasi | N/a | Tbd |
| 11. | Bukan untuk apa yang telah Anda daftarkan: mengompromikan aplikasi yang terintegrasi dengan LLM dunia nyata dengan injeksi cepat tidak langsung | pra-cetak | 2023 | Injeksi cepat | Tbd | |
| 12. | Memeriksa perbaikan kerentanan zero-shot dengan model bahasa besar | IEEE S&P | 2023 | Aplikasi | N/a | Tbd |
| 13. | Keamanan Platform LLM: Menerapkan Kerangka Evaluasi Sistematik ke Plugin ChatGPT OpenAI | pra-cetak | 2023 | Umum | N/a | Tbd |
| 14. | Rantai-verifikasi mengurangi halusinasi dalam model bahasa besar | pra-cetak | 2023 | Halusinasi | N/a | Tbd |
| 15. | Kuis Pop! Bisakah model bahasa besar membantu rekayasa terbalik? | pra-cetak | 2022 | Aplikasi | N/a | Tbd |
| 16. | Mengekstraksi data pelatihan dari model bahasa besar | USENIX Security | 2021 | Ekstraksi data | Tbd | |
| 17. | Here Comes The AI Worm: Melepaskan Cacing Klik Zero yang Menargetkan Aplikasi Bertenaga Genai | pra-cetak | 2024 | Injeksi cepat | Tbd | |
| 18. | Tebing: Pembelajaran Kontras untuk Meningkatkan Kesetiaan dan Faktualitas dalam Peringkasan Abstraktif | EMNLP | 2021 | Halusinasi | Tbd |
Jika Anda tertarik untuk berkontribusi pada repositori ini, silakan lihat Contributing.md untuk detail tentang pedoman tersebut.
Daftar kontributor saat ini ditemukan di sini.
Untuk setiap pertanyaan tentang kolaborasi repositori dan/atau potensial (penelitian) ini, silakan hubungi Briland Hitaj.