Stav Cohen, Ron Bitton, Ben Nassi
Technion - Institut Teknologi Israel, Cornell Tech, Intuit
Situs web | Video YouTube | Kertas arxiv

Penelitian ini dimaksudkan untuk mengubah persepsi tentang jailbreaking dan:
Tunjukkan bahwa model Genai yang di-jailbroken dapat menimbulkan kerugian nyata pada aplikasi bertenaga Genai dan mendorong diskusi tentang kebutuhan untuk mencegah upaya jailbreaking.
Mengungkapkan Promputeware, ancaman baru terhadap aplikasi bertenaga Genai yang dapat diterapkan oleh jailbreaking model Genai.
Meningkatkan kesadaran mengenai fakta rencana & melaksanakan arsitektur sangat rentan terhadap promptWares. 
Dalam makalah ini kami berpendapat bahwa, sementara model Genai yang di-jailbroken tidak menimbulkan ancaman nyata bagi pengguna akhir dalam AI percakapan, itu dapat menyebabkan kerusakan nyata pada aplikasi yang bertenaga Genai dan memfasilitasi jenis serangan baru yang kami beri nama cepat.
Promputeware mengeksploitasi input pengguna ke jailbreak model Genai untuk memaksa/membentuk aktivitas jahat dalam konteks aplikasi bertenaga Genai. Pertama, kami memperkenalkan implementasi naif dari Prompasware yang berperilaku sebagai malware yang menargetkan merencanakan & menjalankan arsitektur (alias, bereaksi, panggilan fungsi). Kami menunjukkan bahwa penyerang dapat memaksa aliran eksekusi yang diinginkan dengan membuat input pengguna yang menghasilkan output yang diinginkan mengingat bahwa logika aplikasi bertenaga Genai diketahui oleh penyerang. Kami menunjukkan penerapan serangan DOS yang memicu pelaksanaan asisten bertenaga Genai untuk memasukkan loop tak terbatas yang membuang-buang uang dan sumber daya komputasi pada panggilan API yang berlebihan ke mesin Genai, mencegah aplikasi memberikan layanan kepada pengguna.
Selanjutnya, kami memperkenalkan implementasi prompute yang lebih canggih yang kami beri nama Advanced Forwedware Ancaman (APWT) yang menargetkan aplikasi bertenaga Genai yang logikanya tidak diketahui oleh penyerang. Kami menunjukkan bahwa penyerang dapat membuat input pengguna yang mengeksploitasi kemampuan AI canggih mesin Genai untuk meluncurkan rantai pembunuhan dalam waktu inferensi yang terdiri dari enam langkah yang dimaksudkan untuk meningkatkan hak istimewa, menganalisis konteks aplikasi, mengidentifikasi aset yang berharga, alasan yang memungkinkan kegiatan berbahaya, memutuskan salah satu dari mereka, dan melaksanakannya. Kami menunjukkan penerapan APWT terhadap chatbot e-commerce bertenaga Genai dan menunjukkan bahwa itu dapat memicu modifikasi tabel SQL, yang berpotensi mengarah ke diskon yang tidak sah pada barang yang dijual kepada pengguna
git clone https://github.com/StavC/PromptWares.git
cd ComPromptMizedDapatkan kunci API untuk mengakses Openai dan Google Services
Instal paket yang diperlukan menggunakan perintah berikut:
pip install -r requirements.txtDua file kode berikutnya diubah menjadi format Jupyter untuk meningkatkan keterbacaan dan menyederhanakan pengujian dan eksperimen. Selain itu, kami telah memasukkan lebih banyak dokumentasi dan komentar di dalamnya.
Dalam kode kami, kami memanfaatkan arsitektur Rewoo untuk mengimplementasikan rencana dan menjalankan sistem melalui Langchain dan mendasarkan kode kami pada kode yang tersedia secara publik dari repositori Langchain Anda dapat menemukan lebih banyak detail tentang rencana dan menjalankan arsitektur di blog Langchain.
PromptWares adalah input pengguna yang dimaksudkan untuk memicu aktivitas jahat dalam aplikasi bertenaga Genai dengan melakukan jailbreaking mesin Genai dan mengubah aliran eksekusi aplikasi.
Oleh karena itu, promptWares dianggap nol-klik malware dan mereka tidak mengharuskan penyerang untuk mengkompromikan aplikasi bertenaga Genai target sebelumnya.
Di bawah APT-DOS Anda akan menemukan kode yang membangun asisten bertenaga Genai sederhana yang rentan terhadap serangan DOS. Angka kiri di bawah ini menggambarkan mesin keadaan terbatas dari rencana yang dieksekusi oleh asisten bertenaga Genai dalam menanggapi email, di sebelah angka yang tepat yang menggambarkan skema DOS yang diimplementasikan oleh penyerang.
Untuk melakukannya kami mengimplementasikan alat -alat berikut:
findAvailableDateAndTime ( email ) # Find available date and time for a meeting
EmailReply ( email ) # Creates a reply to an email
EmailChecker ( email ) # Check if the email is safe to send
MakeEmailSafe ( email ) # Make the email safe to send if it is not
EmailSender ( email ) # Send the emailAnda dapat menemukan implementasi alat-alat ini dalam notebook APT-DOS dan memperluas atau memodifikasinya untuk memasukkan lebih banyak alat dan fungsionalitas.
| Skema DOS | Mesin negara yang terbatas dari rencana tersebut |
|---|---|
![]() | ![]() |
Advanced Fickareware Ancaman (APWT) adalah implementasi prompute yang lebih canggih yang menargetkan aplikasi bertenaga Genai yang logikanya tidak diketahui oleh penyerang.
Tidak seperti implementasi naif dari Promputeware, APWT mengeksploitasi kemampuan AI canggih dari mesin Genai untuk melakukan aktivitas jahat yang hasilnya ditentukan dalam waktu inferensi oleh mesin Genai (dan tidak diketahui para penyerang sebelumnya).
Di bawah APWT-Ecommerce Anda akan menemukan kode yang membangun asisten e-commerce bertenaga Genai sederhana yang terhubung ke database SQL dan berinteraksi dengan pengguna akhir melalui obrolan. Dalam contoh ini kami menerapkan 3 alat yang digunakan oleh asisten e-commerce bertenaga Genai:
CreateSQLQueries ( text ) # Create SQL queries from the user input
DoAction ( SQL ) # Execute the SQL queries
ReturnAnswer ( text ) # Return the answer to the user based on the SQL queries results and the user inputKami menunjukkan bagaimana pengguna jahat dapat membuat APWT yang terdiri dari 6 langkah generik yang menciptakan rantai pembunuhan menyebabkan kerugian bagi asisten e -commerce dan database SQL. Karena APWT dibuat, hasil ditentukan dalam waktu inferensi oleh mesin Genai, hasil serangan bervariasi, berikut adalah beberapa contoh hasil yang mungkin kami temui selama percobaan kami:
Anda dipersilakan untuk bereksperimen dengan konsep APWT pada lebih banyak aplikasi bertenaga Genai dengan berbagai alat, fungsionalitas, dan metode jailbreaking. Kami mendasarkan metode jailbreaking kami pada kode yang tersedia untuk umum dari repo Zorg-jailbreak-prompt-text
| Skema ancaman cepat otonom |
|---|
![]() |
T: Mengapa jailbreak tidak dianggap sebagai ancaman keamanan nyata dalam konteks AI percakapan?
A: Karena dalam AI percakapan di mana pengguna mendiskusikan dengan chatbot, tidak ada manfaat yang jelas dari jailbreaking chatbot: mengapa pengguna ingin chatbot menghinanya? Informasi apa pun yang disediakan oleh chatbot jailbreak juga dapat ditemukan di web (atau web gelap). Oleh karena itu, para ahli keamanan tidak menganggap melakukan jailbreak sebagai ancaman nyata terhadap keamanan
T: Mengapa jailbreak harus dianggap sebagai ancaman keamanan nyata dalam konteks aplikasi bertenaga Genai?
A: Karena output mesin Genai digunakan untuk menentukan aliran aplikasi bertenaga Genai. Oleh karena itu, model Genai yang di -jailbreak dapat mengubah aliran eksekusi aplikasi dan memicu aktivitas berbahaya.
Tba