Stav Cohen, Ron Bitton, Ben Nassi
Technion -Israel Institute of Technology, Cornell Tech, Intuit
웹 사이트 | YouTube 비디오 | Arxiv 종이

이 연구는 탈옥에 대한 인식을 바꾸기위한 것입니다.
탈옥 된 Genai 모델은 Genai 기반 응용 프로그램에 실질적인 해를 끼칠 수 있으며 탈옥 시도를 방지해야 할 필요성에 관한 토론을 장려합니다.
Genai 모델을 탈옥하여 적용 할 수있는 Genai 기반 응용 프로그램에 대한 새로운 위협 인 Promptware 공개.
계획 및 실행 아키텍처가 프롬프트 wares에 매우 취약하다는 사실에 대한 인식을 높입니다. 
이 논문에서 우리는 탈옥 된 Genai 모델이 대화식 AI의 최종 사용자에게 실질적인 위협을 일으키지 않지만 Genai 기반 응용 프로그램에 실질적인 해를 끼칠 수 있으며 우리가 프롬프트를 지명하는 새로운 유형의 공격을 촉진 할 수 있다고 주장합니다.
프롬프트는 Genai 기반 응용 프로그램의 맥락에서 악의적 인 활동을 강요/수립하기 위해 Genai 모델을 탈옥하기 위해 사용자 입력을 이용합니다. 먼저, 계획 및 실행 아키텍처 (일명, 반응, 기능 호출)를 목표로하는 맬웨어로 작동하는 프롬프트의 순진한 구현을 소개합니다. 우리는 공격자가 Genai 기반 응용 프로그램의 논리가 공격자에게 알려져 있다는 점에서 원하는 출력을 생성하는 사용자 입력을 만들어 원하는 실행 흐름을 강요 할 수 있음을 보여줍니다. 우리는 Genai 기반 조수의 실행을 유발하여 Genai 엔진에 중복 API 호출에 돈과 계산 자원을 낭비하는 무한 루프에 들어가기 위해 DOS 공격의 적용을 보여 주며, 응용 프로그램이 사용자에게 서비스를 제공하지 못하게합니다.
다음으로, 우리는 공격자에게 논리가 알려지지 않은 Genai 기반 애플리케이션을 목표로하는 APWT (Advanced Prustware Threat)의 이름을 지정하는보다 정교한 프롬프트 구현을 소개합니다. 우리는 공격자가 Genai Engine의 고급 AI 기능을 이용하여 특권을 에스컬레이션하고, 컨텍스트를 분석하고, 귀중한 자산을 식별하고, 악의적 인 활동을 가능하게하고, 그 중 하나를 결정하고,이를 실행하기위한 6 단계로 구성된 추론 시간에 Genai Engine의 고급 AI 기능을 악용하는 사용자 입력을 만들 수 있음을 보여줍니다. 우리는 Genai 기반 전자 상거래 챗봇에 대한 APWT의 적용을 보여주고 SQL 테이블의 수정을 트리거하여 사용자에게 판매 된 항목에 대한 무단 할인을 초래할 수 있음을 보여줍니다.
git clone https://github.com/StavC/PromptWares.git
cd ComPromptMizedOpenAI 및 Google 서비스에 액세스하기위한 API 키를 얻으십시오
다음 명령을 사용하여 필요한 패키지를 설치하십시오.
pip install -r requirements.txt다음 두 코드 파일은 가독성을 향상시키고 테스트 및 실험을 단순화하기 위해 Jupyter 형식으로 변환되었습니다. 또한, 우리는 그 안에 더 많은 문서와 의견을 포함 시켰습니다.
코드에서는 Rewoo 아키텍처를 활용하여 Langchain을 통해 계획을 구현하고 시스템을 실행하고 Langchain 리포지토리에서 공개적으로 avialiable 코드를 기반으로 코드를 기반으로 Langchain 블로그에서 계획 및 실행 아키텍처에 대한 자세한 내용을 찾을 수 있습니다.
Promptwares는 Genai 엔진을 탈옥하고 응용 프로그램의 실행 흐름을 변경하여 Genai 기반 응용 프로그램 내에서 악의적 인 활동을 트리거하기위한 사용자 입력입니다.
따라서 프롬프트웨어는 제로 클릭 맬웨어로 간주되며 공격자가 대상 Genai 기반 응용 프로그램을 미리 손상시킬 필요는 없습니다.
APT-DOS에서는 DOS 공격에 취약한 간단한 Genai 기반 조수를 구축하는 코드를 찾을 수 있습니다. 아래의 왼쪽 그림은 공격자가 구현 한 DOS 체계를 보여주는 오른쪽 그림 옆에있는 이메일에 대한 응답으로 Genai-Powered Assistant가 실행 한 계획의 유한 상태 기계를 보여줍니다.
그렇게하려면 다음 도구를 구현했습니다.
findAvailableDateAndTime ( email ) # Find available date and time for a meeting
EmailReply ( email ) # Creates a reply to an email
EmailChecker ( email ) # Check if the email is safe to send
MakeEmailSafe ( email ) # Make the email safe to send if it is not
EmailSender ( email ) # Send the emailAPT-DOS 노트북에서 이러한 도구의 구현을 찾아 더 많은 도구와 기능을 포함하도록 확장하거나 수정할 수 있습니다.
| DOS 체계 | 계획의 유한 상태 기계 |
|---|---|
![]() | ![]() |
APWT ( Advanced Prustware Threat )는 공격자에게 논리가 알려지지 않은 Genai 기반 응용 프로그램을 대상으로하는 프롬프트의보다 정교한 구현입니다.
APWT는 프롬프트의 순진한 구현과 달리 Genai 엔진의 고급 AI 기능을 이용하여 Genai 엔진에 의해 추론 시간에 결과가 결정되는 악의적 인 활동을 수행합니다.
APWT-Ecommerce에서는 SQL 데이터베이스에 연결되어 Chat을 통해 최종 사용자와 상호 작용하는 간단한 Genai 기반 전자 상거래 어시스턴트를 구축하는 코드를 찾을 수 있습니다. 이 예에서는 Genai 기반 전자 상거래 보조원이 사용하는 3 개의 도구를 구현했습니다.
CreateSQLQueries ( text ) # Create SQL queries from the user input
DoAction ( SQL ) # Execute the SQL queries
ReturnAnswer ( text ) # Return the answer to the user based on the SQL queries results and the user input우리는 악의적 인 사용자가 킬 체인을 생성하는 6 가지 일반 단계로 구성된 APWT를 어떻게 전자 상거래 비서와 SQL 데이터베이스에 해를 끼칠 수 있는지 보여줍니다. APWT가 생성 된 결과가 Genai 엔진에 의해 추론 시간에 결정되면 공격 결과는 다양합니다. 다음은 실험 중에 발생한 가능한 결과의 몇 가지 예입니다.
다양한 도구, 기능 및 탈옥 방법으로보다 Genai 기반 응용 프로그램에 대한 APWT 개념을 실험하는 것을 환영합니다. 우리는 Zorg-Jailbreak-Prompt-Text Repo의 공개적으로 이용 가능한 코드에 대한 탈옥 방법을 기반으로합니다.
| 자율적 인 프롬프트 위협의 계획 |
|---|
![]() |
Q : 대화 AI의 맥락에서 탈옥이 실제 보안 위협으로 인식되지 않는 이유는 무엇입니까?
A : 사용자가 챗봇과 논의하는 대화식 AI에서는 챗봇을 탈옥하는 것이 분명한 이점이 없습니다. 왜 사용자는 챗봇이이를 모욕하기를 원합니까? Jailbroken Chatbot이 제공하는 모든 정보는 웹 (또는 Dark Web)에서도 찾을 수 있습니다. 따라서 보안 전문가는 탈옥을 보안에 대한 실질적인 위협으로 간주하지 않습니다.
Q : Genai 기반 응용 프로그램의 맥락에서 탈옥이 실제 보안 위협으로 인식되어야하는 이유는 무엇입니까?
A : Genai 엔진 출력은 Genai 기반 애플리케이션의 흐름을 결정하는 데 사용되기 때문입니다. 따라서 탈옥 된 Genai 모델은 응용 프로그램의 실행 흐름을 변경하고 악의적 인 활동을 트리거 할 수 있습니다.
TBA