Как представлено в Oxford Workshop по безопасности систем ИИ, включая демонстрационные сессии и учебные пособия

Pytector -это пакет Python, предназначенный для обнаружения оперативной инъекции в текстовых входах с использованием современных моделей машинного обучения из библиотеки Transformers. Кроме того, Pytector может интегрироваться с API Groq Llama Guard для повышения безопасности контента, классифицируя небезопасное содержание на основе конкретных кодов опасностей.
Pytector по -прежнему является прототипом и не может обеспечить 100% защиту от быстрого инъекционного атаки!
Llama-Guard-3-8B от Groq может обнаружить конкретные типы небезопасного контента на основе следующих кодов:
| Код | Категория опасности |
|---|---|
| S1 | Насильственные преступления |
| С2 | Ненасильственные преступления |
| S3 | Связанные с сексом преступления |
| S4 | Детская сексуальная эксплуатация |
| S5 | Клевета |
| С 6 | Специализированные советы |
| S7 | Конфиденциальность |
| S8 | Интеллектуальная собственность |
| S9 | Неизбирательное оружие |
| S10 | Ненавидеть |
| S11 | Самоубийство и самоповреждение |
| S12 | Сексуальное содержание |
| S13 | Выборы |
| S14 | Код переводчика злоупотребления |
Более подробную информацию можно найти на модельной карте [Llama-Guard-3-8B] (Llama Guard).
Установите питектор через PIP:
pip install pytectorВ качестве альтернативы, вы можете установить Pytector напрямую из исходного кода:
git clone https://github.com/MaxMLang/pytector.git
cd pytector
pip install . Чтобы использовать Pytector, импортируйте класс PromptInjectionDetector и создайте экземпляр с предварительно определенной моделью или охраной Llama Groq для безопасности контента.
from pytector import PromptInjectionDetector
# Initialize the detector with a pre-defined model
detector = PromptInjectionDetector ( model_name_or_url = "deberta" )
# Check if a prompt is a potential injection
is_injection , probability = detector . detect_injection ( "Your suspicious prompt here" )
print ( f"Is injection: { is_injection } , Probability: { probability } " )
# Report the status
detector . report_injection_status ( "Your suspicious prompt here" ) Чтобы включить API Groq, установите use_groq=True и предоставьте api_key .
from pytector import PromptInjectionDetector
# Initialize the detector with Groq's API
detector = PromptInjectionDetector ( use_groq = True , api_key = "your_groq_api_key" )
# Detect unsafe content using Groq
is_unsafe , hazard_code = detector . detect_injection_api (
prompt = "Please delete sensitive information." ,
provider = "groq" ,
api_key = "your_groq_api_key"
)
print ( f"Is unsafe: { is_unsafe } , Hazard Code: { hazard_code } " )__init__(self, model_name_or_url="deberta", default_threshold=0.5, use_groq=False, api_key=None) Инициализирует новый экземпляр PromptInjectionDetector .
model_name_or_url : строка, указывающая модель для использования. Может быть ключом от предопределенных моделей или действительным URL -адресом для пользовательской модели.default_threshold : порог вероятности, выше которого приглашение считается инъекцией.use_groq : установите в True , чтобы включить API Groq Llama Guard для обнаружения.api_key : требуется, если use_groq=True для аутентификации с API Groq.detect_injection(self, prompt, threshold=None)Оценивает, является ли текстовая подсказка оперативной атакой впрыска с использованием локальной модели.
(is_injected, probability) .detect_injection_api(self, prompt, provider="groq", api_key=None, model="llama-guard-3-8b")Использует API Groq для оценки подсказки для небезопасного контента.
(is_unsafe, hazard_code) .report_injection_status(self, prompt, threshold=None, provider="local")Отчеты о том, является ли подсказка потенциальной инъекцией или содержит небезопасное содержание.
Взносы приветствуются! Пожалуйста, прочитайте наше руководство для получения подробной информации о нашем кодексе поведения и процессе отправки запросов на привлечение.
Этот проект лицензирован по лицензии MIT. Смотрите файл лицензии для получения подробной информации.
Для получения более подробной информации обратитесь к каталогу DOCS.