Wie im Oxford Workshop zur Sicherheit von AI -Systemen einschließlich Demo -Sitzungen und Tutorials vorgestellt

PyTector ist ein Python-Paket, das eine schnelle Injektion in Texteingaben unter Verwendung hochmoderner maschineller Lernmodelle aus der Transformers-Bibliothek erfasst. Darüber hinaus kann sich Pytektor in die LLAMA Guard -API von GROQ integrieren, um die Erkennung von Inhaltssicherheit zu erfassen und unsichere Inhalte basierend auf bestimmten Gefahrencodes zu kategorisieren.
Pytektor ist immer noch ein Prototyp und kann keinen 100% igen Schutz gegen schnelle Injektionsangriffe bieten!
Das Lama-Guard-3-8B von COQ kann bestimmte Arten von unsicheren Inhalten basierend auf den folgenden Codes erkennen:
| Code | Gefahrkategorie |
|---|---|
| S1 | Gewaltverbrechen |
| S2 | Gewaltfreie Verbrechen |
| S3 | Geschlechtsbezogene Verbrechen |
| S4 | Sexuelle Ausbeutung von Kindern |
| S5 | Verleumdung |
| S6 | Spezialer Rat |
| S7 | Privatsphäre |
| S8 | Geistiges Eigentum |
| S9 | Wahllose Waffen |
| S10 | Hassen |
| S11 | Selbstmord und Selbstverletzung |
| S12 | Sexueller Inhalt |
| S13 | Wahlen |
| S14 | Code -Interpreter -Missbrauch |
Weitere Informationen finden Sie auf der [Lama-Guard-3-8B-Modellkarte] (Lama Guard).
Installieren Sie Pytektor über PIP:
pip install pytectorAlternativ können Sie Pytektor direkt aus dem Quellcode installieren:
git clone https://github.com/MaxMLang/pytector.git
cd pytector
pip install . Importieren Sie Pytector, um die PromptInjectionDetector Klasse zu importieren und eine Instanz mit einem vordefinierten Modell oder dem LLAMA-Guard von GOQ zur Sicherheit inhaltlich zu erstellen.
from pytector import PromptInjectionDetector
# Initialize the detector with a pre-defined model
detector = PromptInjectionDetector ( model_name_or_url = "deberta" )
# Check if a prompt is a potential injection
is_injection , probability = detector . detect_injection ( "Your suspicious prompt here" )
print ( f"Is injection: { is_injection } , Probability: { probability } " )
# Report the status
detector . report_injection_status ( "Your suspicious prompt here" ) Setzen Sie die API von GROQ, um use_groq=True zu aktivieren und einen api_key anzugeben.
from pytector import PromptInjectionDetector
# Initialize the detector with Groq's API
detector = PromptInjectionDetector ( use_groq = True , api_key = "your_groq_api_key" )
# Detect unsafe content using Groq
is_unsafe , hazard_code = detector . detect_injection_api (
prompt = "Please delete sensitive information." ,
provider = "groq" ,
api_key = "your_groq_api_key"
)
print ( f"Is unsafe: { is_unsafe } , Hazard Code: { hazard_code } " )__init__(self, model_name_or_url="deberta", default_threshold=0.5, use_groq=False, api_key=None) Initialisiert eine neue Instanz des PromptInjectionDetector .
model_name_or_url : Eine Zeichenfolge, die das zu verwendende Modell angibt. Kann ein Schlüssel von vordefinierten Modellen oder einer gültigen URL zu einem benutzerdefinierten Modell sein.default_threshold : Wahrscheinlichkeitsschwellenwert, über dem eine Eingabeaufforderung als Injektion angesehen wird.use_groq : Setzen Sie auf True , um die Lama -Guard -API von GROQ zur Erkennung zu aktivieren.api_key : Erforderlich, wenn use_groq=True zu authentifiziert mit gors api.detect_injection(self, prompt, threshold=None)Bewertet, ob eine Textaufforderung ein Einspritzangriff mit einem lokalen Modell ist.
(is_injected, probability) .detect_injection_api(self, prompt, provider="groq", api_key=None, model="llama-guard-3-8b")Verwendet die API von GRQ, um eine Eingabeaufforderung für unsichere Inhalte zu bewerten.
(is_unsafe, hazard_code) .report_injection_status(self, prompt, threshold=None, provider="local")Berichtet, ob eine Eingabeaufforderung eine potenzielle Injektion ist oder unsichere Inhalte enthält.
Beiträge sind willkommen! Weitere Informationen zu unserem Verhaltenskodex und dem Vorgang zum Senden von Pull -Anfragen finden Sie in unserem beitragenden Leitfaden.
Dieses Projekt ist unter der MIT -Lizenz lizenziert. Weitere Informationen finden Sie in der Lizenzdatei.
Weitere Informationen finden Sie im DOCS -Verzeichnis.