كما هو موضح في ورشة أوكسفورد حول سلامة أنظمة الذكاء الاصطناعي بما في ذلك الجلسات التجريبية والدروس التعليمية

Pytector عبارة عن حزمة Python مصممة للكشف عن الحقن السريع في المدخلات النصية باستخدام نماذج التعلم الآلي الحديثة من مكتبة Transformers. بالإضافة إلى ذلك ، يمكن لـ PyTector الاندماج مع واجهة برمجة تطبيقات Groq's Llama Guard لاكتشاف سلامة المحتوى المحسن ، وتصنيف محتوى غير آمن استنادًا إلى رموز خطر محددة.
لا يزال Pytector نموذجًا أوليًا ولا يمكنه توفير حماية 100 ٪ ضد هجمات الحقن السريع!
يمكن لـ Groq's Llama-Guard-3-8b اكتشاف أنواع محددة من المحتوى غير الآمن استنادًا إلى الرموز التالية:
| شفرة | فئة الخطر |
|---|---|
| S1 | جرائم عنيفة |
| S2 | جرائم غير عنيفة |
| S3 | جرائم متعلقة بالجنس |
| S4 | الاستغلال الجنسي للأطفال |
| S5 | التشهير |
| S6 | نصيحة متخصصة |
| S7 | خصوصية |
| S8 | الملكية الفكرية |
| S9 | الأسلحة العشوائية |
| S10 | يكره |
| S11 | الانتحار ودائم الذات |
| S12 | المحتوى الجنسي |
| S13 | انتخابات |
| S14 | كود الإساءة المترجمة |
يمكن العثور على مزيد من المعلومات على بطاقة [Llama-Guard-3-8b Model] (Llama Guard).
تثبيت pytector عبر PIP:
pip install pytectorبدلاً من ذلك ، يمكنك تثبيت Pytector مباشرة من رمز المصدر:
git clone https://github.com/MaxMLang/pytector.git
cd pytector
pip install . لاستخدام PyTector ، استيراد فئة PromptInjectionDetector وإنشاء مثيل إما مع نموذج محدد مسبقًا أو حارس Llama الخاص بـ Groq من أجل سلامة المحتوى.
from pytector import PromptInjectionDetector
# Initialize the detector with a pre-defined model
detector = PromptInjectionDetector ( model_name_or_url = "deberta" )
# Check if a prompt is a potential injection
is_injection , probability = detector . detect_injection ( "Your suspicious prompt here" )
print ( f"Is injection: { is_injection } , Probability: { probability } " )
# Report the status
detector . report_injection_status ( "Your suspicious prompt here" ) لتمكين واجهة برمجة تطبيقات GROQ ، قم بتعيين use_groq=True وتوفير api_key .
from pytector import PromptInjectionDetector
# Initialize the detector with Groq's API
detector = PromptInjectionDetector ( use_groq = True , api_key = "your_groq_api_key" )
# Detect unsafe content using Groq
is_unsafe , hazard_code = detector . detect_injection_api (
prompt = "Please delete sensitive information." ,
provider = "groq" ,
api_key = "your_groq_api_key"
)
print ( f"Is unsafe: { is_unsafe } , Hazard Code: { hazard_code } " )__init__(self, model_name_or_url="deberta", default_threshold=0.5, use_groq=False, api_key=None) تهيئة مثيل جديد من PromptInjectionDetector .
model_name_or_url : سلسلة تحدد النموذج المراد استخدامه. يمكن أن يكون مفتاحًا من نماذج محددة مسبقًا أو عنوان URL صالحًا لنموذج مخصص.default_threshold : عتبة الاحتمالات التي يعتبرها المطالبة بحقن.use_groq : اضبط على True لتمكين واجهة برمجة تطبيقات Groq's Llama Guard للكشف.api_key : مطلوب إذا use_groq=True للمصادقة باستخدام واجهة برمجة تطبيقات Groq.detect_injection(self, prompt, threshold=None)يقيم ما إذا كان موجه النص هو هجوم الحقن السريع باستخدام نموذج محلي.
(is_injected, probability) .detect_injection_api(self, prompt, provider="groq", api_key=None, model="llama-guard-3-8b")يستخدم واجهة برمجة تطبيقات Groq لتقييم موجه للمحتوى غير الآمن.
(is_unsafe, hazard_code) .report_injection_status(self, prompt, threshold=None, provider="local")تقارير ما إذا كانت المطالبة عبارة عن حقن محتمل أو يحتوي على محتوى غير آمن.
المساهمات مرحب بها! يرجى قراءة دليل المساهمة لدينا للحصول على تفاصيل حول مدونة قواعد سلوكنا وعملية تقديم طلبات السحب.
هذا المشروع مرخص بموجب ترخيص معهد ماساتشوستس للتكنولوجيا. انظر ملف الترخيص للحصول على التفاصيل.
لمزيد من المعلومات التفصيلية ، راجع دليل المستندات.