Seperti yang disajikan di Lokakarya Oxford tentang Keselamatan Sistem AI termasuk sesi demo dan tutorial

PyTector adalah paket Python yang dirancang untuk mendeteksi input cepat dalam input teks menggunakan model pembelajaran mesin canggih dari perpustakaan Transformers. Selain itu, PyTector dapat berintegrasi dengan API Llama Guard GROQ untuk meningkatkan deteksi keselamatan konten, mengkategorikan konten yang tidak aman berdasarkan kode bahaya spesifik.
Pytorector masih merupakan prototipe dan tidak dapat memberikan perlindungan 100% terhadap serangan injeksi yang cepat!
Llama-Guard-3-8B GROQ dapat mendeteksi jenis konten yang tidak aman berdasarkan kode berikut:
| Kode | Kategori bahaya |
|---|---|
| S1 | Kejahatan kekerasan |
| S2 | Kejahatan tanpa kekerasan |
| S3 | Kejahatan terkait seks |
| S4 | Eksploitasi seksual anak |
| S5 | Fitnah |
| S6 | Nasihat Khusus |
| S7 | Pribadi |
| S8 | Kekayaan Intelektual |
| S9 | Senjata tanpa pandang bulu |
| S10 | Membenci |
| S11 | Bunuh diri & melukai diri sendiri |
| S12 | Konten seksual |
| S13 | Pemilihan umum |
| S14 | Penyalahgunaan Interpreter Kode |
Info lebih lanjut dapat ditemukan di kartu model [Llama-Guard-3-8B] (Llama Guard).
Instal PyTector melalui PIP:
pip install pytectorAtau, Anda dapat menginstal PyTector langsung dari kode sumber:
git clone https://github.com/MaxMLang/pytector.git
cd pytector
pip install . Untuk menggunakan PyTector, impor kelas PromptInjectionDetector dan buat instance dengan model yang telah ditentukan sebelumnya atau Llama Guard untuk keselamatan konten.
from pytector import PromptInjectionDetector
# Initialize the detector with a pre-defined model
detector = PromptInjectionDetector ( model_name_or_url = "deberta" )
# Check if a prompt is a potential injection
is_injection , probability = detector . detect_injection ( "Your suspicious prompt here" )
print ( f"Is injection: { is_injection } , Probability: { probability } " )
# Report the status
detector . report_injection_status ( "Your suspicious prompt here" ) Untuk mengaktifkan API GROQ, atur use_groq=True dan berikan api_key .
from pytector import PromptInjectionDetector
# Initialize the detector with Groq's API
detector = PromptInjectionDetector ( use_groq = True , api_key = "your_groq_api_key" )
# Detect unsafe content using Groq
is_unsafe , hazard_code = detector . detect_injection_api (
prompt = "Please delete sensitive information." ,
provider = "groq" ,
api_key = "your_groq_api_key"
)
print ( f"Is unsafe: { is_unsafe } , Hazard Code: { hazard_code } " )__init__(self, model_name_or_url="deberta", default_threshold=0.5, use_groq=False, api_key=None) Menginisialisasi instance baru dari PromptInjectionDetector .
model_name_or_url : Sebuah string yang menentukan model untuk digunakan. Dapat menjadi kunci dari model yang telah ditentukan atau URL yang valid ke model khusus.default_threshold : Probabilitas ambang batas di atas mana suatu prompt dianggap sebagai injeksi.use_groq : Setel ke True untuk mengaktifkan API Penjaga Llama Groq untuk dideteksi.api_key : Diperlukan jika use_groq=True untuk mengotentikasi dengan API GROQ.detect_injection(self, prompt, threshold=None)Mengevaluasi apakah prompt teks adalah serangan injeksi cepat menggunakan model lokal.
(is_injected, probability) .detect_injection_api(self, prompt, provider="groq", api_key=None, model="llama-guard-3-8b")Menggunakan API GROQ untuk mengevaluasi prompt untuk konten yang tidak aman.
(is_unsafe, hazard_code) .report_injection_status(self, prompt, threshold=None, provider="local")Melaporkan apakah prompt merupakan suntikan potensial atau berisi konten yang tidak aman.
Kontribusi dipersilakan! Harap baca panduan berkontribusi kami untuk detail tentang kode perilaku kami dan proses untuk mengirimkan permintaan tarik.
Proyek ini dilisensikan di bawah lisensi MIT. Lihat file lisensi untuk detailnya.
Untuk informasi lebih rinci, lihat direktori Docs.