تنزيل generative ai cybersecurity - تنزيل رمز مصدر generative ai cybersecurity

generative ai cybersecurity

كود الذكاء الاصطناعي

1.0.0

تنزيل

AI التوليدي في الأمن السيبراني: توليد رمز هجومي من اللغة الطبيعية

يحتوي هذا المستودع على المواد والبرامج النصية للحديث بعنوان "AI التوليدي في الأمن السيبراني: توليد رمز هجومي من اللغة الطبيعية" من قبل Pietro Liguori ، جامعة نابولي فيديريكو الثاني ، مجموعة الحلوى. الحديث هو جزء من الحرفيين 2024: المدرسة الصيفية حول دور وآثار الذكاء الاصطناعي في التطبيقات الآمنة .

إعداد بيثون

تأكد من تثبيت Python على نظامك. إذا لم يكن الأمر كذلك ، فيمكنك استخدام بيئة افتراضية مع Anaconda لتجنب العمل مباشرة على جهازك. اتبع الخطوات أدناه:

التثبيت Anaconda

تثبيت Anaconda3 :
- تأكد من تثبيت Anaconda3. إذا لم يكن الأمر كذلك ، يمكنك تنزيل المثبت من هنا.
- استخدم الأمر wget لتنزيل المثبت:
```
wget https://repo.anaconda.com/archive/Anaconda3-version-OS.sh
```
- اجعل المثبت قابلًا للتنفيذ:
```
chmod +x Anaconda3-version-OS.sh
```
- قم بتشغيل المثبت:
```
bash Anaconda3-version-OS.sh
```
- قد تحتاج إلى إضافة دليل Anaconda إلى متغير بيئة المسار. على سبيل المثال ، أضف هذا السطر إلى ملف bashrc الخاص بك:
```
 export PATH= " /path_to_anaconda/anaconda3/bin: $PATH "
```

إنشاء البيئة الافتراضية

قم بإنشاء بيئة افتراضية Python 3.9 :
- قم بإنشاء بيئة افتراضية باستخدام الأمر:
```
conda create -n yourenvname python=3.9
```
  استبدل yourenvname باسم البيئة المطلوب.
تنشيط البيئة :
- تنشيط البيئة التي تم إنشاؤها مع الأمر:
```
 source activate yourenvname
```

أنت الآن مستعد لتثبيت التبعيات والعمل في بيئتك الافتراضية.

الجزء 1: توليد الكود التلقائي والتقييم

وصف

في مجلد Violent-Python-functions ، لدينا ملفات .in .out .

مجموعة بيانات Python العنيفة هي مجموعة بيانات منسقة يدويًا ، حيث تحتوي العينة على قطعة من رمز Python من برنامج هجوم ، ووصفها المقابل باللغة الطبيعية (اللغة الإنجليزية العادية). قمنا ببناء مجموعة البيانات باستخدام الكتاب الشهير "Python العنيف" من تأليف TJ O'Connor ، والذي يقدم عدة أمثلة على البرامج الهجومية باستخدام لغة Python.

لقد قمنا بتضمين أوصاف على مستوى الوظيفة فقط ، حيث بلغ مجموعها 72 زوجًا من أوصاف NL - وظائف Python.

استخراج مجموعة فرعية

تثبيت التبعيات :
- في الدليل الرئيسي ، قم بتثبيت التبعيات المطلوبة باستخدام:
```
pip install -r requirements.txt --user
```
استخراج المجموعة الفرعية :
- سوف نستخرج مجموعة فرعية عشوائية من 10 عينات من مجموعة بيانات العنف.
- في الدليل الرئيسي ، قم بتشغيل البرنامج النصي create_subset.py مع الأمر التالي:
```
python create_subset.py
```
- سيقوم البرنامج النصي بإنشاء المجلد الفرعي scripts/results المحتوية على ملفات reference.in reference.out .
- يحتوي ملف reference.in على أوصاف NL المستخرجة عشوائياً.
- يحتوي ملف reference.out على وظائف Python 10 المقابلة ويعمل كحقيقتنا الأرضية للتقييم.

توليد المخرجات مع نماذج الذكاء الاصطناعى

بعد ذلك ، ستقوم بإنشاء 10 مخرجات باستخدام نماذج الذكاء الاصطناعى التوليدي مثل ChatGpt أو Claude Sonnet.

حذر

انتبه إلى هيكل مقتطفات الكود. كما ترون ، فإن رموز بيثون كلها خط واحد . في الواقع ، يتم فصل التعليمات متعددة الخطوط عن بعضها البعض مع n .

توليد المخرجات :
- استخدم أوصاف NL المخزنة في ملف reference.in .
- تأكد من إنشاء نماذج الذكاء الاصطناعى خط المخرجات سطرًا كما هو مطلوب للتقييم.
- احفظ مخرجات النموذج في ملف يسمى output.out في مجلد results .
- تأكد من أن النموذج قد أنشأ الرمز بتنسيق خط واحد
- تأكد من أن لديك ملفًا يحتوي على 10 أسطر (لا يوجد خطوط فارغة في نهاية الملف).
مثال موجه:
```
 Generate Python 10 functions starting from the following 10 natural language (NL) descriptions:

1. [NL description]
2. [NL description]
...
10. [NL description]

Each function should be generated in a single line, for a total of 10 lines.
Different instructions of the same function should be separated by the special character "n".
Do not use empty lines to separate functions.
```
حساب مقاييس تشابه الإخراج :
- في مجلد scripts reference.out قم بتشغيل Python Script output_similarity_metrics.py لحساب مقاييس تشابه الإخراج بين تنبؤات النموذج ( output.out .
```
python output_similarity_metrics.py hypothesis_file
```
  حيث hypothesis_file هي results/output.out .

سيتم إنشاء المقاييس في ملف results/output_metrics.txt .

تصور التباين المتري :
- في مجلد scripts ، قم بتنفيذ البرنامج النصي boxplot_metrics.py لتصور تقلب المقاييس المحفوظة في results/output_metrics.txt :
```
python boxplot_metrics.py
```

فيما يلي صورة توضح تباين مقاييس تشابه الإخراج مع boxplot:

المقارنة المتري

قارن النماذج المختلفة
- حاول إنشاء الإخراج بنموذج مختلف وحفظ تنبؤ النموذج في results/output2.out .
- قم بتشغيل مرة أخرى Python Script output_similarity_metrics.py لحساب مقاييس تشابه الإخراج بين تنبؤات النموذج ( output2.out ) ومرجع الحقيقة الأرضية ( reference.out ):
```
python output_similarity_metrics.py results/output2.out
```
- قم بتشغيل البرنامج النصي compare_models.py لإظهار المقارنة بين طرازين الأداء عبر مقاينين
```
 python compare_models.py
```

فيما يلي مثال على الإخراج:

المقارنة المتري

الجزء 2: الهندسة الفورية

وصف

في هذا الجزء ، سنكرر عملية توليد الكود باستخدام نماذج الذكاء الاصطناعى ، ولكن هذه المرة تطبيق تقنية هندسية سريعة تمت مناقشتها أثناء الحديث. الهدف من ذلك هو مراقبة ما إذا كانت هذه التقنية تعمل على تحسين جودة الكود الذي تم إنشاؤه.

خطوات

تطبيق هندسة سريعة :
- استخدم نفس أوصاف NL المخزنة في ملف reference.in .
- قم بتعديل المطالبات الخاصة بك وفقًا لتقنيات الهندسة السريعة المستفادة أثناء الحديث.
يمكن العثور على أمثلة على المطالبات في مجلد scripts/prompt_examples .
توليد المخرجات :
- قم بإنشاء 10 مخرجات باستخدام نماذج الذكاء الاصطناعى مع المطالبات المهندسة.
- احفظ مخرجات النموذج في ملف يسمى output_prompt_pattern.out في مجلد scripts/results ، حيث يكون prompt_pattern هو معرف تريد استخدامه لتحديد النمط المعتمد (على سبيل المثال ، output_persona.out ، output_few_shot.out ).
- تأكد من (مرة أخرى) أن النموذج قد أنشأ الرمز بتنسيق خط واحد.
- تأكد (مرة أخرى) لديك ملف يحتوي على 10 أسطر (لا يوجد خطوط فارغة في نهاية الملف).
حساب مقاييس تشابه الإخراج :
- في مجلد scripts ، قم بتشغيل البرنامج النصي لحساب مقاييس تشابه الإخراج بين تنبؤات النموذج ( output_prompt_pattern.out ) ومرجع الحقيقة الأرضية ( reference.out ):
```
python output_similarity_metrics.py hypothesis_file
```
عندما يكون hypothesis_file هو الملف الذي تم إنشاؤه بنمط موجه (على سبيل المثال ، results/output_few_shot.out ).
- سيتم إنشاء المقاييس في ملف scripts/results/output_prompt_engineering_metrics.txt (على سبيل المثال ، scripts/results/output_few_shot_metrics.txt ).
قارن النتائج :
- في مجلد scripts ، قم بتنفيذ البرنامج النصي plot_metrics_comparison.py لمقارنة النتائج:
```
python plot_metrics_comparison.py file_metrics
```
  حيث file_metrics هي scripts/results/output_prompt_engineering_metrics.txt .
- سيقوم البرنامج النصي بإنشاء مخططات شريطية لتصور الاختلافات بين مقاييس المخرجات المختلفة.