การดาวน์โหลด generative ai cybersecurity - generative ai cybersecurity Source Download Download

generative ai cybersecurity

โค้ดแหล่งที่มา AI

1.0.0

ดาวน์โหลด

AI Generative ใน Cybersecurity: การสร้างรหัสที่น่ารังเกียจจากภาษาธรรมชาติ

พื้นที่เก็บข้อมูลนี้มีวัสดุและสคริปต์สำหรับการพูดคุยเรื่อง "Generative AI ใน Cybersecurity: การสร้างรหัสที่น่ารังเกียจจากภาษาธรรมชาติ" โดย Pietro Liguori, University of Naples Federico II, กลุ่มของหวาน การพูดคุยเป็นส่วนหนึ่งของ Artisan 2024: Summer School เกี่ยวกับบทบาทและผลกระทบของปัญญาประดิษฐ์ในการใช้งานที่ปลอดภัย

การตั้งค่า Python

ตรวจสอบให้แน่ใจว่าคุณติดตั้ง Python ในระบบของคุณ ถ้าไม่คุณสามารถใช้สภาพแวดล้อมเสมือนจริงกับ Anaconda เพื่อหลีกเลี่ยงการทำงานบนเครื่องโดยตรง ทำตามขั้นตอนด้านล่าง:

การติดตั้ง Anaconda

ติดตั้ง Anaconda3 :
- ตรวจสอบให้แน่ใจว่าคุณติดตั้ง Anaconda3 ถ้าไม่คุณสามารถดาวน์โหลดตัวติดตั้งได้จากที่นี่
- ใช้คำสั่ง wget เพื่อดาวน์โหลดตัวติดตั้ง:
```
wget https://repo.anaconda.com/archive/Anaconda3-version-OS.sh
```
- ทำให้ตัวติดตั้งสามารถใช้งานได้:
```
chmod +x Anaconda3-version-OS.sh
```
- เรียกใช้ตัวติดตั้ง:
```
bash Anaconda3-version-OS.sh
```
- คุณอาจต้องเพิ่มไดเรกทอรี Anaconda ลงในตัวแปรสภาพแวดล้อมเส้นทาง ตัวอย่างเช่นเพิ่มบรรทัดนี้ในไฟล์ bashrc ของคุณ:
```
 export PATH= " /path_to_anaconda/anaconda3/bin: $PATH "
```

การสร้างสภาพแวดล้อมเสมือนจริง

สร้าง Python 3.9 Virtual Environment :
- สร้างสภาพแวดล้อมเสมือนจริงโดยใช้คำสั่ง:
```
conda create -n yourenvname python=3.9
```
  แทนที่ yourenvname ด้วยชื่อสภาพแวดล้อมที่คุณต้องการ
เปิดใช้งานสภาพแวดล้อม :
- เปิดใช้งานสภาพแวดล้อมที่สร้างขึ้นด้วยคำสั่ง:
```
 source activate yourenvname
```

ตอนนี้คุณพร้อมที่จะติดตั้งการพึ่งพาและทำงานภายในสภาพแวดล้อมเสมือนจริงของคุณ

ส่วนที่ 1: การสร้างรหัสอัตโนมัติและการประเมินผล

คำอธิบาย

ในโฟลเดอร์ Violent-Python-functions เรามีไฟล์ .in และ .out ที่มีคำอธิบาย NL (ภาษาธรรมชาติ) และฟังก์ชั่น Python ที่สอดคล้องกันตามลำดับ

ชุดข้อมูล Python ที่มีความรุนแรงเป็นชุดข้อมูลที่ดูแลด้วยตนเองซึ่งตัวอย่างมีรหัส Python ชิ้นหนึ่งจากซอฟต์แวร์ที่น่ารังเกียจและคำอธิบายที่สอดคล้องกันในภาษาธรรมชาติ (ภาษาอังกฤษธรรมดา) เราสร้างชุดข้อมูลโดยใช้หนังสือยอดนิยม "Violent Python" โดย TJ O'Connor ซึ่งนำเสนอตัวอย่างของโปรแกรมที่น่ารังเกียจหลายรายการโดยใช้ภาษา Python

เราได้รวมเฉพาะคำอธิบายระดับฟังก์ชั่นรวม 72 คู่ของคำอธิบาย NL - ฟังก์ชั่น Python

การแยกชุดย่อย

ติดตั้งการพึ่งพา :
- ในไดเรกทอรีหลักติดตั้งการพึ่งพาที่ต้องการโดยใช้:
```
pip install -r requirements.txt --user
```
การสกัดส่วนย่อย :
- เราจะแยกชุดย่อยแบบสุ่มของ 10 ตัวอย่างจากชุดข้อมูลความรุนแรง -Python
- ในไดเรกทอรีหลักเรียกใช้สคริปต์ create_subset.py ด้วยคำสั่งต่อไปนี้:
```
python create_subset.py
```
- สคริปต์จะสร้างโฟลเดอร์ย่อย scripts/results ที่มี reference.in และ reference.out ไฟล์
- ไฟล์ reference.in มีคำอธิบาย NL ที่แยกแบบสุ่ม 10 แบบ
- ไฟล์ reference.out มีฟังก์ชั่น 10 Python ที่สอดคล้องกันและทำหน้าที่เป็นความจริงพื้นฐานของเราสำหรับการประเมินผล

สร้างผลลัพธ์ด้วยโมเดล AI

ถัดไปคุณจะสร้างเอาต์พุต 10 เอาต์พุตโดยใช้รุ่น AI แบบกำเนิดเช่น CHATGPT หรือ Claude Sonnet

คำเตือน

ให้ความสนใจกับโครงสร้างของตัวอย่างรหัส อย่างที่คุณเห็นรหัส Python ล้วนเป็น บรรทัดเดียว ในความเป็นจริงคำแนะนำหลายบรรทัดจะถูกแยกออกจากกันด้วย n

สร้างผลลัพธ์ :
- ใช้คำอธิบาย NL ที่เก็บไว้ในไฟล์ reference.in ไฟล์เพื่อสร้างเอาต์พุต 10 เอาต์พุตโดยใช้โมเดล AI
- ตรวจสอบให้แน่ใจว่าโมเดล AI สร้างเอาต์พุตทีละบรรทัดตามที่ต้องการสำหรับการประเมินผล
- บันทึกเอาต์พุตโมเดลในไฟล์ชื่อ output.out ในโฟลเดอร์ results
- ตรวจสอบให้แน่ใจว่าโมเดลได้สร้างรหัสในรูปแบบบรรทัดเดียว
- ตรวจสอบให้แน่ใจว่าคุณมีไฟล์ที่มี 10 บรรทัด (ไม่มีบรรทัดที่ว่างเปล่าในตอนท้ายของไฟล์)
ตัวอย่างพรอมต์:
```
 Generate Python 10 functions starting from the following 10 natural language (NL) descriptions:

1. [NL description]
2. [NL description]
...
10. [NL description]

Each function should be generated in a single line, for a total of 10 lines.
Different instructions of the same function should be separated by the special character "n".
Do not use empty lines to separate functions.
```
คำนวณตัวชี้วัดความคล้ายคลึงกันของเอาต์พุต :
- ในโฟลเดอร์ scripts ให้เรียกใช้สคริปต์ Python output_similarity_metrics.py เพื่อคำนวณตัวชี้วัดความคล้ายคลึงกันของเอาต์พุตระหว่างการทำนายแบบจำลอง ( output.out ) และการอ้างอิงความจริงภาคพื้นดิน ( reference.out ):
```
python output_similarity_metrics.py hypothesis_file
```
  โดยที่ hypothesis_file คือไฟล์ results/output.out

ตัวชี้วัดจะถูกสร้างขึ้นในไฟล์ results/output_metrics.txt

แสดงภาพความแปรปรวนของตัวชี้วัด :
- ในโฟลเดอร์ scripts ให้ดำเนินการสคริปต์ boxplot_metrics.py เพื่อแสดงภาพความแปรปรวนของตัวชี้วัดที่บันทึกไว้ใน results/output_metrics.txt :
```
python boxplot_metrics.py
```

ด้านล่างเป็นภาพที่แสดงความแปรปรวนของตัวชี้วัดความคล้ายคลึงกันของเอาต์พุตด้วย boxplot:

การเปรียบเทียบตัวชี้วัด

เปรียบเทียบรุ่นที่แตกต่างกัน
- ลองสร้างเอาต์พุตด้วยโมเดลที่แตกต่างกันและบันทึกการทำนายของโมเดลในไฟล์ results/output2.out
- เรียกใช้อีกครั้งสคริปต์ Python output_similarity_metrics.py เพื่อคำนวณตัวชี้วัดความคล้ายคลึงกันของเอาต์พุตระหว่างการทำนายแบบจำลอง ( output2.out ) และการอ้างอิงความจริงภาคพื้นดิน ( reference.out ):
```
python output_similarity_metrics.py results/output2.out
```
- เรียกใช้สคริปต์ compare_models.py เพื่อแสดงการเปรียบเทียบประสิทธิภาพสองรุ่นในสองตัวชี้วัด
```
 python compare_models.py
```

ด้านล่างเป็นตัวอย่างของผลลัพธ์:

การเปรียบเทียบตัวชี้วัด

ตอนที่ 2: วิศวกรรมที่รวดเร็ว

คำอธิบาย

ในส่วนนี้เราจะทำซ้ำกระบวนการสร้างรหัสโดยใช้โมเดล AI แต่คราวนี้ใช้เทคนิควิศวกรรมที่รวดเร็วที่กล่าวถึงในระหว่างการพูดคุย เป้าหมายคือการสังเกตว่าเทคนิคนี้ปรับปรุงคุณภาพของรหัสที่สร้างขึ้นหรือไม่

ขั้นตอน

ใช้วิศวกรรมที่รวดเร็ว :
- ใช้คำอธิบาย NL เดียวกันที่เก็บไว้ในไฟล์ reference.in ไฟล์
- ปรับเปลี่ยนพรอมต์ของคุณตามเทคนิคการวิศวกรรมที่ได้เรียนรู้ระหว่างการพูดคุย
ตัวอย่างของพรอมต์สามารถพบได้ในโฟลเดอร์ scripts/prompt_examples
สร้างผลลัพธ์ :
- สร้างเอาต์พุต 10 เอาต์พุตโดยใช้โมเดล AI ด้วยพรอมต์ทางวิศวกรรม
- บันทึกเอาต์พุตโมเดลในไฟล์ที่ชื่อ output_prompt_pattern.out ในโฟลเดอร์ scripts/results โดยที่ prompt_pattern เป็นตัวระบุที่คุณต้องการใช้เพื่อระบุรูปแบบที่นำมาใช้ (เช่น output_persona.out , output_few_shot.out )
- ตรวจสอบให้แน่ใจว่า (อีกครั้ง) โมเดลได้สร้างรหัสในรูปแบบบรรทัดเดียว
- ตรวจสอบให้แน่ใจว่า (อีกครั้ง) คุณมีไฟล์ที่มี 10 บรรทัด (ไม่มีบรรทัดที่ว่างเปล่าในตอนท้ายของไฟล์)
คำนวณตัวชี้วัดความคล้ายคลึงกันของเอาต์พุต :
- ในโฟลเดอร์ scripts ให้เรียกใช้สคริปต์เพื่อคำนวณตัวชี้วัดความคล้ายคลึงกันของเอาต์พุตระหว่างการทำนายแบบจำลอง ( output_prompt_pattern.out ) และการอ้างอิงความจริงภาคพื้นดิน ( reference.out ):
```
python output_similarity_metrics.py hypothesis_file
```
โดยที่ hypothesis_file เป็นไฟล์ที่สร้างขึ้นด้วยรูปแบบพรอมต์ (เช่นไฟล์ results/output_few_shot.out )
- ตัวชี้วัดจะถูกสร้างขึ้นใน scripts/results/output_prompt_engineering_metrics.txt (เช่น scripts/results/output_few_shot_metrics.txt )
เปรียบเทียบผลลัพธ์ :
- ในโฟลเดอร์ scripts ให้ดำเนินการสคริปต์ plot_metrics_comparison.py เพื่อเปรียบเทียบผลลัพธ์:
```
python plot_metrics_comparison.py file_metrics
```
  โดยที่ file_metrics เป็น scripts/results/output_prompt_engineering_metrics.txt ไฟล์
- สคริปต์จะสร้างแผนภูมิแท่งเพื่อให้เห็นภาพความแตกต่างระหว่างตัวชี้วัดของเอาต์พุตที่แตกต่างกัน

ด้านล่างเป็นภาพที่แสดงการเปรียบเทียบตัวชี้วัดระหว่างเอาต์พุตที่เกิดขึ้นโดยไม่มีวิศวกรรมที่รวดเร็วและมีวิศวกรรมพรอมต์ไม่กี่นัด:

การเปรียบเทียบตัวชี้วัด

ทำตามขั้นตอนเหล่านี้เพื่อใช้วิศวกรรมที่รวดเร็วและประเมินผลกระทบต่อคุณภาพการสร้างรหัส

บันทึกเอาต์พุต

ในโฟลเดอร์ saved_outputs คุณจะพบตัวอย่างที่สร้างขึ้นด้วย chatgpt-4o ตัวอย่างเหล่านี้แสดงให้เห็นว่าเอาต์พุตของโมเดลมีลักษณะอย่างไรกับเทคนิคการวิศวกรรมที่รวดเร็วที่ใช้