generative ai cybersecurity Download - generative ai cybersecurity Quellcode Download

generative ai cybersecurity

AI-Quellcode

1.0.0

Herunterladen

Generative KI in der Cybersicherheit: Generierung von Offensivcode aus der natürlichen Sprache generieren

Dieses Repository enthält die Materialien und Skripte für den Vortrag mit dem Titel "Generative AI in Cybersicherheit: Erzeugung von Offensivcode aus der Natursprache" von Pietro Liguori, Universität Naples Federico II, Dessert Group. Der Vortrag ist Teil von Artisan 2024: Sommerschule über die Rolle und die Auswirkungen künstlicher Intelligenz in sicheren Anwendungen .

Python Setup

Stellen Sie sicher, dass Sie Python auf Ihrem System installiert haben. Wenn nicht, können Sie eine virtuelle Umgebung mit Anaconda verwenden, um nicht direkt auf Ihrer Maschine zu arbeiten. Befolgen Sie die folgenden Schritte:

Anaconda -Installation

Installieren Sie Anaconda3 :
- Stellen Sie sicher, dass Anaconda3 installiert ist. Wenn nicht, können Sie den Installateur hier herunterladen.
- Verwenden Sie den Befehl wget , um das Installateur herunterzuladen:
```
wget https://repo.anaconda.com/archive/Anaconda3-version-OS.sh
```
- Machen Sie das Installationsprogramm ausführbar:
```
chmod +x Anaconda3-version-OS.sh
```
- Führen Sie den Installateur aus:
```
bash Anaconda3-version-OS.sh
```
- Möglicherweise müssen Sie das Anaconda -Verzeichnis zur Pfadumgebungsvariable hinzufügen. Fügen Sie beispielsweise diese Zeile Ihrer bashrc -Datei hinzu:
```
 export PATH= " /path_to_anaconda/anaconda3/bin: $PATH "
```

Erstellen der virtuellen Umgebung

Erstellen Sie eine virtuelle Python 3.9 -Umgebung :
- Erstellen Sie eine virtuelle Umgebung mit dem Befehl:
```
conda create -n yourenvname python=3.9
```
  Ersetzen Sie yourenvname durch Ihren gewünschten Umgebungsnamen.
Aktivieren Sie die Umgebung :
- Aktivieren Sie die erstellte Umgebung mit dem Befehl:
```
 source activate yourenvname
```

Sie sind jetzt bereit, Abhängigkeiten zu installieren und in Ihrer virtuellen Umgebung zu arbeiten.

Teil 1: Automatische Codegenerierung und -bewertung

Beschreibung

Im Ordner Violent-Python-functions haben wir .in und .out Dateien, die die NL-Beschreibungen (Natural Language) bzw. die entsprechenden Python-Funktionen enthalten.

Der gewalttätige Python -Datensatz ist ein manuell kuratierter Datensatz, in dem ein Beispiel ein Stück Python -Code aus einer offensiven Software und seine entsprechende Beschreibung in der natürlichen Sprache (einfach Englisch) enthält. Wir haben den Datensatz mit dem beliebten Buch "Violent Python" von TJ O'Connor erstellt, in dem mehrere Beispiele für offensive Programme mithilfe der Python -Sprache vorgestellt werden.

Wir haben nur die Beschreibungen auf Funktionsebene mit insgesamt 72 Paaren von NL -Beschreibungen aufgenommen - Python -Funktionen.

Extrahieren einer Teilmenge

Abhängigkeiten installieren :
- Installieren Sie im Hauptverzeichnis die erforderlichen Abhängigkeiten mit:
```
pip install -r requirements.txt --user
```
Untergruppenextraktion :
- Wir werden eine zufällige Teilmenge von 10 Proben aus dem Dataset der Gewaltspython extrahieren.
- Führen Sie im Hauptverzeichnis das Skript create_subset.py mit dem folgenden Befehl aus:
```
python create_subset.py
```
- Das Skript erstellt den Unterordner scripts/results mit reference.in und reference.out -Dateien.
- Die reference.in -Datei enthält die 10 zufällig extrahierten NL -Beschreibungen.
- Die reference.out -Datei enthält die entsprechenden 10 Python -Funktionen und dient als Grundwahrheit für die Bewertung.

Erzeugen von Ausgängen mit KI -Modellen

Als nächstes generieren Sie 10 Ausgänge mit generativen KI -Modellen wie Chatgpt oder Claude -Sonnet.

Vorsicht

Achten Sie auf die Struktur der Code -Snippets. Wie Sie sehen können, sind die Python-Codes alle einzeln . Tatsächlich werden Multi-Line-Anweisungen mit n voneinander getrennt.

Ausgänge erzeugen :
- Verwenden Sie die in der reference.in -Datei gespeicherten NL -Beschreibungen, um die 10 Ausgänge mit den AI -Modellen zu generieren.
- Stellen Sie sicher, dass die KI -Modelle die Ausgabestellung nach Bedarf für die Bewertung nach Bedarf erzeugen.
- Speichern Sie die Modellausgänge in einer Datei namens output.out im results .
- Stellen Sie sicher, dass das Modell den Code im Einzelleitungsformat generiert hat
- Stellen Sie sicher, dass Sie eine Datei mit 10 Zeilen haben (keine leeren Zeilen am Ende der Datei).
Beispielaufforderung:
```
 Generate Python 10 functions starting from the following 10 natural language (NL) descriptions:

1. [NL description]
2. [NL description]
...
10. [NL description]

Each function should be generated in a single line, for a total of 10 lines.
Different instructions of the same function should be separated by the special character "n".
Do not use empty lines to separate functions.
```
Berechnen Sie Ausgangsähnlichkeitsmetriken :
- Führen reference.out im scripts -Ordner die Python output.out output_similarity_metrics.py .
```
python output_similarity_metrics.py hypothesis_file
```
  wobei hypothesis_file die Datei der results/output.out ist.

Die Metriken werden in der Datei results/output_metrics.txt generiert.

Metrikvariabilität visualisieren :
- Führen Sie im Ordner scripts die script boxplot_metrics.py aus, um die Variabilität der in der results/output_metrics.txt gespeicherten Metriken zu visualisieren:
```
python boxplot_metrics.py
```

Im Folgenden finden Sie ein Bild, das die Variabilität der Ausgangsähnlichkeitsmetriken mit einem Boxplot zeigt:

Metrischer Vergleich

Vergleiche verschiedene Modelle
- Versuchen Sie, die Ausgabe mit einem anderen Modell zu generieren und die Vorhersage des Modells in der Datei results/output2.out zu speichern.
- Führen output2.out erneut die Python -Skript output_similarity_metrics.py reference.out
```
python output_similarity_metrics.py results/output2.out
```
- Führen Sie das Skript compare_models.py aus, um den Vergleich von zwei Modelsleistung über zwei Metriken hinweg anzuzeigen
```
 python compare_models.py
```

Unten finden Sie ein Beispiel für die Ausgabe:

Metrischer Vergleich

Teil 2: Schnelltechnik

Beschreibung

In diesem Teil wiederholen wir den Code -Erzeugungsprozess mithilfe der KI -Modelle. Diesmal wird jedoch eine schnelle technische Technik angewendet, die während des Vortrags diskutiert wird. Ziel ist es zu beobachten, ob diese Technik die Qualität des generierten Codes verbessert.

Schritte

Bewerben Sie schnelle Engineering :
- Verwenden Sie dieselben NL -Beschreibungen, die in der Datei reference.in gespeichert sind.
- Ändern Sie Ihre Eingabeaufforderungen entsprechend den während des Gesprächs erlernten Techniken zur Eingabeentwicklung.
Beispiele für Eingabeaufforderungen finden Sie im Ordner scripts/prompt_examples .
Ausgänge erzeugen :
- Generieren Sie die 10 Ausgänge mit den KI -Modellen mit den technischen Eingaben.
- Speichern Sie die Modellausgänge in einer Datei mit dem Namen output_prompt_pattern.out im Ordner scripts/results , wobei prompt_pattern eine Kennung ist, mit der Sie das angenommene Muster angeben möchten (z. B. output_persona.out , output_few_shot.out ).
- Stellen Sie sicher, dass das Modell den Code im Einzelzeilenformat generiert hat.
- Stellen Sie sicher, dass Sie eine Datei mit 10 Zeilen (keine leeren Zeilen am Ende der Datei) haben.
Berechnen Sie Ausgangsähnlichkeitsmetriken :
- Führen Sie im scripts -Ordner das Skript aus, um die Ausgangsähnlichkeitsmetriken zwischen den Modellvorhersagen ( output_prompt_pattern.out ) und der Grundwahrheitsreferenz ( reference.out ) zu berechnen:
```
python output_similarity_metrics.py hypothesis_file
```
wobei hypothesis_file die Datei ist, die mit einem Eingabeaufforderungmuster generiert wird (z. B. results/output_few_shot.out -Datei).
- Die Metriken werden in der Datei scripts/results/output_prompt_engineering_metrics.txt generiert (z. B. scripts/results/output_few_shot_metrics.txt -Datei).
Vergleichen Sie die Ergebnisse :
- Führen Sie im scripts -Ordner die Skript plot_metrics_comparison.py aus, um die Ergebnisse zu vergleichen:
```
python plot_metrics_comparison.py file_metrics
```
  wobei file_metrics scripts/results/output_prompt_engineering_metrics.txt -Datei ist.
- Das Skript erstellt Balkendiagramme, um die Unterschiede zwischen den Metriken der verschiedenen Ausgänge zu visualisieren.

Im Folgenden finden Sie ein Bild, das den Vergleich von Metriken zwischen den ohne sofortigen Engineering erzeugten Ausgaben und mit wenigen Schuss-Eingabeaufforderungstechnik zeigt:

Metrischer Vergleich

Befolgen Sie die folgenden Schritte, um eine schnelle Technik anzuwenden und die Auswirkungen auf die Qualität der Codegenerierung zu bewerten.

Sparenausgänge

Im Ordner saved_outputs finden Sie Beispiele, die mit ChatGPT-4O erzeugt wurden. Diese Beispiele veranschaulichen, wie die Ausgaben des Modells mit verschiedenen angewandten technischen Techniken aussehen.