generative ai cybersecurityダウンロード - generative ai cybersecurityソースコードダウンロード

generative ai cybersecurity

AI ソースコード

1.0.0

ダウンロード

サイバーセキュリティの生成AI：自然言語から攻撃コードを生成する

このリポジトリには、「サイバーセキュリティにおける生成AI：自然言語からの攻撃コードの生成」というタイトルの講演の資料とスクリプトが含まれています。この講演は、安全なアプリケーションにおける人工知能の役割と効果に関する職人2024：サマースクールの一部です。

Pythonセットアップ

システムにPythonをインストールしていることを確認してください。そうでない場合は、アナコンダを使用して仮想環境を使用して、マシンで直接作業することを避けることができます。以下の手順に従ってください。

アナコンダのインストール

Anaconda3をインストールします：
- Anaconda3がインストールされていることを確認してください。そうでない場合は、ここからインストーラーをダウンロードできます。
- wgetコマンドを使用して、インストーラーをダウンロードします。
```
wget https://repo.anaconda.com/archive/Anaconda3-version-OS.sh
```
- インストーラーを実行可能にします：
```
chmod +x Anaconda3-version-OS.sh
```
- インストーラーを実行します：
```
bash Anaconda3-version-OS.sh
```
- AnacondaディレクトリをPath Environment変数に追加する必要がある場合があります。たとえば、この行をbashrcファイルに追加します。
```
 export PATH= " /path_to_anaconda/anaconda3/bin: $PATH "
```

仮想環境の作成

Python 3.9仮想環境を作成します。
- コマンドを使用して仮想環境を作成します。
```
conda create -n yourenvname python=3.9
```
  yourenvname希望の環境名に置き換えます。
環境を有効にします：
- コマンドで作成された環境をアクティブにします。
```
 source activate yourenvname
```

これで、仮想環境内で依存関係をインストールし、作業する準備ができました。

パート1：自動コード生成と評価

説明

Violent-Python-functionsフォルダーには、それぞれNL（自然言語）の説明と対応するPython関数を含む.inおよび.outファイルがあります。

暴力的なPythonデータセットは、手動でキュレーションされたデータセットであり、サンプルには攻撃ソフトウェアからのPythonコードが含まれており、それに対応する自然言語（プレーン英語）が含まれています。 TJ O'Connorによる人気のある本「Violent Python」を使用してデータセットを作成しました。これは、Python言語を使用して攻撃プログラムのいくつかの例を紹介します。

合計72ペアのNL説明-Python関数を含む関数レベルの説明のみを含めました。

サブセットの抽出

依存関係をインストールします：
- メインディレクトリで、以下を使用して必要な依存関係をインストールします。
```
pip install -r requirements.txt --user
```
サブセット抽出：
- 暴力-Pythonデータセットから10個のサンプルのランダムサブセットを抽出します。
- メインディレクトリで、次のコマンドでcreate_subset.pyスクリプトを実行します。
```
python create_subset.py
```
- スクリプトは、 reference.inおよびreference.outファイルを含むscripts/resultsサブフォルダーを作成します。
- reference.inファイルには、10のランダムに抽出されたNL説明が含まれています。
- reference.outファイルには、対応する10個のPython関数が含まれており、評価のための基本真理として機能します。

AIモデルで出力を生成します

次に、ChATGPTやClaude Sonnetなどの生成AIモデルを使用して10の出力を生成します。

注意

コードスニペットの構造に注意してください。ご覧のとおり、Pythonコードはすべてシングルラインです。実際、マルチラインの命令はnで互いに分離されています。

出力の生成：
- reference.inファイルに保存されているNL説明を使用して、AIモデルを使用して10の出力を生成します。
- AIモデルが、評価に必要に応じてラインごとに出力を生成することを確認してください。
- モデル出力をoutput.outという名前のファイルに保存します。 resultsフォルダー。
- モデルがシングルライン形式でコードを生成したことを確認してください
- 10行のファイルがあることを確認してください（ファイルの最後に空の行はありません）。
プロンプトの例：
```
 Generate Python 10 functions starting from the following 10 natural language (NL) descriptions:

1. [NL description]
2. [NL description]
...
10. [NL description]

Each function should be generated in a single line, for a total of 10 lines.
Different instructions of the same function should be separated by the special character "n".
Do not use empty lines to separate functions.
```
出力の類似性メトリックを計算します。
- scriptsフォルダーで、Pythonスクリプトoutput_similarity_metrics.pyを実行して、モデル予測（ output.out ）とグラウンドトゥルースリファレンス（ reference.out ）の間の出力類似性メトリックを計算します。
```
python output_similarity_metrics.py hypothesis_file
```
  ここで、 hypothesis_file results/output.outファイルです。

メトリックは、 results/output_metrics.txtファイルで生成されます。

メトリックの変動性を視覚化します：
- scriptsフォルダーで、スクリプトboxplot_metrics.pyを実行して、ファイルのresults/output_metrics.txtに保存されたメトリックの変動性を視覚化します：
```
python boxplot_metrics.py
```

以下は、ボックスプロットを使用した出力類似性メトリックの変動性を示す画像です。

メトリック比較

さまざまなモデルを比較します
- 別のモデルで出力を生成し、 results/output2.outファイルにモデルの予測を保存してください。
- Python Script output_similarity_metrics.py再度実行して、モデル予測（ output2.out ）とグラウンドトゥルースリファレンス（ reference.out ）の間の出力類似性メトリックを計算します。
```
python output_similarity_metrics.py results/output2.out
```
- スクリプトを実行してcompare_models.py 2つのメトリックにわたって2つのモデルパフォーマンスの比較を表示するには
```
 python compare_models.py
```

以下は出力の例です。

メトリック比較

パート2：プロンプトエンジニアリング

説明

この部分では、AIモデルを使用してコード生成プロセスを繰り返しますが、今回は講演中に議論された迅速なエンジニアリング手法を適用します。目標は、この手法が生成されたコードの品質を改善するかどうかを観察することです。

ステップ

迅速なエンジニアリングを適用します：
- reference.inファイルに保存されているのと同じNL説明を使用します。
- 講演中に学んだプロンプトエンジニアリング手法に従って、プロンプトを変更します。
プロンプトの例はscripts/prompt_examplesフォルダーにあります。
出力の生成：
- エンジニアリングプロンプトを使用してAIモデルを使用して10の出力を生成します。
- モデル出力を保存しますoutput_prompt_pattern.outという名前のファイルにscripts/resultsフォルダーになります。ここでは、 prompt_patternは採用されたパターン（ output_persona.out 、 output_few_shot.out ）を指定するために使用する識別子です。
- モデルがシングルライン形式でコードを生成したことを確認してください。
- （もう一度）10行のファイルがあることを確認してください（ファイルの最後に空の行はありません）。
出力の類似性メトリックを計算します。
- scriptsフォルダーで、スクリプトを実行して、モデル予測（ output_prompt_pattern.out ）とグラウンドトゥルースリファレンス（ reference.out ）の間の出力類似性メトリックを計算します。
```
python output_similarity_metrics.py hypothesis_file
```
ここで、 hypothesis_fileプロンプトパターンで生成されたファイルです（例： results/output_few_shot.outファイル）。
- メトリックはscripts/results/output_prompt_engineering_metrics.txtファイル（たとえば、 scripts/results/output_few_shot_metrics.txtファイル）で生成されます。
結果を比較してください：
- scriptsフォルダーで、スクリプトplot_metrics_comparison.pyを実行して結果を比較します。
```
python plot_metrics_comparison.py file_metrics
```
  ここで、 file_metricsはscripts/results/output_prompt_engineering_metrics.txtファイルです。
- スクリプトは、異なる出力のメトリック間の違いを視覚化するためのバーチャートを作成します。