generative ai cybersecurity

generative ai cybersecurity

AI Исходный код

1.0.0

Скачать

Генеративный ИИ в кибербезопасности: генерирование наступательного кода из естественного языка

Этот репозиторий содержит материалы и сценарии для разговора под названием «Генеративный ИИ в кибербезопасности: генерирование наступательного кода от естественного языка» Пьетро Лигуори, Университет Неаполя Федерико II, десертная группа. Разговор является частью Artisan 2024: Летняя школа о роли и последствиях искусственного интеллекта в безопасных приложениях .

Настройка Python

Убедитесь, что у вас установлен Python в вашей системе. Если нет, вы можете использовать виртуальную среду с Anaconda, чтобы не работать непосредственно на вашей машине. Следуйте шагам ниже:

Установка Anaconda

Установите Anaconda3 :
- Убедитесь, что у вас установлен Anaconda3. Если нет, вы можете скачать установщик отсюда.
- Используйте команду wget для загрузки установщика:
```
wget https://repo.anaconda.com/archive/Anaconda3-version-OS.sh
```
- Сделайте исполняемый файл установщика:
```
chmod +x Anaconda3-version-OS.sh
```
- Запустите установщик:
```
bash Anaconda3-version-OS.sh
```
- Вам может потребоваться добавить каталог Anaconda в переменную среды Path. Например, добавьте эту строку в свой файл bashrc :
```
 export PATH= " /path_to_anaconda/anaconda3/bin: $PATH "
```

Создание виртуальной среды

Создайте виртуальную среду Python 3.9 :
- Создайте виртуальную среду, используя команду:
```
conda create -n yourenvname python=3.9
```
  Замените yourenvname на желаемое название среды.
Активируйте окружающую среду :
- Активируйте созданную среду с помощью команды:
```
 source activate yourenvname
```

Теперь вы готовы установить зависимости и работать в своей виртуальной среде.

Часть 1: Автоматическая генерация и оценка кода

Описание

В папке Violent-Python-functions у нас есть файлы .in и .out , содержащие описания NL (естественный язык) и соответствующие функции Python, соответственно.

Набор данных Python - это набор данных вручную куратор, где образец содержит кусок кода Python из наступательного программного обеспечения и его соответствующее описание на естественном языке (простой английский). Мы построили набор данных, используя популярную книгу «Насильственный питон» TJ O'Connor, в которой представлены несколько примеров оскорбительных программ с использованием языка Python.

Мы включили только описания на уровне функции, в общей сложности 72 пары описаний NL - функции Python.

Извлечение подмножества

Установить зависимости :
- В основном каталоге установите необходимые зависимости, используя:
```
pip install -r requirements.txt --user
```
Извлечение подмножество :
- Мы извлекаем случайное подмножество из 10 образцов из набора данных насильственного питона.
- В основном каталоге запустите скрипт create_subset.py со следующей командой:
```
python create_subset.py
```
- Скрипт создаст подпапку scripts/results содержащую reference.in и reference.out files.
- Файл reference.in содержит 10 случайно извлеченных описаний NL.
- Файл reference.out содержит соответствующие 10 функций Python и служит нашей основной истиной для оценки.

Создание выходов с моделями ИИ

Затем вы будете генерировать 10 выходов, используя генеративные модели искусственного интеллекта, такие как CHATGPT или Claude Sonnet.

Осторожность

Обратите внимание на структуру фрагментов кода. Как вы можете видеть, коды Python все однострочные . Фактически, многострочные инструкции отделены друг от друга с n .

Генерировать выходы :
- Используйте описания NL, хранящиеся в файле reference.in для генерации 10 выходов с использованием моделей ИИ.
- Убедитесь, что модели искусственного интеллекта генерируют линию выходов по линии по мере необходимости для оценки.
- Сохраните выходы модели в файле с именем output.out в папке results .
- Убедитесь, что модель сгенерировала код в однострочном формате
- Убедитесь, что у вас есть файл с 10 строками (без пустых строк в конце файла).
Пример подсказки:
```
 Generate Python 10 functions starting from the following 10 natural language (NL) descriptions:

1. [NL description]
2. [NL description]
...
10. [NL description]

Each function should be generated in a single line, for a total of 10 lines.
Different instructions of the same function should be separated by the special character "n".
Do not use empty lines to separate functions.
```
Рассчитайте показатели сходства вывода :
- В папке scripts запустите Python Script output_similarity_metrics.py для вычисления показателей сходства выходных данных между предсказаниями модели ( output.out ) и ссылкой на основание истины ( reference.out ):
```
python output_similarity_metrics.py hypothesis_file
```
  где hypothesis_file является файлом results/output.out .

Метрики будут сгенерированы в файле results/output_metrics.txt .

Визуализировать метрическую изменчивость :
- В папке scripts выполните Script boxplot_metrics.py , чтобы визуализировать изменчивость метрик, сохраненные в results/output_metrics.txt :
```
python boxplot_metrics.py
```

Ниже приведено изображение, показывающее изменчивость метрик сходства вывода с помощью ящика:

Метрическое сравнение

Сравните разные модели
- Попробуйте генерировать выход с другой моделью и сохранить прогноз модели в файле results/output2.out .
- Запустите снова reference.out Python Script output_similarity_metrics.py для вычисления показателей выходной сходства между прогнозами модели ( output2.out .
```
python output_similarity_metrics.py results/output2.out
```
- Запустите Script compare_models.py , чтобы показать сравнение двух моделей производительности в двух метрик.
```
 python compare_models.py
```

Ниже приведен пример вывода:

Метрическое сравнение

Часть 2:

Описание

В этой части мы повторим процесс генерации кода, используя модели искусственного интеллекта, но на этот раз применяя быструю технику инженерной техники, обсуждаемую во время разговора. Цель состоит в том, чтобы наблюдать, улучшает ли этот метод качество сгенерированного кода.

Шаги

Применить быстрое инженер :
- Используйте те же описания NL, хранящиеся в файле reference.in .
- Измените свои подсказки в соответствии с методами быстрого управления, изученными во время разговора.
Примеры подсказок можно найти в папке scripts/prompt_examples .
Генерировать выходы :
- Создайте 10 выходов, используя модели ИИ с инженерными подсказками.
- Сохраните выходы модели в файле с именем output_prompt_pattern.out в папке scripts/results , где prompt_pattern - это идентификатор, который вы хотите использовать для указания принятого шаблона (например, output_persona.out , output_few_shot.out ).
- Убедитесь (снова) модель сгенерировала код в однострочном формате.
- Убедитесь (снова) у вас есть файл с 10 строками (без пустых строк в конце файла).
Рассчитайте показатели сходства вывода :
- В папке scripts запустите скрипт, чтобы вычислять показатели сходства выходных данных между прогнозами модели ( output_prompt_pattern.out ) и ссылкой reference.out истинность основной
```
python output_similarity_metrics.py hypothesis_file
```
где hypothesis_file - это файл, сгенерированный с шаблоном приглашения (например, файл results/output_few_shot.out ).
- Метрики будут генерироваться в файле scripts/results/output_prompt_engineering_metrics.txt (например, scripts/results/output_few_shot_metrics.txt file).
Сравните результаты :
- В папке scripts выполните Script plot_metrics_comparison.py , чтобы сравнить результаты:
```
python plot_metrics_comparison.py file_metrics
```
  где file_metrics - это scripts/results/output_prompt_engineering_metrics.txt файл.
- Сценарий создаст гистограммы для визуализации различий между метриками различных выходов.

Ниже приведено изображение, показывающее сравнение метриков между выходами, сгенерированными без быстрого инженера и с несколькими выстрелами, разработка:

Метрическое сравнение

Следуйте этим шагам, чтобы применять быструю технику и оценить его влияние на качество генерации кода.

Сохраненные выходы

В папке saved_outputs вы найдете примеры, сгенерированные с помощью CHATGPT-4O. Эти примеры иллюстрируют, как выглядят выходы модели с применением различных применяемых технических методов быстрого разработки.