Скачать Octopii - Скачать исходный код Octopii

Octopii

Другой исходный код

v2.2

Скачать

Осьминог

 ⠀⠀⠀⠀⠀⠀⠀⣤⣤⣄⣀⡀⠀⠀⠀⢀⣠⣤⣤⣄⡀⠀⠀⠀⢀⣀⣠⣤⣤⠀⠀⠀⠀⠀⠀⠀⠀⠀
⠀⠀⠀⠀⠀⠀⠸⣿⣿⡿⠿⢿⣷⡄⢠⣿⣿⣿⣿⣿⣿⡄⢀⣾⡿⠿⢿⣿⣿⠇⠀⠀⠀⠀⠀⠀⠀⠀
⠀⠀⠀⠀⠀⠀⠀⠈⠉⠀⠀⢸⣿⡇⢸⣿⣿⣿⣿⣿⣿⡇⢸⣿⡇⠀⠀⠉⠁⠀⠀⠀⠀⠀⠀⠀⠀⠀
⠀⣠⣤⡀⠀⠀⠀⠀⠀⠀⠀⢸⣿⡇⢸⣿⣿⣿⣿⣿⣿⡇⢸⣿⡇⠀⠀⠀⠀⠀⠀⠀⢀⣤⣄⠀⠀⠀
⠸⣿⣿⣿⣿⣿⣿⣿⣿⣦⠀⢸⣿⡇⢸⣿⣿⣿⣿⣿⣿⡇⢸⣿⡇⠀⣴⣿⣿⣿⣿⣿⣿⣿⣿⠇⠀⠀
⠀⠉⠉⠁⠀⠀⠀⠀⣿⣿⠀⢸⣿⡇⠀⠉⣿⣿⣿⣿⠉⠀⢸⣿⡇⠀⣿⣿⠀⠀⠀⠀⠈⠉⠉⠀⠀
⠀⠀⠀⠀⠀⠀⠀⠀⣿⣿⣀⣈⣻⣿⣿⣿⣿⣿⣿⣿⣿⣿⣿⣟⣁⣀⣿⣿⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀       
⠀⠀⠀⠀⠀⠀⠀⠀⠘⠿⠿⠿⠿⠿⣿⣿⣿⣿⣿⣿⣿⣿⠿⠿⠿⠿⠿⠃⠀⠀⠀⠀⠀⠀⠀ 
⠀⠀⠀⠀⠀⠀⢀⣤⣤⣤⣤⣤⣤⣴⣿⣿⣿⡇⢸⣿⡿⣿⣦⣤⣤⣤⣤⣤⣤⡀⠀⠀⠀⠀⠀⠀⠀⠀
⠀⠀⠀⠀⠀⠀⢸⣿⠋⠉⠉⠉⠉⠉⠉⢸⣿⡇⢸⣿⡇⠈⠉⠉⠉⠉⠉⠙⣿⣧⠀⠀⠀⠀⠀⠀⠀⠀
⠀⠀⠀⠀⠀⢰⣿⣿⣦⠀⢰⣿⣿⣦⠀⢸⣿⡇⢸⣿⡇⠀⣰⣿⣿⡆⠀⣴⣿⣿⡆⠀⠀⠀⠀⠀⠀⠀
⠀⠀⠀⠀⠀⠈⠻⠿⠋⠀⠘⣿⣿⠃⠀⢸⣿⡇⢸⣿⡇⠀⠘⣿⣿⠃⠀⠙⠿⠟⠁⠀⠀⠀⠀⠀⠀⠀
⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⢻⣿⣦⣤⣼⣿⠃⠘⣿⣧⣄⣤⣿⡟⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀
⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠉⠛⠛⠛⠁⠀⠀⠈⠛⠛⠛⠋⠀⠀⠀

⠀⠀⠀⠀⠀⠀      ⠀O C T O P I I⠀⠀⠀⠀
Copyright © 2023 RedHunt Labs Private Limited

Octopii-это сканер с личной информацией (PII), который использует оптическое распознавание символов (OCR), списки регулярных выражений и обработка естественного языка (NLP) для поиска общественных мест для государственного идентификатора, адресов, электронных писем на изображениях, PDF и документах.

Утечки PII часто упускаются из виду в пространстве кибербезопасности. В Redd Labs мы всегда ищем различные и инновационные способы разработки решений для кибербезопасности, которые нуждаются в организациях и услугах. Мы столкнулись с значительным количеством организаций, которые неправильно настроены свои серверы. Это приводит к тому, что сотрудники и клиент PII все время протекают, предоставляя вредоносной стороне конфиденциальную информацию об их происхождении, идентификационных номерах, контактной информации и их местоположении.

Вот почему мы созданы Octopii, инструмент для демонстрации и обнаружения, насколько легко автоматизировать обнаружение и извлечение просочившихся PII и конфиденциальные документы в Интернете.

Использование

Установка зависимостей

Установите все зависимости с помощью pip install -r requirements.txt .
Установите помощник Tesseract локально через sudo apt install tesseract-ocr -y на Ubuntu или sudo pacman -Syu tesseract на Arch Linux.
Установите определения языка SPACY локально через python -m spacy download en_core_web_sm .

После того, как вы установили выше, все готово.

Бег

Запустить Octopii, введите

 python3 octopii.py <location to scan>

Где <location to scan> является файлом или каталогом.

Octopii в настоящее время поддерживает локальное сканирование по пути файловой системы, URL -адреса S3 и списками Apache Open Directory. Вы также можете предоставить отдельные URL -адреса или файлы изображения в качестве аргумента.

Пример

Мы предоставили dummy-pii/ папку, содержащую образец PII для вас, чтобы проверить Octopii. Передать его как аргумент, и вы получите следующий вывод

 owais@artemis ~ $ python3 octopii.py dummy-pii/

Searching for PII in dummy-pii/dummy-drivers-license-nebraska-us.jpg
{
    "file_path": "dummy-pii/dummy-drivers-license-nebraska-us.jpg",
    "pii_class": "Nebraska Driver's License",
    "country_of_origin": "United States",
    "faces": 1,
    "identifiers": [],
    "emails": [],
    "phone_numbers": [
        "4000002170"
    ],
    "addresses": [
        "Nebraska"
    ]
}

Searching for PII in dummy-pii/dummy-PAN-India.jpg
{
    "file_path": "dummy-pii/dummy-PAN-India.jpg",
    "pii_class": "Permanent Account Number",
    "country_of_origin": "India",
    "faces": 0,
    "identifiers": [],
    "emails": [],
    "phone_numbers": [],
    "addresses": [
        "INDIA"
    ]
}

...

Создан файл с именем output.txt , содержащий вывод из инструмента. Этот файл добавляется для последовательно в режиме реального времени.

Работающий

Octopii использует Tesseract для распознавания оптического символа (OCR) и NLTK для обработки естественного языка (NLP) для обнаружения для строк личной идентифицируемой информации. Это делается через следующие шаги:

1. Ввод и импорт

Сканирование Octopii для изображений (JPG и PNG) и документов (PDF, DOC, TXT и т. Д.). Он поддерживает 3 источника:

Amazon Simple Service (S3): проходит XML из URL -адресов контейнера S3
Списки открытых каталогов: пересекает списки и сканирования Apache Open Directory для файлов
Локальная файловая система: может получить доступ к файлам и папкам в Unix-подобных файловых системах (операционные системы на основе MacOS и Linux)

Изображения обнаруживаются с помощью библиотеки Imaging Python (PIL) и открыты с OpenCV. PDF -файлы преобразуются в список изображений и сканируются через OCR. Текстовые типы файлов считываются в строки и сканируются без OCR.

2. Обнаружение лица

Метод обнаружения бинарной классификации - известный как «каскад HAAR» - используется для обнаружения лиц в изображениях. Предварительно обученная каскадная модель поставляется в этом репо, которая содержит каскадные данные для использования OpenCV. Многочисленные лица могут быть обнаружены в одном и том же изображении PII, а количество обнаруженных лиц обойдется.

3. Очистка изображения и текст чтения

Изображения затем «Clened» для извлечения текста со следующими этапами преобразования изображения:

Авторация
Серого
Монохромный
Средний порог
Гауссовый порог
3x deskewing

Изображение фильтрации иллюстрации

Поскольку эти шаги лишают данных изображения (включая цвета на фотографиях), этот процесс очистки изображения происходит после обнаружения лица.

4. Оптическое распознавание персонажа (OCR)

Tesseract используется для захвата всех текстовых строк с изображения/файла. Затем он токенизируется в список строк, разделенный Newline Searcy (' n') и пространства (''). Искаженный текст, такой как null строки и отдельные символы, отброшены из этого списка, что приводит к «понятному» списку потенциальных слов.

Этот список слов затем подается в аналогичную функцию проверки. Эта функция использует сопоставление гештальт -шаблонов для сравнения каждого слова, извлеченного из документа PII с списком ключевых слов, присутствующих в definitions.json . Эта проверка происходит один раз за чистку. Количество раз, как слово из ключевых слов подсчитано, и это используется для получения оценки доверия. Когда ключевые слова конкретного определения появляются в этих сканировании, это определение получает наивысшую оценку и выбирается как предсказанный класс PII.

Octopii также проверяет конфиденциальные подстанции PII, такие как электронные письма, номера телефонов и общие идентификаторы правительства, уникальные идентификаторы с использованием регулярных выражений. Он также может извлекать данные геолокации, такие как адреса и страны с использованием обработки естественного языка.

4. Выход

Вывод состоит из следующего:

file_path : где можно найти файл, содержащий PII
pii_class : тип PII Этот файл содержит
country_of_origin : откуда этот PII происходит от.
identifiers : уникальные идентификаторы, коды или числа, которые могут использоваться для нацеливания на человека, упомянутого в PII.
emails и phone_numbers : контактная информация в файле.
addresses : любая форма данных геолокации в PII. Это может быть использовано для триангуляции местоположения человека.

Внося

Нажмите здесь, чтобы прочитать о том, как вы можете содержать Octopii.

Кредиты

BeautifulSoup
Tesseract
Scikit
Библиотека изображений OpenCV и Python
Пространства - Digitalocean

... и бесчисленные другие

Отказ от ответственности

Этот инструмент предназначен только для исследовательских и образовательных целей. Red Labs и другие участники этого проекта не несут никаких обязанностей для вредоносных

Лицензия

MIT Лицензия

Оваис Шейх

Работа: [email protected]
Личный: [email protected]

Расширять

Дополнительная информация

Версия v2.2
Тип Другой исходный код
Время обновления 2025-04-18
размер 1.43MB
От Github

Связанные приложения

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Octopii

Осьминог

Использование

Установка зависимостей

Бег

Пример

Работающий

1. Ввод и импорт

2. Обнаружение лица

3. Очистка изображения и текст чтения

4. Оптическое распознавание персонажа (OCR)

4. Выход

Внося

Кредиты

Отказ от ответственности

Лицензия

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express