⠀⠀⠀⠀⠀⠀⠀⣤⣤⣄⣀⡀⠀⠀⠀⢀⣠⣤⣤⣄⡀⠀⠀⠀⢀⣀⣠⣤⣤⠀⠀⠀⠀⠀⠀⠀⠀⠀
⠀⠀⠀⠀⠀⠀⠸⣿⣿⡿⠿⢿⣷⡄⢠⣿⣿⣿⣿⣿⣿⡄⢀⣾⡿⠿⢿⣿⣿⠇⠀⠀⠀⠀⠀⠀⠀⠀
⠀⠀⠀⠀⠀⠀⠀⠈⠉⠀⠀⢸⣿⡇⢸⣿⣿⣿⣿⣿⣿⡇⢸⣿⡇⠀⠀⠉⠁⠀⠀⠀⠀⠀⠀⠀⠀⠀
⠀⣠⣤⡀⠀⠀⠀⠀⠀⠀⠀⢸⣿⡇⢸⣿⣿⣿⣿⣿⣿⡇⢸⣿⡇⠀⠀⠀⠀⠀⠀⠀⢀⣤⣄⠀⠀⠀
⠸⣿⣿⣿⣿⣿⣿⣿⣿⣦⠀⢸⣿⡇⢸⣿⣿⣿⣿⣿⣿⡇⢸⣿⡇⠀⣴⣿⣿⣿⣿⣿⣿⣿⣿⠇⠀⠀
⠀⠉⠉⠁⠀⠀⠀⠀⣿⣿⠀⢸⣿⡇⠀⠉⣿⣿⣿⣿⠉⠀⢸⣿⡇⠀⣿⣿⠀⠀⠀⠀⠈⠉⠉⠀⠀
⠀⠀⠀⠀⠀⠀⠀⠀⣿⣿⣀⣈⣻⣿⣿⣿⣿⣿⣿⣿⣿⣿⣿⣟⣁⣀⣿⣿⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀
⠀⠀⠀⠀⠀⠀⠀⠀⠘⠿⠿⠿⠿⠿⣿⣿⣿⣿⣿⣿⣿⣿⠿⠿⠿⠿⠿⠃⠀⠀⠀⠀⠀⠀⠀
⠀⠀⠀⠀⠀⠀⢀⣤⣤⣤⣤⣤⣤⣴⣿⣿⣿⡇⢸⣿⡿⣿⣦⣤⣤⣤⣤⣤⣤⡀⠀⠀⠀⠀⠀⠀⠀⠀
⠀⠀⠀⠀⠀⠀⢸⣿⠋⠉⠉⠉⠉⠉⠉⢸⣿⡇⢸⣿⡇⠈⠉⠉⠉⠉⠉⠙⣿⣧⠀⠀⠀⠀⠀⠀⠀⠀
⠀⠀⠀⠀⠀⢰⣿⣿⣦⠀⢰⣿⣿⣦⠀⢸⣿⡇⢸⣿⡇⠀⣰⣿⣿⡆⠀⣴⣿⣿⡆⠀⠀⠀⠀⠀⠀⠀
⠀⠀⠀⠀⠀⠈⠻⠿⠋⠀⠘⣿⣿⠃⠀⢸⣿⡇⢸⣿⡇⠀⠘⣿⣿⠃⠀⠙⠿⠟⠁⠀⠀⠀⠀⠀⠀⠀
⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⢻⣿⣦⣤⣼⣿⠃⠘⣿⣧⣄⣤⣿⡟⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀
⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠉⠛⠛⠛⠁⠀⠀⠈⠛⠛⠛⠋⠀⠀⠀
⠀⠀⠀⠀⠀⠀ ⠀O C T O P I I⠀⠀⠀⠀
Copyright © 2023 RedHunt Labs Private Limited
Octopii-это сканер с личной информацией (PII), который использует оптическое распознавание символов (OCR), списки регулярных выражений и обработка естественного языка (NLP) для поиска общественных мест для государственного идентификатора, адресов, электронных писем на изображениях, PDF и документах.
Утечки PII часто упускаются из виду в пространстве кибербезопасности. В Redd Labs мы всегда ищем различные и инновационные способы разработки решений для кибербезопасности, которые нуждаются в организациях и услугах. Мы столкнулись с значительным количеством организаций, которые неправильно настроены свои серверы. Это приводит к тому, что сотрудники и клиент PII все время протекают, предоставляя вредоносной стороне конфиденциальную информацию об их происхождении, идентификационных номерах, контактной информации и их местоположении.
Вот почему мы созданы Octopii, инструмент для демонстрации и обнаружения, насколько легко автоматизировать обнаружение и извлечение просочившихся PII и конфиденциальные документы в Интернете.
pip install -r requirements.txt .sudo apt install tesseract-ocr -y на Ubuntu или sudo pacman -Syu tesseract на Arch Linux.python -m spacy download en_core_web_sm .После того, как вы установили выше, все готово.
Запустить Octopii, введите
python3 octopii.py <location to scan>
Где <location to scan> является файлом или каталогом.
Octopii в настоящее время поддерживает локальное сканирование по пути файловой системы, URL -адреса S3 и списками Apache Open Directory. Вы также можете предоставить отдельные URL -адреса или файлы изображения в качестве аргумента.
Мы предоставили dummy-pii/ папку, содержащую образец PII для вас, чтобы проверить Octopii. Передать его как аргумент, и вы получите следующий вывод
owais@artemis ~ $ python3 octopii.py dummy-pii/
Searching for PII in dummy-pii/dummy-drivers-license-nebraska-us.jpg
{
"file_path": "dummy-pii/dummy-drivers-license-nebraska-us.jpg",
"pii_class": "Nebraska Driver's License",
"country_of_origin": "United States",
"faces": 1,
"identifiers": [],
"emails": [],
"phone_numbers": [
"4000002170"
],
"addresses": [
"Nebraska"
]
}
Searching for PII in dummy-pii/dummy-PAN-India.jpg
{
"file_path": "dummy-pii/dummy-PAN-India.jpg",
"pii_class": "Permanent Account Number",
"country_of_origin": "India",
"faces": 0,
"identifiers": [],
"emails": [],
"phone_numbers": [],
"addresses": [
"INDIA"
]
}
...
Создан файл с именем output.txt , содержащий вывод из инструмента. Этот файл добавляется для последовательно в режиме реального времени.
Octopii использует Tesseract для распознавания оптического символа (OCR) и NLTK для обработки естественного языка (NLP) для обнаружения для строк личной идентифицируемой информации. Это делается через следующие шаги:
Сканирование Octopii для изображений (JPG и PNG) и документов (PDF, DOC, TXT и т. Д.). Он поддерживает 3 источника:
Изображения обнаруживаются с помощью библиотеки Imaging Python (PIL) и открыты с OpenCV. PDF -файлы преобразуются в список изображений и сканируются через OCR. Текстовые типы файлов считываются в строки и сканируются без OCR.
Метод обнаружения бинарной классификации - известный как «каскад HAAR» - используется для обнаружения лиц в изображениях. Предварительно обученная каскадная модель поставляется в этом репо, которая содержит каскадные данные для использования OpenCV. Многочисленные лица могут быть обнаружены в одном и том же изображении PII, а количество обнаруженных лиц обойдется.
Изображения затем «Clened» для извлечения текста со следующими этапами преобразования изображения:

Поскольку эти шаги лишают данных изображения (включая цвета на фотографиях), этот процесс очистки изображения происходит после обнаружения лица.
Tesseract используется для захвата всех текстовых строк с изображения/файла. Затем он токенизируется в список строк, разделенный Newline Searcy (' n') и пространства (''). Искаженный текст, такой как null строки и отдельные символы, отброшены из этого списка, что приводит к «понятному» списку потенциальных слов.
Этот список слов затем подается в аналогичную функцию проверки. Эта функция использует сопоставление гештальт -шаблонов для сравнения каждого слова, извлеченного из документа PII с списком ключевых слов, присутствующих в definitions.json . Эта проверка происходит один раз за чистку. Количество раз, как слово из ключевых слов подсчитано, и это используется для получения оценки доверия. Когда ключевые слова конкретного определения появляются в этих сканировании, это определение получает наивысшую оценку и выбирается как предсказанный класс PII.
Octopii также проверяет конфиденциальные подстанции PII, такие как электронные письма, номера телефонов и общие идентификаторы правительства, уникальные идентификаторы с использованием регулярных выражений. Он также может извлекать данные геолокации, такие как адреса и страны с использованием обработки естественного языка.
Вывод состоит из следующего:
file_path : где можно найти файл, содержащий PIIpii_class : тип PII Этот файл содержитcountry_of_origin : откуда этот PII происходит от.identifiers : уникальные идентификаторы, коды или числа, которые могут использоваться для нацеливания на человека, упомянутого в PII.emails и phone_numbers : контактная информация в файле.addresses : любая форма данных геолокации в PII. Это может быть использовано для триангуляции местоположения человека. Нажмите здесь, чтобы прочитать о том, как вы можете содержать Octopii.
... и бесчисленные другие
Этот инструмент предназначен только для исследовательских и образовательных целей. Red Labs и другие участники этого проекта не несут никаких обязанностей для вредоносных
MIT Лицензия
Copyright © 2023 Rend Labs Private Limited.
Оваис Шейх