ดาวน์โหลด Octopii - ดาวน์โหลดซอร์สโค้ด Octopii

Octopii

ซอร์สโค้ดอื่น ๆ

v2.2

ดาวน์โหลด

Octopii

 ⠀⠀⠀⠀⠀⠀⠀⣤⣤⣄⣀⡀⠀⠀⠀⢀⣠⣤⣤⣄⡀⠀⠀⠀⢀⣀⣠⣤⣤⠀⠀⠀⠀⠀⠀⠀⠀⠀
⠀⠀⠀⠀⠀⠀⠸⣿⣿⡿⠿⢿⣷⡄⢠⣿⣿⣿⣿⣿⣿⡄⢀⣾⡿⠿⢿⣿⣿⠇⠀⠀⠀⠀⠀⠀⠀⠀
⠀⠀⠀⠀⠀⠀⠀⠈⠉⠀⠀⢸⣿⡇⢸⣿⣿⣿⣿⣿⣿⡇⢸⣿⡇⠀⠀⠉⠁⠀⠀⠀⠀⠀⠀⠀⠀⠀
⠀⣠⣤⡀⠀⠀⠀⠀⠀⠀⠀⢸⣿⡇⢸⣿⣿⣿⣿⣿⣿⡇⢸⣿⡇⠀⠀⠀⠀⠀⠀⠀⢀⣤⣄⠀⠀⠀
⠸⣿⣿⣿⣿⣿⣿⣿⣿⣦⠀⢸⣿⡇⢸⣿⣿⣿⣿⣿⣿⡇⢸⣿⡇⠀⣴⣿⣿⣿⣿⣿⣿⣿⣿⠇⠀⠀
⠀⠉⠉⠁⠀⠀⠀⠀⣿⣿⠀⢸⣿⡇⠀⠉⣿⣿⣿⣿⠉⠀⢸⣿⡇⠀⣿⣿⠀⠀⠀⠀⠈⠉⠉⠀⠀
⠀⠀⠀⠀⠀⠀⠀⠀⣿⣿⣀⣈⣻⣿⣿⣿⣿⣿⣿⣿⣿⣿⣿⣟⣁⣀⣿⣿⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀       
⠀⠀⠀⠀⠀⠀⠀⠀⠘⠿⠿⠿⠿⠿⣿⣿⣿⣿⣿⣿⣿⣿⠿⠿⠿⠿⠿⠃⠀⠀⠀⠀⠀⠀⠀ 
⠀⠀⠀⠀⠀⠀⢀⣤⣤⣤⣤⣤⣤⣴⣿⣿⣿⡇⢸⣿⡿⣿⣦⣤⣤⣤⣤⣤⣤⡀⠀⠀⠀⠀⠀⠀⠀⠀
⠀⠀⠀⠀⠀⠀⢸⣿⠋⠉⠉⠉⠉⠉⠉⢸⣿⡇⢸⣿⡇⠈⠉⠉⠉⠉⠉⠙⣿⣧⠀⠀⠀⠀⠀⠀⠀⠀
⠀⠀⠀⠀⠀⢰⣿⣿⣦⠀⢰⣿⣿⣦⠀⢸⣿⡇⢸⣿⡇⠀⣰⣿⣿⡆⠀⣴⣿⣿⡆⠀⠀⠀⠀⠀⠀⠀
⠀⠀⠀⠀⠀⠈⠻⠿⠋⠀⠘⣿⣿⠃⠀⢸⣿⡇⢸⣿⡇⠀⠘⣿⣿⠃⠀⠙⠿⠟⠁⠀⠀⠀⠀⠀⠀⠀
⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⢻⣿⣦⣤⣼⣿⠃⠘⣿⣧⣄⣤⣿⡟⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀
⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠉⠛⠛⠛⠁⠀⠀⠈⠛⠛⠛⠋⠀⠀⠀

⠀⠀⠀⠀⠀⠀      ⠀O C T O P I I⠀⠀⠀⠀
Copyright © 2023 RedHunt Labs Private Limited

Octopii เป็นสแกนเนอร์ข้อมูลส่วนบุคคล (PII) ที่ใช้การจดจำอักขระแบบออพติคอล (OCR) รายการนิพจน์ทั่วไปและการประมวลผลภาษาธรรมชาติ (NLP) เพื่อค้นหาสถานที่ตั้งของสาธารณะสำหรับ ID ของรัฐบาลที่อยู่อีเมลในรูปภาพ PDFS และเอกสาร

การรั่วไหลของ PII มักถูกมองข้ามในพื้นที่รักษาความปลอดภัยทางไซเบอร์ ที่ Redd Labs เรามักจะมองหาวิธีที่แตกต่างและเป็นนวัตกรรมในการหาโซลูชั่นความปลอดภัยทางไซเบอร์ที่องค์กรและบริการต้องการ เรา 'เราได้พบกับองค์กรจำนวนมากที่มีเซิร์ฟเวอร์ของพวกเขากำหนดค่าไม่ถูกต้อง สิ่งนี้ทำให้พนักงานและลูกค้า PII รั่วไหลตลอดเวลาให้ข้อมูลที่ละเอียดอ่อนเกี่ยวกับต้นกำเนิดหมายเลขรหัสข้อมูลการติดต่อและที่ตั้งของพวกเขา

นี่คือเหตุผลที่เราสร้าง Octopii ซึ่งเป็นเครื่องมือในการสาธิตและตรวจสอบว่าการค้นพบและการสกัด PII ที่รั่วไหลออกมาโดยอัตโนมัติและเอกสารที่ละเอียดอ่อนบนอินเทอร์เน็ตเป็นเรื่องง่ายเพียงใด

การใช้งาน

การติดตั้งการอ้างอิง

ติดตั้งการพึ่งพาทั้งหมดผ่าน pip install -r requirements.txt
ติดตั้ง tesseract helper ในเครื่องผ่าน sudo apt install tesseract-ocr -y บน ubuntu หรือ sudo pacman -Syu tesseract บน arch linux
ติดตั้งคำจำกัดความภาษา Spacy ในเครื่องผ่าน python -m spacy download en_core_web_sm

เมื่อคุณติดตั้งด้านบนแล้วคุณก็พร้อมแล้ว

วิ่ง

ในการเรียกใช้ Octopii พิมพ์

 python3 octopii.py <location to scan>

โดยที่ <location to scan> เป็นไฟล์หรือไดเรกทอรี

ปัจจุบัน Octopii รองรับการสแกนท้องถิ่นผ่านเส้นทางระบบไฟล์, URL S3 และรายชื่อ Apache Open Directory นอกจากนี้คุณยังสามารถให้ URL หรือไฟล์ภาพบุคคลเป็นอาร์กิวเมนต์

ตัวอย่าง

เราได้จัดทำ dummy-pii/ โฟลเดอร์ที่มีตัวอย่าง PII ให้คุณทดสอบ Octopii ด้วย ส่งผ่านเป็นอาร์กิวเมนต์และคุณจะได้รับผลลัพธ์ต่อไปนี้

 owais@artemis ~ $ python3 octopii.py dummy-pii/

Searching for PII in dummy-pii/dummy-drivers-license-nebraska-us.jpg
{
    "file_path": "dummy-pii/dummy-drivers-license-nebraska-us.jpg",
    "pii_class": "Nebraska Driver's License",
    "country_of_origin": "United States",
    "faces": 1,
    "identifiers": [],
    "emails": [],
    "phone_numbers": [
        "4000002170"
    ],
    "addresses": [
        "Nebraska"
    ]
}

Searching for PII in dummy-pii/dummy-PAN-India.jpg
{
    "file_path": "dummy-pii/dummy-PAN-India.jpg",
    "pii_class": "Permanent Account Number",
    "country_of_origin": "India",
    "faces": 0,
    "identifiers": [],
    "emails": [],
    "phone_numbers": [],
    "addresses": [
        "INDIA"
    ]
}

...

ไฟล์ชื่อ output.txt ถูกสร้างขึ้นซึ่งมีเอาต์พุตจากเครื่องมือ ไฟล์นี้ต่อท้ายเป็นลำดับแบบเรียลไทม์

การทำงาน

Octopii ใช้ Tesseract สำหรับการจดจำอักขระแบบออพติคอล (OCR) และ NLTK สำหรับการประมวลผลภาษาธรรมชาติ (NLP) เพื่อตรวจจับสตริงของข้อมูลส่วนบุคคลที่สามารถระบุตัวตนได้ สิ่งนี้ทำได้ผ่านขั้นตอนต่อไปนี้:

1. อินพุตและการนำเข้า

Octopii สแกนสำหรับรูปภาพ (JPG และ PNG) และเอกสาร (PDF, DOC, TXT ฯลฯ ) รองรับ 3 แหล่ง:

Amazon Simple Storage Service (S3): ข้าม XML จาก URL คอนเทนเนอร์ S3
Open Directory Listing: Traverses Apache Open Directory และสแกนสำหรับไฟล์
ระบบไฟล์โลคัล: สามารถเข้าถึงไฟล์และโฟลเดอร์ภายในระบบไฟล์ที่มีลักษณะคล้าย UNIX (MACOS และระบบปฏิบัติการที่ใช้ Linux)

ตรวจพบรูปภาพผ่าน Python Imaging Library (PIL) และเปิดด้วย OpenCV PDF จะถูกแปลงเป็นรายการรูปภาพและสแกนผ่าน OCR ประเภทไฟล์ที่ใช้ข้อความจะถูกอ่านเป็นสตริงและสแกนโดยไม่มี OCR

2. การตรวจจับใบหน้า

เทคนิคการตรวจจับภาพการจำแนกประเภทไบนารี - เรียกว่า "Haar cascade" - ใช้เพื่อตรวจจับใบหน้าภายในภาพ รูปแบบคาสเคดที่ผ่านการฝึกอบรมมาก่อนมีการจัดหาใน repo นี้ซึ่งมีข้อมูลน้ำตกเพื่อให้ OpenCV ใช้ สามารถตรวจพบใบหน้าได้หลายใบหน้าภายในภาพ PII เดียวกันและจำนวนใบหน้าที่ตรวจพบจะถูกสร้างใหม่

3. การทำความสะอาดภาพและข้อความการอ่าน

รูปภาพจะถูก "clened" สำหรับการแยกข้อความด้วยขั้นตอนการแปลงภาพต่อไปนี้:

การหมุนอัตโนมัติ
การวัดระดับสีเทา
ขาวดำ
ค่าเฉลี่ยเกณฑ์
เกณฑ์เกาส์
3x deskewing

ภาพประกอบการกรองรูปภาพ

เนื่องจากขั้นตอนเหล่านี้แยกข้อมูลภาพออกไป (รวมถึงสีในภาพถ่าย) กระบวนการทำความสะอาดภาพนี้เกิดขึ้นหลังจากการตรวจจับหน้าพยายาม

4. การจดจำอักขระออพติคอล (OCR)

Tesseract ใช้เพื่อคว้าสตริงข้อความทั้งหมดจากรูปภาพ/ไฟล์ จากนั้นจะถูกส่งไปยังรายการสตริงแยกด้วยอักขระใหม่ (' n') และช่องว่าง ('') ข้อความที่อ่านไม่ออกเช่นสตริง null และอักขระเดี่ยวจะถูกทิ้งจากรายการนี้ส่งผลให้รายการคำที่มีศักยภาพ 'เข้าใจได้'

รายการคำนี้จะถูกป้อนเข้าสู่ฟังก์ชั่น Checker ที่คล้ายกัน ฟังก์ชั่นนี้ใช้การจับคู่รูปแบบ Gestalt เพื่อเปรียบเทียบแต่ละคำที่แยกออกจากเอกสาร PII กับรายการคำหลักแสดงใน definitions.json json การตรวจสอบนี้เกิดขึ้นครั้งเดียวต่อการทำความสะอาด จำนวนครั้งที่คำจากคำหลักถูกนับและใช้เพื่อให้ได้คะแนนความมั่นใจ เมื่อคำหลักของคำจำกัดความเฉพาะปรากฏซ้ำในการสแกนเหล่านี้คำจำกัดความนั้นจะได้คะแนนสูงสุดและถูกเลือกเป็นคลาส PII ที่คาดการณ์ไว้

Octopii ยังตรวจสอบสาร PII ที่ละเอียดอ่อนเช่นอีเมลหมายเลขโทรศัพท์และ ID ของรัฐบาลทั่วไปตัวระบุที่ไม่ซ้ำกันโดยใช้การแสดงออกปกติ นอกจากนี้ยังสามารถแยกข้อมูลตำแหน่งทางภูมิศาสตร์เช่นที่อยู่และประเทศโดยใช้การประมวลผลภาษาธรรมชาติ

4. เอาต์พุต

ผลลัพธ์ประกอบด้วยสิ่งต่อไปนี้:

file_path : ไฟล์ที่มี PII สามารถพบได้
pii_class : ประเภทของ pii ไฟล์นี้มี
country_of_origin : ที่ PII นี้มีต้นกำเนิดมาจาก
identifiers : ตัวระบุรหัสหรือตัวเลขที่ไม่ซ้ำกันซึ่งอาจใช้ในการกำหนดเป้าหมายบุคคลที่กล่าวถึงใน PII
emails และ phone_numbers : ข้อมูลการติดต่อในไฟล์
addresses : รูปแบบของข้อมูลตำแหน่งทางภูมิศาสตร์ใด ๆ ใน PII สิ่งนี้อาจใช้ในการสามเหลี่ยมที่ตั้งของแต่ละบุคคล