ดาวน์โหลด PII Detection - ดาวน์โหลดซอร์สโค้ด PII Detection

PII Detection

โค้ดแหล่งที่มา AI

1.0.0

ดาวน์โหลด

การตรวจจับ PII และการสร้างข้อมูลสังเคราะห์ทางชีวภาพ

ที่เก็บข้อมูลปรับแต่งระบบตรวจจับ ART PII และเพิ่มประสิทธิภาพด้วยการสร้างข้อมูล PII แบบสังเคราะห์

บทนำ•ไฮไลท์•ข้อมูล PII สังเคราะห์•ระบบตรวจจับเอนทิตี PII •ปัญหา•

การแนะนำ

ข้อมูลส่วนบุคคล (PII) เป็นข้อมูลที่ละเอียดอ่อนที่ใช้ในการระบุค้นหาหรือติดต่อบุคคล ระบบตรวจจับเอนทิตี PII สามารถระบุจัดหมวดหมู่และข้อมูลที่ละเอียดอ่อนในข้อความที่ไม่มีโครงสร้าง การปรับปรุงระบบตรวจจับ PII ช่วยรักษาความเป็นส่วนตัวและความปลอดภัยของบุคคลปฏิบัติตามข้อกำหนดทางกฎหมายและกฎระเบียบและป้องกันการขโมยข้อมูลประจำตัวการฉ้อโกงหรืออันตรายประเภทอื่น ๆ รูปที่ 1 แสดงตัวอย่างเอนทิตี PII โดยใช้รูปแบบภายใน, ภายนอก, เริ่มต้น (IOB) รูปแบบ

รูปที่ 1: ตัวอย่างข้อมูล PII ในรูปแบบ IOB [แหล่งที่มา]

งานในที่เก็บนี้ได้มาในระหว่างการแข่งขัน Kaggle การตรวจจับข้อมูลเอเจนซี่การเรียนรู้ - PII การใช้เทคนิคในที่เก็บนี้จะให้บริการโซลูชั่นใน 1% สูงสุดสำหรับการแข่งขัน

ไฮไลท์

ชุดข้อมูล PII สังเคราะห์พร้อมการจัดรูปแบบชีวภาพ
- Meta-llama3-8b-Instruct ใช้เพื่อสร้างบทความสังเคราะห์
- การกระตุ้นให้เทคนิคที่ดีที่สุดจากวิศวกรรมที่รวดเร็วและการใช้ PII PlaceHolders แทนที่จะใส่ข้อมูล PII ลงในพรอมต์โดยตรง
- Faker เพื่อสร้างข้อมูล PII ที่กำหนดเองที่ถูกฉีดลงในข้อความที่ไม่มีโครงสร้าง
- Decoupling LLM Domain เฉพาะสร้างข้อความด้วย PII placeholder และข้อมูล Faker PII มีประโยชน์สำหรับการทดลองที่มีประสิทธิภาพในการสร้างชุดข้อมูล PII สังเคราะห์
ระบบตรวจจับเอนทิตี PII
- Masked Language Modeling (MLM) กับ Hugging Face Trainer สำหรับการปรับโดเมน
- การจัดหมวดหมู่โทเค็นการจัดหมวดหมู่แบบ end-to-end นั้นถูกสร้างขึ้นเพื่อการปรับแต่งแบบจำลองที่ล้ำสมัย
- โมเดลขนาดใหญ่ของ Microsoft/Deberta-V3 ได้รับการฝึกฝนโดยใช้ไฟล์การกำหนดค่าและเชลล์ทุบตีสำหรับระบบอัตโนมัติที่หลากหลาย
- น้ำหนักและอคติสำหรับการติดตามการทดลอง
- น้ำหนักคลาสที่มีฟังก์ชั่นการสูญเสียแบบกำหนดเอง - การจำแนกโทเค็นสามารถมีความไม่สมดุลของคลาสที่รุนแรงและนี่คือการแก้ไขโดยการปรับพารามิเตอร์ class_weights ในผู้ฝึกสอนใบหน้ากอดและด้วยการสูญเสียโฟกัสหรือการสูญเสียเอนโทรปีข้าม

ข้อมูล PII สังเคราะห์

รูปแบบ IOB หรือที่เรียกว่ารูปแบบทางชีวภาพเป็นรูปแบบการติดแท็กทั่วไปสำหรับโทเค็นแท็กในงาน chunking เช่นแอปพลิเคชันการจดจำเอนทิตี (NER) ที่มีชื่อ การสร้างชุดข้อมูลชีวภาพที่มีป้ายกำกับอาจเป็นเวลาและแรงงานที่เข้มข้นสำหรับชุดข้อมูลเฉพาะของโดเมน อีกทางเลือกหนึ่งคือการสร้างชุดข้อมูล PII แบบสังเคราะห์ซึ่งเป็นตัวแทนของแอปพลิเคชันในชีวิตจริงของคุณอย่างใกล้ชิด อ้างถึงไดเรกทอรี gen-data สำหรับรหัสเพื่อสร้างข้อมูล PII เฉพาะโดเมน ไฟล์ด้านล่างจะถูกดำเนินการตามลำดับเนื่องจากแต่ละรายการเป็นตัวแทนที่แตกต่างกันในการสร้างข้อมูล PII สังเคราะห์

1) ข้อมูล Faker PII

ข้อมูล PII แบบสังเคราะห์ถูกสร้างขึ้นโดยใช้ฟังก์ชั่น Faker และ Custom เพื่อสร้างข้อมูล PII ข้อมูลนี้ถูกวางลงใน LLM สร้างข้อความที่ไม่มีโครงสร้างที่สร้างขึ้นในขั้นตอนต่อไป

2) การสร้างข้อความเฉพาะโดเมน LLM

Generative LLMS (เช่น LLAMA3) ถูกนำมาใช้เพื่อสร้างข้อความที่ไม่มีโครงสร้างซึ่งคล้ายกับข้อความเฉพาะโดเมน ในที่เก็บข้อมูลนี้เรียงความการเลียนแบบข้อมูลจากนักเรียนในหลักสูตรออนไลน์ อ้างถึงพรอมต์ต่าง ๆ สำหรับตัวอย่างการแจ้งเตือนที่ใช้ในงานนี้

ข้อสังเกต : ข้อมูลเชิงลึกที่เป็นประโยชน์ที่ได้เรียนรู้ระหว่างงานนี้คือการแจ้งให้ LLM สร้าง placeholders สำหรับข้อมูล PII ข้อมูลจากขั้นตอนที่ #1 จะถูกฉีดเข้าไปในตัวยึดตำแหน่ง วิธีการ PII POCELEDER ให้ผลประโยชน์เล็ก ๆ น้อย ๆ ดังต่อไปนี้:

รุ่น LLM บางรุ่น (ทั้งแหล่งเปิดและปิด) อาจปฏิเสธที่จะสร้างข้อความหากมีการกล่าวถึง PII เนื่องจากการเซ็นเซอร์
ตัวยึดตำแหน่งนั้นง่ายต่อการค้นหาโดยใช้เทคนิคง่าย ๆ (เช่น regex)
ภาพหลอนของ LLM น้อยลงเมื่อเขียนตัวยึดตำแหน่งเมื่อเทียบกับข้อมูล PII โดยตรง

มีสองตัวอย่างของกลยุทธ์การแจ้งเตือนซึ่งแสดงให้เห็นถึงความแตกต่างระหว่างการแจ้งเตือนด้วย PII โดยตรง (ตัวอย่าง 1) จากนั้นกับตัวยึดตำแหน่ง (ตัวอย่างที่ 2)

ตัวอย่างที่ 1: การแจ้งเตือน LLM ด้วยการฉีดข้อมูล PII โดยตรง

Model Prompt:
Write an sentence introducing yourself and include only your personal information provided below:
  - FULL_NAME: John Doe
  - PHONE_NUM: 555-123-4567

Model Response:
My name is John Doe and you can reach me at 555-125-4567 or by email at [email protected].

เทคนิคการแจ้งเตือนนี้แนะนำข้อผิดพลาดสองสามข้อจาก LLM ที่ยากต่อการจดจำโปรแกรมและนำไปสู่การติดฉลาก PII ในรูปแบบชีวภาพ ตัวอย่างที่ 1 ขอให้โมเดลแทรกข้อมูล PII ลงในข้อความโดยตรงและสังเกตเห็นข้อผิดพลาดเล็กน้อย:

phone_num ถูกปิดโดยตัวเลขเดียว (123 กับ 125) สิ่งนี้อาจเกิดขึ้นได้กับชื่อหมายเลขโทรศัพท์ที่อยู่ถนนหรือหน่วยงาน PII ใด ๆ
LLM จะฉีด PII พิเศษที่ไม่ได้ขอเช่น [email protected] อีเมล

ตัวอย่างที่ 2: LLM พร้อมกับตัวยึด PII

Model Prompt:
Write an sentence introducing yourself and include only your personal information using the placeholders provided below:
  - {FULL_NAME}: First and Last Name
  - {PHONE_NUM}: Personal phone number

Model Response:
My name is {FULL_NAME} and you can reach me at {PHONE_NUM}.

ด้วยตัวอย่างที่ 2 LLM ไม่มีโอกาสถ่ายโอนข้อผิดพลาดใด ๆ ใน phone_num หรือกับ full_name นอกจากนี้ดูเหมือนว่า LLM จะไม่รวมเอนทิตี PII พิเศษ

3) แทรกข้อมูล PII ลงในข้อความที่สร้างขึ้น LLM

สองขั้นตอนข้างต้นแยกข้อมูล PII และการสร้างข้อความเฉพาะโดเมน ในขั้นตอนที่ #3 ข้อมูลขั้นตอน #1 PII จะถูกแทรกลงในข้อความที่สร้างขึ้นเฉพาะโดเมน LLM ของขั้นตอนที่ #2 สิ่งนี้มีประโยชน์เพราะคุณสามารถทดลองกับชุดข้อมูล PII ที่แตกต่างกันและข้อมูลการสร้างข้อความเฉพาะโดเมน

ระบบตรวจจับเอนทิตี PII

แบบจำลอง LLM ที่มีประสิทธิภาพดีที่สุดสำหรับการตรวจจับเอนทิตี PII คือเบิร์ตที่เพิ่มการถอดรหัสของ Microsoft พร้อมกับรุ่น V3 ที่ไม่สนใจ โมเดลนี้ทำงานได้ดีอย่างต่อเนื่องสำหรับงานโมเดลตัวเข้ารหัสเช่นการจดจำเอนทิตีที่มีชื่อ (NER) คำถามและคำตอบและการจำแนกประเภท

จุดเริ่มต้นที่ดีสำหรับการฝึกอบรมโมเดล Deberta-V3 คือกับโมดูลการปรับจูนเดอร์ตา-V3 พื้นฐาน ในโมดูลนี้ผู้ฝึกสอนใบหน้ากอดแบบกำหนดเองถูกสร้างขึ้นเพื่อฝึกอบรมด้วยการสูญเสียโฟกัสหรือการสูญเสีย CE เพื่อบัญชีสำหรับความไม่สมดุลของชั้นเรียน

 class CustomTrainer ( Trainer ):
    def __init__ (
            self ,
            focal_loss_info : SimpleNamespace ,
            * args ,
            class_weights = None ,
            ** kwargs ):
        super (). __init__ ( * args , ** kwargs )
        # Assuming class_weights is a Tensor of weights for each class
        self . class_weights = class_weights
        self . focal_loss_info = focal_loss_info

    def compute_loss ( self , model , inputs , return_outputs = False ):
        # Extract labels
        labels = inputs . pop ( "labels" )

        # Forward pass
        outputs = model ( ** inputs )
        logits = outputs . logits

        # Loss calculation
        if self . focal_loss_info . apply :
            loss_fct = FocalLoss ( alpha = 5 , gamma = 2 , reduction = 'mean' )
            loss = loss_fct ( logits . view ( - 1 , self . model . config . num_labels ),
                            labels . view ( - 1 ))
        else :
            loss_fct = CrossEntropyLoss ( weight = self . class_weights )
            if self . label_smoother is not None and "labels" in inputs :
                loss = self . label_smoother ( outputs , inputs )
            else :
                loss = loss_fct ( logits . view ( - 1 , self . model . config . num_labels ),
                                labels . view ( - 1 ))
        return ( loss , outputs ) if return_outputs else loss

เทคนิคและเคล็ดลับเพิ่มเติมเพื่อช่วยปรับแต่งระบบตรวจจับ PII ที่มีอยู่ในไดเรกทอรีการฝึกอบรมคือ:

Masked Language Modeling (MLM) กับ Hugging Face Trainer สำหรับการปรับตัวของโดเมนสามารถใช้ unlabeled datasets เพื่อเปิดเผยรูปแบบของรูปแบบภาษาและคำศัพท์เฉพาะโดเมน ปรับแต่งโมเดลที่ได้รับการฝึกอบรมเพิ่มเติมล่วงหน้าในงานเฉพาะหรือโดเมนเริ่มต้นด้วยจุดตรวจสอบเริ่มต้นที่เหมาะสำหรับการกระจายงานและข้อมูลที่อยู่ในมือโดยทั่วไปจะให้ประสิทธิภาพที่ดีขึ้นเมื่อเทียบกับแบบจำลองการปรับแต่งที่เริ่มต้นจากจุดตรวจสอบเริ่มต้นทั่วไป [แหล่งที่มา: 1, 2]
น้ำหนักและอคติใช้สำหรับการติดตามการทดลองในซอร์สโค้ดนี้ ลิงค์ด้านล่างเป็นข้อมูลอ้างอิงที่ยอดเยี่ยมในการติดตามการตั้งค่า W&B
- การใช้เครื่องมือและอคติ: การตรวจจับข้อมูล PII Darek Kteczek แสดงวิธีการใช้เครื่องมือ W&B ในท่อ ML ของคุณโดยใช้กรณีการใช้งานการตรวจจับ PII
การฝึกอบรม GPU แบบเดี่ยวหรือคู่ : สามโมดูลได้เตรียมการทดสอบด้วยแบบจำลองการปรับแต่งด้วย GPU เดี่ยวหรือคู่ มีความสมดุลระหว่างความยาวโทเค็นขนาดรุ่นและเวลาการฝึกอบรม
- GPU เดี่ยวสำหรับความยาวโทเค็นที่สมเหตุสมผลด้วยการก้าวย่าง: นี่เป็นวิธีการปรับจูนโดยทั่วไปซึ่งขนาดโทเค็นของ 512 หรือ 1,024 พร้อมด้วยความก้าวหน้า (เช่น 16, 32 หรือ 128) ถูกใช้เพื่อพิมพ์ข้อความ วิธีการเหล่านี้ให้ผลลัพธ์ที่ยอดเยี่ยมในประสิทธิภาพและไม่ต้องการหน่วยความจำ GPU มากนัก โปรดจำไว้ว่าหน่วยความจำ GPU จะปรับขนาดสี่เหลี่ยมจัตุรัสด้วยความยาวโทเค็นสำหรับรุ่นหม้อแปลง [ความสนใจแฝงสำหรับหม้อแปลงเวลาเชิงเส้น
- GPU เดี่ยวโดยใช้ความยาวโทเค็นสูงและไม่มีการก้าวย่าง: การชี้ทางตรวจสอบการไล่ระดับสีได้ถูกรวมไว้ในสคริปต์นี้เพื่อป้องกันการล่มของหน่วยความจำ GPU เนื่องจากความยาวโทเค็นขนาดใหญ่มาก> 5K
- การฝึกอบรม Dual GPU: โมดูลนี้ทำให้โมเดล Deberta-V3 ผ่าน GPU สองตัวดังนั้นเทคนิคที่มีประสิทธิภาพหน่วยความจำอื่น ๆ จึงไม่จำเป็นต้องปรับใช้และสามารถใช้ความยาวโทเค็นสูงได้ ข้อเสียของวิธีการนี้คือไม่มีฮาร์ดแวร์ที่เหมาะสม (เช่น NVLinks) เวลาการฝึกอบรมจะเพิ่มขึ้นอย่างมากเนื่องจากการถ่ายโอนข้อมูลระหว่าง GPU ในระหว่างการฝึกอบรม

หมายเหตุ : เวิร์กโฟลว์นี้ที่นำเสนอที่นี่สามารถปรับให้เข้ากับแอปพลิเคชันการเรียนรู้ที่ลึกล้ำจำนวนมากไม่ใช่แค่ LLM