รหัสและข้อมูลสำหรับ "โมเดลภาษาที่ผ่านการฝึกอบรมมาล่วงหน้ามีขนาดใหญ่รั่วไหลของข้อมูลส่วนบุคคลของคุณหรือไม่" (ผลการวิจัยของ EMNLP '22)
รูปแบบภาษาที่ผ่านการฝึกอบรมมาก่อนมีขนาดใหญ่รั่วไหลข้อมูลส่วนบุคคลของคุณหรือไม่? เราวิเคราะห์ว่าแบบจำลองภาษาที่ผ่านการฝึกอบรมมาก่อน (PLMS) มีแนวโน้มที่จะรั่วไหลข้อมูลส่วนบุคคลหรือไม่ โดยเฉพาะเราสอบถาม PLMS สำหรับที่อยู่อีเมลที่มีบริบทของที่อยู่อีเมลหรือพรอมต์ที่มีชื่อเจ้าของ เราพบว่า PLMS ทำข้อมูลส่วนบุคคลรั่วไหลเนื่องจาก การท่องจำ อย่างไรก็ตามเนื่องจากแบบจำลองนั้นอ่อนแอใน การเชื่อมโยง ความเสี่ยงของข้อมูลส่วนบุคคลเฉพาะที่ถูกสกัดโดยผู้โจมตีจึงต่ำ
GPT-3 ตอบคำถามนี้ได้อย่างไร? 
ดู requirements.txt
python pred.py
หลังจากขั้นตอนนี้การคาดการณ์ของโมเดลจะถูกเก็บไว้เป็นไฟล์ .pkl ใน results/
ในการวิเคราะห์ผลลัพธ์ในไฟล์ CSV และรับคะแนน:
python analysis.py
หมายเหตุ : สคริปต์ทดสอบ การตั้งค่า 0-shot โดยค่าเริ่มต้น โปรดแก้ไขสคริปต์เช่น settings = สำหรับการประเมินผลการตั้งค่าอื่น ๆ
ข้อมูลมีอยู่ที่ data/
context.pkl หมายถึงการตั้งค่าบริบท
{k}_shot_non_domain.pkl หมายถึงการตั้งค่าเมื่อไม่ทราบโดเมน
{k}_shot.pkl หมายถึงการตั้งค่าเมื่อทราบโดเมน
email2name.pkl เก็บการแมปจากที่อยู่อีเมลไปยังชื่อ
name2email.pkl เก็บการแมปจากชื่อไปยังที่อยู่อีเมล
email_freq.pkl เก็บความถี่ของที่อยู่อีเมล
รายละเอียดของ repo นี้อธิบายไว้ในบทความต่อไปนี้ หากคุณพบว่า repo นี้มีประโยชน์โปรดกรุณาอ้างอิง:
@inproceedings{huang2022large,
title={Are Large Pre-Trained Language Models Leaking Your Personal Information?},
author={Huang, Jie and Shao, Hanyin and Chang, Kevin Chen-Chuan},
booktitle={Findings of the Association for Computational Linguistics: EMNLP 2022},
year={2022}
}