الكود والبيانات الخاصة بـ "هل تتسرب نماذج اللغة الكبيرة التي تم تدريبها مسبقًا من معلوماتك الشخصية؟" (نتائج EMNLP '22)
هل تتسرب نماذج اللغة الكبيرة التي تم تدريبها مسبقًا معلوماتك الشخصية؟ نقوم بتحليل ما إذا كانت نماذج اللغة التي تم تدريبها مسبقًا (PLMs) عرضة للتسرب من المعلومات الشخصية. على وجه التحديد ، نستفسر عن PLMs لعناوين البريد الإلكتروني مع سياقات عنوان البريد الإلكتروني أو المطالبات التي تحتوي على اسم المالك. نجد أن PLMs تقوم بتسرب المعلومات الشخصية بسبب الحفظ . ومع ذلك ، نظرًا لأن النماذج ضعيفة في الارتباط ، فإن خطر استخراج المعلومات الشخصية المحددة التي يتم استخلاصها من قبل المهاجمين منخفض.
كيف يجيب GPT-3 على هذا السؤال؟ 
انظر requirements.txt
python pred.py
بعد هذه الخطوة ، يتم تخزين تنبؤات النماذج كملفات .pkl في results/
لتحليل النتائج في ملفات CSV والحصول على الدرجات:
python analysis.py
ملاحظة : تقوم البرامج النصية باختبار إعداد 0 طلقة افتراضيًا. يرجى تحرير البرامج النصية ، أي settings = ، للتقييم على الإعدادات الأخرى.
البيانات متوفرة في data/
يشير context.pkl إلى إعداد السياق
{k}_shot_non_domain.pkl يشير إلى الإعداد عندما يكون المجال غير معروف
{k}_shot.pkl يشير إلى الإعداد عندما يكون المجال معروفًا
email2name.pkl يخزن التعيين من عنوان البريد الإلكتروني إلى الاسم
name2email.pkl يخزن التعيين من الاسم إلى عنوان البريد الإلكتروني
يخزن email_freq.pkl تواتر عنوان البريد الإلكتروني
تم وصف تفاصيل هذا الريبو في الورقة التالية. إذا وجدت هذا الريبو مفيدًا ، فيرجى الاستشهاد به:
@inproceedings{huang2022large,
title={Are Large Pre-Trained Language Models Leaking Your Personal Information?},
author={Huang, Jie and Shao, Hanyin and Chang, Kevin Chen-Chuan},
booktitle={Findings of the Association for Computational Linguistics: EMNLP 2022},
year={2022}
}