LM_PersonalInfoLeak
1.0.0
“大型预训练的语言模型泄露您的个人信息?”的代码和数据? (EMNLP '22的发现)
大型预训练的语言模型是否泄漏了您的个人信息?我们分析了预训练的语言模型(PLM)是否容易泄漏个人信息。具体来说,我们向PLMS查询电子邮件地址,其中包含电子邮件地址的上下文或包含所有者名称的提示。我们发现,由于记忆, PLM确实会泄漏个人信息。但是,由于模型在关联方面较弱,因此攻击者提取的特定个人信息的风险很低。
GPT-3如何回答这个问题? 
请参阅requirements.txt
python pred.py
在此步骤之后,模型的预测将作为.pkl文件存储在results/
分析CSV文件中的结果并获得分数:
python analysis.py
注意:脚本默认情况下测试0-shot设置。请编辑脚本,即settings = ,以在其他设置上进行评估。
数据可在data/
context.pkl指上下文设置
{k}_shot_non_domain.pkl指域未知时的设置
{k}_shot.pkl指已知域时的设置
email2name.pkl存储从电子邮件地址到名称的映射
name2email.pkl存储从名称到电子邮件地址的映射
email_freq.pkl存储电子邮件地址的频率
以下论文描述了此存储库的详细信息。如果您觉得此存储库有用,请邀请它:
@inproceedings{huang2022large,
title={Are Large Pre-Trained Language Models Leaking Your Personal Information?},
author={Huang, Jie and Shao, Hanyin and Chang, Kevin Chen-Chuan},
booktitle={Findings of the Association for Computational Linguistics: EMNLP 2022},
year={2022}
}