Der Code und die Daten für "Sind große vorgebaute Sprachmodelle Ihre persönlichen Informationen durchlaufen?" (Ergebnisse von EMNLP '22)
Lücken große vorgeborene Sprachmodelle Ihre persönlichen Informationen? Wir analysieren, ob vorgeborene Sprachmodelle (PLMs) anfällig für undichte persönliche Informationen sind. Insbesondere fragen wir PLMs nach E -Mail -Adressen mit Kontexten der E -Mail -Adresse oder Eingabeaufforderungen, die den Namen des Eigentümers enthalten. Wir stellen fest, dass PLMs aufgrund des Auswendiglernens personenbezogene Daten auslaufen. Da die Modelle jedoch schwach sind, ist das Risiko, dass bestimmte persönliche Informationen von Angreifern extrahiert werden, gering.
Wie beantwortet GPT-3 diese Frage? 
Siehe requirements.txt
python pred.py
Nach diesem Schritt werden die Vorhersagen der Modelle als .pkl -Dateien in results/ gespeichert.
Um die Ergebnisse in CSV -Dateien zu analysieren und die Bewertungen zu erhalten:
python analysis.py
HINWEIS : Die Skripte testen standardmäßig die 0-Shot-Einstellung . Bitte bearbeiten Sie die Skripte, dh settings = , für die Bewertung in anderen Einstellungen.
Daten sind unter data/ verfügbar
context.pkl bezieht sich auf die Kontexteinstellung
{k}_shot_non_domain.pkl bezieht sich auf die Einstellung, wenn die Domäne unbekannt ist
{k}_shot.pkl bezieht sich auf die Einstellung, wenn die Domäne bekannt ist
email2name.pkl speichert die Zuordnung von E -Mail -Adresse zu Namen
name2email.pkl speichert die Zuordnung von Namen zu E -Mail -Adresse
email_freq.pkl speichert die Häufigkeit der E -Mail -Adresse
Die Details dieses Repo werden in der folgenden Arbeit beschrieben. Wenn Sie dieses Repo nützlich finden, zitieren Sie ihn bitte:
@inproceedings{huang2022large,
title={Are Large Pre-Trained Language Models Leaking Your Personal Information?},
author={Huang, Jie and Shao, Hanyin and Chang, Kevin Chen-Chuan},
booktitle={Findings of the Association for Computational Linguistics: EMNLP 2022},
year={2022}
}