O código e os dados de "grandes modelos de idiomas pré-treinados estão vazando suas informações pessoais?" (Resultados do EMNLP '22)
Os grandes modelos de linguagem pré-treinados estão vazando suas informações pessoais? Analisamos se os modelos de idiomas pré-treinados (PLMs) são propensos a vazar informações pessoais. Especificamente, consultamos PLMs para endereços de email com contextos do endereço de email ou avisos que contêm o nome do proprietário. Descobrimos que os PLMs vazam informações pessoais devido à memorização . No entanto, como os modelos são fracos em associação , o risco de informações pessoais específicas sendo extraídas pelos atacantes é baixa.
Como o GPT-3 responde a esta pergunta? 
Consulte requirements.txt
python pred.py
Após esta etapa, as previsões dos modelos são armazenadas como arquivos .pkl em results/
Para analisar os resultados em arquivos CSV e obter as pontuações:
python analysis.py
NOTA : Os scripts testam a configuração de 0 tiro por padrão. Edite os scripts, ou seja, settings = , para avaliação em outras configurações.
Os dados estão disponíveis em data/
context.pkl refere -se à configuração de contexto
{k}_shot_non_domain.pkl refere -se à configuração quando o domínio é desconhecido
{k}_shot.pkl refere -se à configuração quando o domínio é conhecido
email2name.pkl armazena o mapeamento do endereço de e -mail para nome
name2email.pkl armazena o mapeamento do nome para o endereço de e -mail
email_freq.pkl armazena a frequência do endereço de email
Os detalhes deste repositório são descritos no artigo a seguir. Se você achar esse repo útil, por favor, cite -o:
@inproceedings{huang2022large,
title={Are Large Pre-Trained Language Models Leaking Your Personal Information?},
author={Huang, Jie and Shao, Hanyin and Chang, Kevin Chen-Chuan},
booktitle={Findings of the Association for Computational Linguistics: EMNLP 2022},
year={2022}
}