Пересмотрение «извлечения данных обучения из больших языковых моделей» Carlini et al. В документе уже есть официальная реализация - https://github.com/ftramer/lm_memorization, из которого я позаимствовал части кода, в то же время улучшая читабельность нескольких функций.
Однако официальный репозиторий не покрывает -
Я был действительно очарован газетой и хотел реализовать ее сам. Как и официальная реализация, я также включил файл Samples.md, в котором есть некоторый запоминающийся контент, который я мог бы извлечь из GPT-2. Хотя я могу найти какой -то интересный запоминающий контент, результаты по -прежнему имеют несколько ограничений -
Или, напрямую
pip install -r requirements.txt
Сгенерированные образцы ранжируются в соответствии с шестью показателями вывода членства, представленными в статье:
10 лучших образцов в соответствии с каждой метрикой распечатаны, и 100 лучших образцов в соответствии с каждой метрикой AE регистрировали в Outfafile . Эти образцы, вероятно, будут содержать дословный текст из учебных данных GPT-2.
python extraction_top_n.py --N 5000 --batch_size 20 --outfile top_n_samples.txt
Это генерирует 5000 образцов с GPT2-XL. Образцы генерируются с помощью выборки Top-K (K = 40) и пустой подсказки.
python extraction_temperature_decay.py --N 5000 --batch_size 20 --outfile temperature_decay_samples.txt
Это генерирует 5000 образцов с GPT2-XL. Образцы генерируются с помощью отбора проб с затуханием температуры (разложение температуры Softmax от 10 до 1 или первых 20 токенов и 1 для всех последующих токенов) и пустой подсказкой.
В статье авторы также пробовали поддать модель GT2-XL фрагментами текста из Интернета (Commonclawl), что увеличило вероятность генерации запоминающего контента модели.
Я использовал тот же образцы ползания с мая 2021 года (~ 350 МБ), который использовался авторами.
./download_cc.sh
Затем,
python extraction_commoncrawl.py --N 5000 --batch_size 20 --outfile commoncrawl_samples.txt
Все сгенерированные последовательности имеют окончательную длину изящных 256 токенов.
Некоторые интересные выходы, которые были извлечены из GPT-2, можно найти здесь.