Extracting Training Data from Large Langauge Models Téléchargement - Extracting Training Data from Large Langauge Models Téléchargement du code source

Extracting Training Data from Large Langauge Models

Code Source AI

1.0.0

Télécharger

Extraction des données de formation de grands modèles Langauge

Une réimplémentation des «données d'entraînement d'extraction à partir de modèles de langue importants» par Carlini et al. Le document a déjà une implémentation officielle - https://github.com/ftramer/lm_memorization, à partir de laquelle j'ai emprunté des parties du code, en même temps améliorant la lisibilité de quelques fonctions.

Cependant, le référentiel officiel ne couvre pas -

Méthode d'échantillonnage - Échantillonnage avec une température en décomposition (Section 5.1.1 du papier)
Métrique - perplexité minimale sur une fenêtre coulissante (section 5.2 du papier)

J'étais vraiment fasciné par le journal et je voulais le mettre en œuvre moi-même. Comme l'implémentation officielle, j'ai également inclus un fichier sample.md, qui a une partie du contenu mémorisé que je pouvais extraire de GPT-2. Bien que je puisse trouver un contenu mémorisé intéressant, les résultats ont encore quelques limites -

En raison des contraintes de temps de calcul, je ne pouvais générer que 25 000 échantillons pour chaque méthode d'échantillonnage (contre 600 000 générés par les auteurs de l'article)
En raison des contraintes de mémoire, je n'ai pas pu incorporer le rapport métrique - log-perplexités de GPT2-XL et GPT2-Medium. J'ai inclus le code pour cela dans le script et si l'on a un calcul suffisant, ils peuvent décommenter les lignes pertinentes et incorporer cette métrique également.

Exigences

Pytorch
Transformateurs
Nombant
Tqdm

Ou, directement

pip install -r requirements.txt

Extraction de données

Métriques pour le classement

Les échantillons générés sont classés en fonction de six mesures d'inférence des membres introduites dans l'article:

La perplexité logarithmique du modèle GPT2-XL
Le rapport des perplexités logarithmiques du modèle GPT2-XL et du modèle GPT2-Small
Le rapport des perplexités logarithmiques du modèle GPT2-XL et du modèle GPT2-Medium (implémenté mais ne peut pas être exécuté en raison de contraintes de calcul)
Le rapport de la perplexité logarithmique de GPT2-XL et l'entropie de l'échantillon estimé par Zlib
Le rapport des perplexités logarithmiques du GPT2-XL pour l'échantillon généré et le même échantillon dans des lettres inférieures
La perplexité logique de GPT2-XL sur la fenêtre de taille 50

Les 10 meilleurs échantillons selon chaque métrique sont imprimés, et les 100 meilleurs échantillons selon chaque métrique AE enregistrée dans le OutFile . Ces échantillons sont susceptibles de contenir du texte textuel à partir des données de formation GPT-2.

Échantillonnage supérieur

 python extraction_top_n.py --N 5000 --batch_size 20 --outfile top_n_samples.txt

Cela génère 5000 échantillons avec GPT2-XL. Les échantillons sont générés avec l'échantillonnage supérieur-K (k = 40) et une invite vide.

Désintégration de la température

 python extraction_temperature_decay.py --N 5000 --batch_size 20 --outfile temperature_decay_samples.txt

Cela génère 5000 échantillons avec GPT2-XL. Les échantillons sont générés avec l'échantillonnage avec la décroissance de la température (désintégration de la température Softmax de 10 à 1 ou les 20 premiers jetons et 1 pour tous les jetons suivants) et une invite vide.

Conditionnement du texte Internet

Dans l'article, les auteurs ont également essayé d'inciter le modèle GT2-XL avec des extraits de texte du Web (CommonCrawl), ce qui a augmenté le risque de générer du contenu mémorisé.

J'ai utilisé le même échantillon de rampe à partir de mai 2021 (~ 350 Mo) utilisé par les auteurs.

 ./download_cc.sh

Alors,

 python extraction_commoncrawl.py --N 5000 --batch_size 20 --outfile commoncrawl_samples.txt

Toutes les séquences générées ont une longueur finale de la plupart des 256 jetons.

Exemples de sorties

Certaines sorties intéressantes qui ont été extraites de GPT-2 peuvent être trouvées ici.

Développer

Informations supplémentaires

Version 1.0.0
Type Code Source AI
Date de mise à jour 2025-09-06
taille 40.66KB
Provenant de Github

Applications connexes

llama models

2024-11-10
EMIT Data Resources

2024-11-09
pytorch image models

2024-11-03
Formation d'ensemble

2023-08-15
Exploration de données biologiques

2010-03-22
Récupération de données intelligente

2009-06-18

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
ML stack

Code Source AI

1.0.0
awesome free chatgpt

Code Source AI

1.0.0
pywin_contextmenu

Code Source AI

Version update
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout