Extracting Training Data from Large Langauge Modelsダウンロード - Extracting Training Data from Large Langauge Modelsソースコードダウンロード

Extracting Training Data from Large Langauge Models

AI ソースコード

1.0.0

ダウンロード

大規模なランゲージモデルからトレーニングデータを抽出します

Carlini et al。このペーパーには、すでに公式の実装があります-https：//github.com/ftramer/lm_memorizationは、コードの一部を借りて、同時にいくつかの関数の読みやすさを改善しました。

ただし、公式リポジトリはカバーしていません -

サンプリング方法 - 減衰温度でのサンプリング（論文のセクション5.1.1）
メトリック - スライドウィンドウの最小困惑（論文のセクション5.2）

私は紙に本当に魅了され、自分でそれを実装したかったのです。公式の実装と同様に、samples.mdファイルも含めました。これには、GPT-2から抽出できる記憶されたコンテンツがいくつかあります。私はいくつかの興味深い記憶されたコンテンツを見つけることができますが、結果にはまだいくつかの制限があります -

時間の制約を計算するため、サンプリング方法ごとに25,000のサンプルしか生成できませんでした（紙の著者によって生成された600,000と比較）
メモリの制約により、GPT2-XLとGPT2メディウムの対数複製の比率を組み込むことができませんでした。そのコードをスクリプトに含めましたが、十分な計算がある場合、関連する行を除外してそのメトリックも組み込むことができます。

要件

Pytorch
トランス
numpy
TQDM

または、直接

pip install -r requirements.txt

データの抽出

TOP-Kサンプリング

 python extraction_top_n.py --N 5000 --batch_size 20 --outfile top_n_samples.txt

これにより、GPT2-XLで5000のサンプルが生成されます。サンプルは、Top-Kサンプリング（k = 40）と空のプロンプトで生成されます。

温度減衰

 python extraction_temperature_decay.py --N 5000 --batch_size 20 --outfile temperature_decay_samples.txt

これにより、GPT2-XLで5000のサンプルが生成されます。サンプルは、温度減衰（10から1または1つのトークン、1つのトークンの最初の20トークン、1つのトークン1つ）と空のプロンプトでサンプリングで生成されます。

インターネットテキストのコンディショニング

論文では、著者はまた、Web（CommonCrawl）からテキストのスニペットを使用してGT2-XLモデルを促し、モデルが記憶されたコンテンツを生成する可能性を高めようとしました。

著者が使用した2021年5月（〜350 MB）のクロールの同じサンプルを使用しました。

 ./download_cc.sh

それから、

 python extraction_commoncrawl.py --N 5000 --batch_size 20 --outfile commoncrawl_samples.txt

生成されたすべてのシーケンスには、256トークンの最終長さがあります。

サンプル出力

GPT-2から抽出されたいくつかの興味深い出力は、ここにあります。

拡大する

追加情報

バージョン 1.0.0
タイプ AI ソースコード
更新時間 2025-09-06
サイズ 40.66KB
から Github

Extracting Training Data from Large Langauge Models

大規模なランゲージモデルからトレーニングデータを抽出します

要件

データの抽出

ランキングのメトリック

TOP-Kサンプリング

温度減衰

インターネットテキストのコンディショニング

サンプル出力

llama models

EMIT Data Resources

pytorch image models

アンサンブルトレーニング

生物学的データマイニング

スマートデータリカバリ

chat.petals.dev

GPT Prompt Templates

GPTyped

ML stack

awesome free chatgpt

pywin_contextmenu

Google Dorks

shepherd

mongo express