Extracting Training Data from Large Langauge Models

Extracting Training Data from Large Langauge Models

كود الذكاء الاصطناعي

1.0.0

تنزيل

استخراج بيانات التدريب من نماذج Langauge الكبيرة

إعادة تنفيذ ورقة "استخراج بيانات التدريب من نماذج اللغة الكبيرة" من تأليف Carlini et al. تحتوي الورقة بالفعل على تنفيذ رسمي - https://github.com/ftramer/lm_memorization ، والتي استعارتها أجزاء من الكود ، في نفس الوقت تحسين قابلية قراءة بعض الوظائف.

ومع ذلك ، فإن المستودع الرسمي لا يغطي -

طريقة أخذ العينات - أخذ العينات مع درجة حرارة التحلل (القسم 5.1.1 من الورقة)
المتري - الحد الأدنى من الحيرة على نافذة منزلق (القسم 5.2 من الورقة)

كنت مفتونًا حقًا بالورقة وأردت تنفيذه بنفسي. مثل التنفيذ الرسمي ، قمت أيضًا بتضمين ملف samples.md ، والذي يحتوي على بعض المحتوى المحفوظ الذي يمكنني استخراجه من GPT-2. على الرغم من أنني قادر على العثور على بعض المحتوى المحفوظ المثير للاهتمام ، إلا أن النتائج لا تزال لديها بعض القيود -

نظرًا لقيود الوقت ، لا يمكنني سوى إنشاء 25000 عينة لكل طريقة أخذ عينات (مقارنة بـ 600000 تم إنشاؤها بواسطة مؤلفي الورق)
نظرًا لقيود الذاكرة ، لم أتمكن من دمج النسبة المقيسة-نسبة السجل من GPT2-XL و GPT2-Medium. لقد قمت بتضمين الكود الخاص بذلك في البرنامج النصي وإذا كان لدى المرء حساب كافٍ ، فيمكنه فك الخطوط ذات الصلة ودمج هذا المقياس أيضًا.

متطلبات

Pytorch
محولات
numpy
TQDM

أو مباشرة

pip install -r requirements.txt

استخراج البيانات

مقاييس الترتيب

يتم تصنيف العينات التي تم إنشاؤها وفقًا لستة مقاييس استنتاج العضوية المقدمة في الورقة:

سجل السجل لنموذج GPT2-XL
نسبة السجلات في نموذج GPT2-XL ونموذج GPT2-Small
نسبة السجلات في نموذج GPT2-XL ونموذج GPT2-Medium (تم تنفيذه ولكن لا يمكن تشغيله بسبب قيود الحساب)
نسبة السجل الحيرة لـ GPT2-XL وإنتروبيا العينة المقدرة بواسطة Zlib
نسبة السجل perplexities من GPT2-XL للعينة التي تم إنشاؤها ونفس العينة في الحروف السفلية
الحد الأدنى لوجود السجل من GPT2-XL على نافذة الحجم 50

تتم طباعة أفضل 10 عينات وفقًا لكل مقياس ، وتسجيل أعلى 100 عينة وفقًا لكل متري AE في الخارج . من المحتمل أن تحتوي هذه العينات على نص حرفي من بيانات التدريب GPT-2.

أخذ العينات العليا

 python extraction_top_n.py --N 5000 --batch_size 20 --outfile top_n_samples.txt

هذا يولد 5000 عينة مع GPT2-XL. يتم إنشاء العينات مع أخذ العينات العلوية K (K = 40) ومطالبة فارغة.

درجة حرارة التحلل

 python extraction_temperature_decay.py --N 5000 --batch_size 20 --outfile temperature_decay_samples.txt

هذا يولد 5000 عينة مع GPT2-XL. يتم إنشاء العينات مع أخذ العينات مع تحلل درجة الحرارة (تحلل درجة حرارة SoftMax من 10 إلى 1 أو أول 20 رمزًا و 1 لجميع الرموز اللاحقة) ومطالبة فارغة.

تكييف على نص الإنترنت

في الورقة ، حاول المؤلفون أيضًا دفع نموذج GT2-XL مع مقتطفات من النص من الويب (CommonCrawl) مما زاد من فرصة توليد المحتوى المحفوظ.

لقد استخدمت نفس العينة من الزحف من مايو 2021 (حوالي 350 ميجابايت) المستخدمة من قبل المؤلفين.

 ./download_cc.sh

ثم،

 python extraction_commoncrawl.py --N 5000 --batch_size 20 --outfile commoncrawl_samples.txt

جميع التسلسلات التي تم إنشاؤها لها طول نهائي من 256 رمز الرموز.

عينة مخرجات

يمكن العثور على بعض المخرجات المثيرة للاهتمام التي تم استخراجها من GPT-2 هنا.

يوسع

معلومات إضافية

الإصدار 1.0.0
النوع كود الذكاء الاصطناعي
وقت التحديث 2025-09-06
الحجم 40.66KB
من Github

تطبيقات ذات صلة

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
ML stack

كود الذكاء الاصطناعي

1.0.0
awesome free chatgpt

كود الذكاء الاصطناعي

1.0.0
pywin_contextmenu

كود الذكاء الاصطناعي

Version update
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3

أخبار ذات صلة الكل

استخراج بيانات التدريب من نماذج Langauge الكبيرة

متطلبات

استخراج البيانات

مقاييس الترتيب

أخذ العينات العليا

درجة حرارة التحلل

تكييف على نص الإنترنت

عينة مخرجات

llama models

EMIT Data Resources

pytorch image models

تدريب الفرقة

استخراج البيانات البيولوجية

استعادة البيانات الذكية

chat.petals.dev

GPT Prompt Templates

GPTyped

ML stack

awesome free chatgpt

pywin_contextmenu

Google Dorks

shepherd

mongo express