Extracting Training Data from Large Langauge Models ดาวน์โหลด - Extracting Training Data from Large Langauge Models Source Source Download

Extracting Training Data from Large Langauge Models

โค้ดแหล่งที่มา AI

1.0.0

ดาวน์โหลด

การแยกข้อมูลการฝึกอบรมจากรุ่น Langauge ขนาดใหญ่

การดำเนินการอีกครั้งของกระดาษ "การแยกข้อมูลการฝึกอบรมจากกระดาษแบบจำลองภาษาขนาดใหญ่" โดย Carlini และคณะ บทความนี้มีการใช้งานอย่างเป็นทางการแล้ว - https://github.com/ftramer/lm_memorization ซึ่งฉันได้ยืมส่วนหนึ่งของรหัสในเวลาเดียวกันปรับปรุงความสามารถในการอ่านของฟังก์ชั่นสองสามอย่าง

อย่างไรก็ตามที่เก็บอย่างเป็นทางการไม่ครอบคลุม -

วิธีการสุ่มตัวอย่าง - การสุ่มตัวอย่างด้วยอุณหภูมิการสลายตัว (ส่วน 5.1.1 ของกระดาษ)
ตัวชี้วัด - ความงุนงงขั้นต่ำบนหน้าต่างบานเลื่อน (ส่วน 5.2 ของกระดาษ)

ฉันรู้สึกทึ่งกับกระดาษและต้องการนำไปใช้ด้วยตัวเอง เช่นเดียวกับการใช้งานอย่างเป็นทางการฉันได้รวมไฟล์ Samples.md ซึ่งมีเนื้อหาที่จดจำบางส่วนที่ฉันสามารถแยกออกจาก GPT-2 แม้ว่าฉันจะสามารถค้นหาเนื้อหาที่น่าสนใจได้ แต่ผลลัพธ์ก็ยังมีข้อ จำกัด เล็กน้อย -

เนื่องจากข้อ จำกัด ด้านเวลาคำนวณฉันสามารถสร้างตัวอย่างได้ 25,000 ตัวอย่างสำหรับแต่ละวิธีการสุ่มตัวอย่าง (เมื่อเทียบกับ 600,000 ที่สร้างโดยผู้เขียนกระดาษ)
เนื่องจากข้อ จำกัด ของหน่วยความจำฉันจึงไม่สามารถรวมอัตราส่วนการวัด-การบันทึกของ GPT2-XL และ GPT2-Medium ฉันได้รวมรหัสไว้ในสคริปต์และหากมีการคำนวณที่เพียงพอพวกเขาสามารถยกเลิกการเขียนบทที่เกี่ยวข้องและรวมตัวชี้วัดนั้นได้เช่นกัน

ความต้องการ

pytorch
หม้อแปลงไฟฟ้า
นม
TQDM

หรือโดยตรง

pip install -r requirements.txt

การแยกข้อมูล

ตัวชี้วัดสำหรับการจัดอันดับ

ตัวอย่างที่สร้างขึ้นได้รับการจัดอันดับตามตัวชี้วัดการอนุมานของสมาชิกหกคนที่แนะนำในกระดาษ:

ล็อกเพอร์เพลเพล็กซ์ของรุ่น GPT2-XL
อัตราส่วนของการบันทึกความเพียรของรุ่น GPT2-XL และรุ่น GPT2-SMALL
อัตราส่วนของการบันทึกความเพียรของรุ่น GPT2-XL และโมเดล GPT2-Medium (นำไปใช้ แต่ไม่สามารถเรียกใช้ได้เนื่องจากข้อ จำกัด การคำนวณ)
อัตราส่วนของบันทึกความงุนงงของ GPT2-XL และเอนโทรปีของตัวอย่างที่ประเมินโดย ZLIB
อัตราส่วนของการบันทึกความเพียรของ GPT2-XL สำหรับตัวอย่างที่สร้างขึ้นและตัวอย่างเดียวกันในตัวอักษรล่าง
ล็อกเพอร์เพล็กซ์ขั้นต่ำของ GPT2-XL บนหน้าต่างขนาด 50

ตัวอย่าง 10 อันดับแรกตามตัวชี้วัดแต่ละตัวจะถูกพิมพ์ออกมาและตัวอย่าง 100 อันดับแรกตามแต่ละเมตริก AE เข้า สู่ระบบ ตัวอย่างเหล่านี้มีแนวโน้มที่จะมีข้อความคำต่อคำจากข้อมูลการฝึกอบรม GPT-2

การสุ่มตัวอย่างบน K

 python extraction_top_n.py --N 5000 --batch_size 20 --outfile top_n_samples.txt

สิ่งนี้สร้าง 5,000 ตัวอย่างด้วย GPT2-XL ตัวอย่างถูกสร้างขึ้นด้วยการสุ่มตัวอย่างสูงสุด K (k = 40) และพรอมต์ที่ว่างเปล่า

การสลายตัวของอุณหภูมิ

 python extraction_temperature_decay.py --N 5000 --batch_size 20 --outfile temperature_decay_samples.txt

สิ่งนี้สร้าง 5,000 ตัวอย่างด้วย GPT2-XL ตัวอย่างถูกสร้างขึ้นด้วยการสุ่มตัวอย่างที่มีการสลายตัวของอุณหภูมิ (สลายตัวอุณหภูมิ softmax จาก 10 ถึง 1 หรือโทเค็น 20 แรกและ 1 สำหรับโทเค็นที่ตามมาทั้งหมด) และพรอมต์ที่ว่างเปล่า

การปรับอากาศบนข้อความอินเทอร์เน็ต

ในกระดาษผู้เขียนยังพยายามแจ้งรุ่น GT2-XL ด้วยตัวอย่างข้อความจากเว็บ (Commoncrawl) ซึ่งเพิ่มโอกาสในการสร้างเนื้อหาที่สร้างความทรงจำ

ฉันใช้ตัวอย่างเดียวกันของการรวบรวมข้อมูลตั้งแต่เดือนพฤษภาคม 2021 (~ 350 MB) ที่ผู้เขียนใช้

 ./download_cc.sh

แล้ว,

 python extraction_commoncrawl.py --N 5000 --batch_size 20 --outfile commoncrawl_samples.txt

ลำดับที่สร้างขึ้นทั้งหมดมีความยาวสุดท้ายของโทเค็นที่ 256 ที่สุด

ตัวอย่างเอาต์พุต

ผลลัพธ์ที่น่าสนใจบางอย่างที่สกัดจาก GPT-2 สามารถพบได้ที่นี่

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน 1.0.0
ประเภท โค้ดแหล่งที่มา AI
เวลาอัปเดต 2025-09-06
ขนาด 40.66KB
มาจาก Github

แอปที่เกี่ยวข้อง

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
ML stack

โค้ดแหล่งที่มา AI

1.0.0
awesome free chatgpt

โค้ดแหล่งที่มา AI

1.0.0
pywin_contextmenu

โค้ดแหล่งที่มา AI

Version update
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3

ข้อมูลที่เกี่ยวข้อง ทั้งหมด

Extracting Training Data from Large Langauge Models

การแยกข้อมูลการฝึกอบรมจากรุ่น Langauge ขนาดใหญ่

ความต้องการ

การแยกข้อมูล

ตัวชี้วัดสำหรับการจัดอันดับ

การสุ่มตัวอย่างบน K

การสลายตัวของอุณหภูมิ

การปรับอากาศบนข้อความอินเทอร์เน็ต

ตัวอย่างเอาต์พุต

llama models

EMIT Data Resources

pytorch image models

การฝึกอบรมวงดนตรี

การทำเหมืองข้อมูลทางชีวภาพ

การกู้คืนข้อมูลอัจฉริยะ

chat.petals.dev

GPT Prompt Templates

GPTyped

ML stack

awesome free chatgpt

pywin_contextmenu

Google Dorks

shepherd

mongo express