ที่เก็บนี้มีรหัสสำหรับการทำซ้ำผลลัพธ์ที่รายงานในรายงานต่อไปนี้:
Orhan AE (2023) การรับรู้การเรียกคืนและการเก็บรักษาความทรงจำสองสามครั้งในรูปแบบภาษาขนาดใหญ่ arxiv: 2303.17557
ที่เก็บประกอบด้วยสามไฟล์ Python train.py , test.py , generate.py (ทั้งหมดแก้ไขจากตัวอย่างการสร้างแบบจำลองภาษาเชิงสาเหตุของ HuggingFace ที่นี่) เพื่อฝึกอบรม (หรือ finetune) แบบจำลองเพื่อเรียกใช้การทดสอบการจดจำและเรียกใช้การทดสอบการเรียกคืนตามลำดับ
ตัวอย่างการใช้งานบางอย่างสำหรับไฟล์เหล่านี้ได้รับด้านล่าง
gpt-j-6B พร้อมประโยคการศึกษาใน seen_data_0.json สำหรับ 1 EPOCH (1 การเปิดรับแสง) ใน 4 GPU (ที่มีขนาดแบทช์ทั้งหมด 4x4 = 16 ประโยค) โดยใช้กรอบการเร่งความเร็ว HUGGGEDFACE (ดูไฟล์กำหนดค่าตัวอย่างที่นี่): accelerate launch - - config_file accelerate_config . yaml - - num_cpu_threads_per_process 4 train . py
- - model_name_or_path "EleutherAI/gpt-j-6B"
- - train_file "data/llm-experiment-data/expt1/seen_data_0.json"
- - per_device_train_batch_size 4
- - learning_rate 0.00001
- - output_dir OUTPUT_DIR
- - save_prefix INFORMATIVE_SAVE_PREFIX
- - block_size 128
- - num_train_epochs 1
- - overwrite_cacheseen_data_0.json และ foils ใน unseen_data_0.json : python - u test . py
- - model_name_or_path MODEL_PATH
- - seen_file "data/llm-experiment-data/expt1/seen_data_0.json"
- - unseen_file "data/llm-experiment-data/expt1/unseen_data_0.json"
- - per_device_eval_batch_size 1
- - output_dir OUTPUT_DIR
- - save_prefix INFORMATIVE_SAVE_PREFIX
- - block_size 128
- - overwrite_cacheseen_data_0.json : python - u generate . py
- - model_name_or_path MODEL_PATH
- - seen_file "data/llm-experiment-data/expt1/seen_data_0.json"
- - per_device_eval_batch_size 1
- - output_dir OUTPUT_DIR
- - save_prefix INFORMATIVE_SAVE_PREFIX
- - block_size 128
- - overwrite_cache โฟลเดอร์ scripts มีสคริปต์ Slurm สำหรับการทำซ้ำการทดลองทั้งหมดที่รายงานในกระดาษโดยใช้ไฟล์ทั้งสามนี้ โฟลเดอร์ data มีข้อมูลการทดลองทั้งหมดที่ใช้ในการทดลอง โฟลเดอร์ utils มีฟังก์ชั่นยูทิลิตี้ที่ใช้ในการสร้างข้อมูลการทดลอง ผลลัพธ์ของการทดลองการจดจำการเรียกคืนและการเก็บรักษาทั้งหมดที่รายงานในกระดาษมีให้จากที่เก็บชุดข้อมูล HuggingFace นี้