Repositori ini berisi kode untuk mereproduksi hasil yang dilaporkan dalam makalah berikut:
ORHAN AE (2023) Pengakuan, Recall, dan Retensi Kenangan Beberapa-Shot dalam Model Bahasa Besar. ARXIV: 2303.17557.
Repositori berisi tiga file python train.py , test.py , generate.py (semua dimodifikasi dari contoh pemodelan bahasa kausal huggingface di sini) untuk melatih (atau finetune) model, untuk menjalankan tes pengenalan, dan untuk menjalankan tes penarikan, masing -masing.
Beberapa contoh penggunaan untuk file -file ini diberikan di bawah ini.
gpt-j-6B Model dengan kalimat penelitian di seen_data_0.json untuk 1 zaman (1 paparan) pada 4 GPU (dengan ukuran total batch 4x4 = 16 kalimat) menggunakan kerangka kerja Accelerate Face Hugging (lihat contoh file konfigurasi di sini): accelerate launch - - config_file accelerate_config . yaml - - num_cpu_threads_per_process 4 train . py
- - model_name_or_path "EleutherAI/gpt-j-6B"
- - train_file "data/llm-experiment-data/expt1/seen_data_0.json"
- - per_device_train_batch_size 4
- - learning_rate 0.00001
- - output_dir OUTPUT_DIR
- - save_prefix INFORMATIVE_SAVE_PREFIX
- - block_size 128
- - num_train_epochs 1
- - overwrite_cacheseen_data_0.json dan foil di unseen_data_0.json : python - u test . py
- - model_name_or_path MODEL_PATH
- - seen_file "data/llm-experiment-data/expt1/seen_data_0.json"
- - unseen_file "data/llm-experiment-data/expt1/unseen_data_0.json"
- - per_device_eval_batch_size 1
- - output_dir OUTPUT_DIR
- - save_prefix INFORMATIVE_SAVE_PREFIX
- - block_size 128
- - overwrite_cacheseen_data_0.json : python - u generate . py
- - model_name_or_path MODEL_PATH
- - seen_file "data/llm-experiment-data/expt1/seen_data_0.json"
- - per_device_eval_batch_size 1
- - output_dir OUTPUT_DIR
- - save_prefix INFORMATIVE_SAVE_PREFIX
- - block_size 128
- - overwrite_cache Folder scripts berisi skrip slurm untuk mereproduksi semua percobaan yang dilaporkan dalam makalah, menggunakan tiga file ini. Folder data berisi semua data eksperimental yang digunakan dalam percobaan. Folder utils berisi fungsi utilitas yang digunakan untuk menghasilkan data eksperimental. Hasil dari semua eksperimen pengakuan, penarikan, dan retensi yang dilaporkan dalam makalah ini tersedia dari repositori Dataset Huggingface ini.