Dieses Repository enthält den Code zur Reproduktion der im folgenden Artikel angegebenen Ergebnisse:
Orhan AE (2023) Anerkennung, Rückruf und Aufbewahrung von wenigen Schüssen in großen Sprachmodellen. ARXIV: 2303.17557.
Das Repository enthält drei Python -Dateien train.py , test.py , generate.py (alle modifiziert hier aus dem Beispiel für kausale Sprachmodellierung des Umarmungsface -Modells), um ein Modell zu trainieren (oder endliche), um einen Erkennungstest durchzuführen und einen Rückruftest durchzuführen.
Einige Verwendungsbeispiele für diese Dateien finden Sie unten.
gpt-j-6B -Modell mit den Studiensätzen in seen_data_0.json für 1 Epoche (1 Exposition) auf 4 GPUs (mit einer Gesamtstapelgröße von 4x4 = 16 Sätzen) unter Verwendung des Frameworks Accelerat-Framework von Huggingface (siehe Beispiel für die Konfiguration hier): accelerate launch - - config_file accelerate_config . yaml - - num_cpu_threads_per_process 4 train . py
- - model_name_or_path "EleutherAI/gpt-j-6B"
- - train_file "data/llm-experiment-data/expt1/seen_data_0.json"
- - per_device_train_batch_size 4
- - learning_rate 0.00001
- - output_dir OUTPUT_DIR
- - save_prefix INFORMATIVE_SAVE_PREFIX
- - block_size 128
- - num_train_epochs 1
- - overwrite_cacheseen_data_0.json und Folien in unseen_data_0.json aus: python - u test . py
- - model_name_or_path MODEL_PATH
- - seen_file "data/llm-experiment-data/expt1/seen_data_0.json"
- - unseen_file "data/llm-experiment-data/expt1/unseen_data_0.json"
- - per_device_eval_batch_size 1
- - output_dir OUTPUT_DIR
- - save_prefix INFORMATIVE_SAVE_PREFIX
- - block_size 128
- - overwrite_cacheseen_data_0.json aus: python - u generate . py
- - model_name_or_path MODEL_PATH
- - seen_file "data/llm-experiment-data/expt1/seen_data_0.json"
- - per_device_eval_batch_size 1
- - output_dir OUTPUT_DIR
- - save_prefix INFORMATIVE_SAVE_PREFIX
- - block_size 128
- - overwrite_cache Der scripts enthält Slurm -Skripte zur Reproduktion aller im Papier angegebenen Experimente mit diesen drei Dateien. Der data enthält alle in den Experimenten verwendeten experimentellen Daten. Der utils -Ordner enthält Nutzfunktionen, mit denen die experimentellen Daten generiert wurden. Die Ergebnisse aller in der Arbeit gemeldeten Erkennungs-, Rückruf- und Retentionsexperimente sind aus diesem Huggingface -Datensatz -Repository verfügbar.