llm memory -Download - llm memory Source Code Download

llm memory

AI-Quellcode

1.0.0

Herunterladen

Erkennung, Rückruf und Aufbewahrung von wenigen Schüssen in LLMs

Dieses Repository enthält den Code zur Reproduktion der im folgenden Artikel angegebenen Ergebnisse:

Orhan AE (2023) Anerkennung, Rückruf und Aufbewahrung von wenigen Schüssen in großen Sprachmodellen. ARXIV: 2303.17557.

Das Repository enthält drei Python -Dateien train.py , test.py , generate.py (alle modifiziert hier aus dem Beispiel für kausale Sprachmodellierung des Umarmungsface -Modells), um ein Modell zu trainieren (oder endliche), um einen Erkennungstest durchzuführen und einen Rückruftest durchzuführen.

Nutzungsbeispiele

Einige Verwendungsbeispiele für diese Dateien finden Sie unten.

Finetune Ein gpt-j-6B -Modell mit den Studiensätzen in seen_data_0.json für 1 Epoche (1 Exposition) auf 4 GPUs (mit einer Gesamtstapelgröße von 4x4 = 16 Sätzen) unter Verwendung des Frameworks Accelerat-Framework von Huggingface (siehe Beispiel für die Konfiguration hier):

 accelerate launch - - config_file accelerate_config . yaml - - num_cpu_threads_per_process 4 train . py 
    - - model_name_or_path "EleutherAI/gpt-j-6B" 
    - - train_file "data/llm-experiment-data/expt1/seen_data_0.json" 
    - - per_device_train_batch_size 4 
    - - learning_rate 0.00001 
    - - output_dir OUTPUT_DIR 
    - - save_prefix INFORMATIVE_SAVE_PREFIX 
    - - block_size 128 
    - - num_train_epochs 1 
    - - overwrite_cache

Führen Sie einen Erkennungstest auf einem Modell mit den Studiensätzen in seen_data_0.json und Folien in unseen_data_0.json aus:

 python - u test . py 
    - - model_name_or_path MODEL_PATH 
    - - seen_file "data/llm-experiment-data/expt1/seen_data_0.json" 
    - - unseen_file "data/llm-experiment-data/expt1/unseen_data_0.json" 
    - - per_device_eval_batch_size 1 
    - - output_dir OUTPUT_DIR 
    - - save_prefix INFORMATIVE_SAVE_PREFIX 
    - - block_size 128 
    - - overwrite_cache

Führen Sie einen Rückruftest mit einem Modell mit den Studiensätzen in seen_data_0.json aus:

 python - u generate . py 
    - - model_name_or_path MODEL_PATH 
    - - seen_file "data/llm-experiment-data/expt1/seen_data_0.json" 
    - - per_device_eval_batch_size 1 
    - - output_dir OUTPUT_DIR 
    - - save_prefix INFORMATIVE_SAVE_PREFIX 
    - - block_size 128 
    - - overwrite_cache

Reproduktion

Der scripts enthält Slurm -Skripte zur Reproduktion aller im Papier angegebenen Experimente mit diesen drei Dateien. Der data enthält alle in den Experimenten verwendeten experimentellen Daten. Der utils -Ordner enthält Nutzfunktionen, mit denen die experimentellen Daten generiert wurden. Die Ergebnisse aller in der Arbeit gemeldeten Erkennungs-, Rückruf- und Retentionsexperimente sind aus diesem Huggingface -Datensatz -Repository verfügbar.

Expandieren

Zusätzliche Informationen