python evaluate.py --model <model_name> --dataset <dataset_name> --prompt <prompt method name> --shot <# shots> --perturb <perturbation type name> --perturb_exemplar <True/False> --dev/--no-dev
model : gptturbo (Direkomendasikan) atau gpt3dataset : Saat ini, hanya gsm8k yang didukungprompt : cot , 0cot atau ltmshot : 1 , 2 , 4 atau 8perturb : synonym , repetition , shortcut , typo , atau Noneperturb_exemplar : True atau False , menunjukkan apakah akan menerapkan gangguan pada pertanyaan contohdev : True atau False , menunjukkan apakah akan menggunakan 5-contoh mini dataset untuk debugging atau tidak Sebelum menjalankan kode, pastikan Anda membuat file .env di direktori root dan tambahkan baris berikut:
OPENAI_API_KEY=<your openai api key>
Setelah program selesai berjalan, nama file log percobaan bersama dengan hyperparameters akan direkam di log_files.csv
python compute_accuracy.py
Setelah selesai, program harus membuat file baru yang disebut log_files_with_accuracy.csv yang menambahkan kolom accuracy ke log_files.csv asli
python generate_plots.py
Plot dihasilkan di bawah /images
python clean_logs.py
Ini akan menghapus semua file log yang tidak ada di log_files.csv dari direktori logs