python evaluate.py --model <model_name> --dataset <dataset_name> --prompt <prompt method name> --shot <# shots> --perturb <perturbation type name> --perturb_exemplar <True/False> --dev/--no-dev
model : gptturbo (แนะนำ) หรือ gpt3dataset : ปัจจุบันรองรับ gsm8k เท่านั้นprompt : cot , 0cot หรือ ltmshot : 1 , 2 , 4 หรือ 8perturb : synonym repetition , shortcut , typo หรือ Noneperturb_exemplar : True หรือ False แสดงว่าจะใช้การก่อกวนกับคำถามแบบอย่างdev : True หรือ False แสดงว่าจะใช้ชุดข้อมูลมินิตัวอย่าง 5 ตัวอย่างสำหรับการดีบักหรือไม่ ก่อนเรียกใช้รหัสโปรดตรวจสอบให้แน่ใจว่าคุณสร้างไฟล์. .env ในไดเรกทอรีรูทและเพิ่มบรรทัดต่อไปนี้:
OPENAI_API_KEY=<your openai api key>
หลังจากที่โปรแกรมทำงานเสร็จสิ้นชื่อไฟล์บันทึกของการทดลองพร้อมกับ hyperparameters จะถูกบันทึกใน log_files.csv
python compute_accuracy.py
เมื่อเสร็จสิ้นโปรแกรมควรสร้างไฟล์ใหม่ที่เรียกว่า log_files_with_accuracy.csv ซึ่งเพิ่มคอลัมน์ accuracy ลงใน log_files.csv ดั้งเดิม
python generate_plots.py
พล็อตถูกสร้างขึ้นภายใต้ไดเร็กทอรี /images
python clean_logs.py
สิ่งนี้จะลบไฟล์บันทึกทั้งหมดที่ไม่ได้อยู่ใน log_files.csv ออกจากไดเร็กทอรี logs