Noisy Exemplars Make Large Language Models More Robust
1.0.0
python evaluate.py --model <model_name> --dataset <dataset_name> --prompt <prompt method name> --shot <# shots> --perturb <perturbation type name> --perturb_exemplar <True/False> --dev/--no-dev
model : gptturbo (권장) 또는 gpt3dataset : 현재 gsm8k 만 지원됩니다prompt : cot , 0cot 또는 ltmshot : 1 , 2 , 4 또는 8perturb : synonym , repetition , shortcut , typo 또는 Noneperturb_exemplar : True 또는 False , 예시적인 질문에 섭동을 적용할지 여부를 나타냅니다.dev : True 또는 False , 디버깅에 5- 측정 미니 데이터 세트를 사용할지 여부를 나타냅니다. 코드를 실행하기 전에 루트 디렉토리에 .env 파일을 만들고 다음 줄을 추가하십시오.
OPENAI_API_KEY=<your openai api key>
프로그램이 실행되는 후에는 과부 파라미터와 함께 시험의 로그 파일 이름이 log_files.csv 에 기록됩니다.
python compute_accuracy.py
완료되면 프로그램은 log_files_with_accuracy.csv 라는 새 파일을 만들어 원래 log_files.csv 에 accuracy 열을 추가해야합니다.
python generate_plots.py
플롯은 /images 디렉토리에서 생성됩니다
python clean_logs.py
logs 디렉토리에서 log_files.csv 가 아닌 모든 로그 파일을 제거합니다.