python evaluate.py --model <model_name> --dataset <dataset_name> --prompt <prompt method name> --shot <# shots> --perturb <perturbation type name> --perturb_exemplar <True/False> --dev/--no-dev
model : gptturbo (recomendado) o gpt3dataset : actualmente, solo se admite gsm8kprompt : cot , 0cot o ltmshot : 1 , 2 , 4 u 8perturb : synonym , repetition , shortcut , typo o Noneperturb_exemplar : True o False , lo que indica si se debe aplicar la perturbación en preguntas ejemplaresdev : True o False , lo que indica si se debe usar un mini conjunto de datos de 5 ejemplos para la depuración o no Antes de ejecutar el código, asegúrese de crear un archivo .env en el directorio raíz y agregue la siguiente línea:
OPENAI_API_KEY=<your openai api key>
Una vez que se complete el programa en ejecución, el nombre del archivo de registro de la prueba junto con los hiperparámetros se registrará en log_files.csv
python compute_accuracy.py
Al finalizar, el programa debe crear un nuevo archivo llamado log_files_with_accuracy.csv que agregue la columna accuracy al original log_files.csv
python generate_plots.py
Las parcelas se generan en /images
python clean_logs.py
Esto eliminará todos los archivos de registro que no están en log_files.csv desde el directorio logs