python evaluate.py --model <model_name> --dataset <dataset_name> --prompt <prompt method name> --shot <# shots> --perturb <perturbation type name> --perturb_exemplar <True/False> --dev/--no-dev
model : gptturbo (recomendado) ou gpt3dataset : atualmente, apenas gsm8k é suportadoprompt : cot , 0cot ou ltmshot : 1 , 2 , 4 ou 8perturb : synonym , repetition , shortcut , typo ou Noneperturb_exemplar : True ou False , indicando se deve aplicar a perturbação em perguntas exemplaresdev : True ou False , indicando se deve usar o mini conjunto de dados de 5 exemplos para depuração ou não Antes de executar o código, crie um arquivo .env no diretório raiz e adicione a seguinte linha:
OPENAI_API_KEY=<your openai api key>
Após a conclusão do programa, o nome do arquivo de log do teste junto com os hyperparameters será gravado em log_files.csv
python compute_accuracy.py
Após a conclusão, o programa deve criar um novo arquivo chamado log_files_with_accuracy.csv , que adiciona coluna accuracy ao log_files.csv original
python generate_plots.py
As parcelas são geradas no diretório /images
python clean_logs.py
Isso removerá todos os arquivos de log que não estão em log_files.csv do diretório logs