python evaluate.py --model <model_name> --dataset <dataset_name> --prompt <prompt method name> --shot <# shots> --perturb <perturbation type name> --perturb_exemplar <True/False> --dev/--no-dev
model : gptturbo (recommandé) ou gpt3dataset : Actuellement, seul gsm8k est pris en chargeprompt : cot , 0cot ou ltmshot : 1 , 2 , 4 ou 8perturb : synonym , repetition , shortcut , typo ou Noneperturb_exemplar : True ou False , indiquant s'il faut appliquer la perturbation des questions exemplairesdev : True ou False , indiquant s'il faut utiliser un mini-jeu de données à 5 exemples pour le débogage ou non Avant d'exécuter le code, assurez-vous de créer un fichier .env dans le répertoire racine et d'ajouter la ligne suivante:
OPENAI_API_KEY=<your openai api key>
Une fois le programme terminé en cours d'exécution, le nom du fichier journal de l'essai avec les hyperparamètres sera enregistré dans log_files.csv
python compute_accuracy.py
Une fois terminé, le programme doit créer un nouveau fichier appelé log_files_with_accuracy.csv qui ajoute une colonne accuracy au log_files.csv d'origine
python generate_plots.py
Les tracés sont générés sous /images
python clean_logs.py
Cela supprimera tous les fichiers journaux qui ne sont pas dans log_files.csv dans le répertoire logs