python evaluate.py --model <model_name> --dataset <dataset_name> --prompt <prompt method name> --shot <# shots> --perturb <perturbation type name> --perturb_exemplar <True/False> --dev/--no-dev
model : gptturbo (empfohlen) oder gpt3dataset : Derzeit wird nur gsm8k unterstütztprompt : cot , 0cot oder ltmshot : 1 , 2 , 4 oder 8perturb : synonym , repetition , shortcut , typo oder Noneperturb_exemplar : True oder False , um anzuzeigen, ob die Störung auf Exemplar -Fragen angewendet werden solldev : True oder False , um anzuzeigen, ob ein 5-Beispiel-Mini-Datensatz zum Debuggen verwendet werden soll oder nicht Bevor Sie den Code ausführen, stellen Sie bitte sicher, dass Sie eine .env -Datei im Stammverzeichnis erstellen und die folgende Zeile hinzufügen:
OPENAI_API_KEY=<your openai api key>
Nach Abschluss des Programms wird der Name der Protokolldatei der Versuch zusammen mit den Hyperparametern in log_files.csv aufgezeichnet
python compute_accuracy.py
Nach Abschluss sollte das Programm eine neue Datei namens log_files_with_accuracy.csv erstellen, die der Spalte der ursprünglichen log_files.csv accuracy hinzufügt.
python generate_plots.py
Diagramme werden im Verzeichnis /images erzeugt
python clean_logs.py
Dadurch werden alle Protokolldateien entfernt, die nicht in log_files.csv aus dem logs -Verzeichnis enthalten sind