DafnyBench
1.0.0
Datensatz und Code für unser Papier Dafnybench: Ein Benchmark für die formelle Softwareverifizierung
Der Datensatz steht auch zum Download zur Verfügung? Umarmtes Gesicht.
Dafnybench ist der größte Maß dieser Art für das Training und die Bewertung von maschinellen Lernsystemen für die formelle Softwareverifizierung mit über 750 DAFNY -Programmen.
DafnyBench -Verzeichnis zu finden, das den Set ground_truth und das Set hints_removed enthält (mit Compiler -Hinweisen dh annoataions, entfernt).hints_removed auszufüllen und zu überprüfen, ob das rekonstruierte Programm von DAFNY überprüft werden könnte. Bitte beachten Sie das eval -Verzeichnis. 
cd in dieses Repository python -m venv stats
source stats/bin/activate
pip install -r requirements.txt
cd eval
export DAFNYBENCH_ROOT=
/opt/homebrew/bin/Dafny ): export DAFNY_PATH=
export OPENAI_API_KEY=
python fill_hints.py --model "gpt-4o" --test_file "Clover_abs_no_hints.dfy" --feedback_turn 3 --dafny_path "$DAFNY_PATH"
oder im gesamten Datensatz bewerten:
export model_to_eval='gpt-4o'
./run_eval.sh
DafnyBenchground_truth Programm hints_removedevalresultsresults_summary - Datenrahmen, die den Erfolg von LLMS in jedem Testprogramm zusammenfassenreconstructed_files - LLM Ausgänge mit Hinweisen, die wieder eingefüllt sindanalysis - enthält ein Notizbuch zur Analyse der Ergebnisse @article { loughridge2024dafnybench ,
title = { DafnyBench: A Benchmark for Formal Software Verification } ,
author = { Chloe Loughridge and Qinyi Sun and Seth Ahrenbach and Federico Cassano and Chuyue Sun and Ying Sheng and Anish Mudide and Md Rakib Hossain Misu and Nada Amin and Max Tegmark } ,
year = { 2024 } ,
journal = { arXiv preprint arXiv:2406.08467 }
}