DafnyBench
1.0.0
Ensemble de données et code pour notre papier dafnybench: une référence pour la vérification des logiciels formels
L'ensemble de données est également disponible en téléchargement? Visage étreint.
Dafnybench est la plus grande référence du genre pour la formation et l'évaluation des systèmes d'apprentissage automatique pour la vérification formelle des logiciels, avec plus de 750 programmes DAFNY.
DafnyBench , qui contient l'ensemble ground_truth et l'ensemble hints_removed (avec des conseils de compilateur, c'est-à-dire des anoataions, supprimés).hints_removed et de la vérification si le programme reconstruit pouvait être vérifié par DAFNY. Veuillez vous référer au répertoire eval . 
cd dans ce référentiel python -m venv stats
source stats/bin/activate
pip install -r requirements.txt
cd eval
export DAFNYBENCH_ROOT=
/opt/homebrew/bin/Dafny ): export DAFNY_PATH=
export OPENAI_API_KEY=
python fill_hints.py --model "gpt-4o" --test_file "Clover_abs_no_hints.dfy" --feedback_turn 3 --dafny_path "$DAFNY_PATH"
ou évaluer sur l'ensemble de données:
export model_to_eval='gpt-4o'
./run_eval.sh
DafnyBenchground_truth qui est entièrement vérifiée avec Dafny et une version hints_removed qui a des indices (c'est-à-dire des annotations)evalresultsresults_summary - DataFrames qui résument le succès de LLMS sur chaque programme de testreconstructed_files - Sorties LLM avec des indices remplisanalysis - contient un cahier pour analyser les résultats @article { loughridge2024dafnybench ,
title = { DafnyBench: A Benchmark for Formal Software Verification } ,
author = { Chloe Loughridge and Qinyi Sun and Seth Ahrenbach and Federico Cassano and Chuyue Sun and Ying Sheng and Anish Mudide and Md Rakib Hossain Misu and Nada Amin and Max Tegmark } ,
year = { 2024 } ,
journal = { arXiv preprint arXiv:2406.08467 }
}