DafnyBench
1.0.0
Conjunto de datos y código para nuestro documento Dafnybench: un punto de referencia para la verificación formal de software
¿El conjunto de datos también está disponible para descargar? Cara abrazada.
DafnyBench es el punto de referencia más grande de su tipo para capacitar y evaluar sistemas de aprendizaje automático para la verificación formal de software, con más de 750 programas DAFNY.
DafnyBench , que contiene el conjunto ground_truth y el conjunto de hints_removed (con sugerencias del compilador, es decir, annataions, eliminado).hints_removed y verificación si DAFNY podría verificar el programa reconstruido. Consulte el directorio eval . 
cd en este repositorio python -m venv stats
source stats/bin/activate
pip install -r requirements.txt
cd eval
export DAFNYBENCH_ROOT=
/opt/homebrew/bin/Dafny ): export DAFNY_PATH=
export OPENAI_API_KEY=
python fill_hints.py --model "gpt-4o" --test_file "Clover_abs_no_hints.dfy" --feedback_turn 3 --dafny_path "$DAFNY_PATH"
o evaluar en todo el conjunto de datos:
export model_to_eval='gpt-4o'
./run_eval.sh
DafnyBenchground_truth que se verifica completamente con DAFNY & A hints_removed Versión que tiene sugerencias (es decir, anotaciones) eliminadasevalresultsresults_summary : marcos de datos que resumen el éxito de LLMS en cada programa de pruebareconstructed_files - salidas LLM con pistas llenas de nuevo enanalysis : contiene un cuaderno para analizar los resultados @article { loughridge2024dafnybench ,
title = { DafnyBench: A Benchmark for Formal Software Verification } ,
author = { Chloe Loughridge and Qinyi Sun and Seth Ahrenbach and Federico Cassano and Chuyue Sun and Ying Sheng and Anish Mudide and Md Rakib Hossain Misu and Nada Amin and Max Tegmark } ,
year = { 2024 } ,
journal = { arXiv preprint arXiv:2406.08467 }
}