DafnyBench
1.0.0
我们的论文Dafnybench的数据集和代码:正式软件验证的基准
数据集也可以下载吗?拥抱脸。
Dafnybench是培训和评估机器学习系统的最大基准,用于正式软件验证,拥有750多个DAFNY程序。
DafnyBench目录中找到,该目录包含ground_truth set& hints_removed set(带有编译器提示,即annoataions,eman effecter,删除)。hints_removed set的测试文件中缺失的提示并检查是否可以通过dafny验证重建程序中的测试文件中的丢失提示,从而评估LLM。请参考eval目录。 
cd进入此存储库 python -m venv stats
source stats/bin/activate
pip install -r requirements.txt
cd eval
export DAFNYBENCH_ROOT=
/opt/homebrew/bin/Dafny ): export DAFNY_PATH=
export OPENAI_API_KEY=
python fill_hints.py --model "gpt-4o" --test_file "Clover_abs_no_hints.dfy" --feedback_turn 3 --dafny_path "$DAFNY_PATH"
或在整个数据集中评估:
export model_to_eval='gpt-4o'
./run_eval.sh
DafnyBenchground_truth版本,该版本已通过dafny&a hints_removed版本进行了完全验证,该版本已删除提示(IE注释)evalresultsresults_summary总结LLMS在每个测试程序上的成功的数据框架reconstructed_files -LLM输出带有提示回到analysis - 包含用于分析结果的笔记本 @article { loughridge2024dafnybench ,
title = { DafnyBench: A Benchmark for Formal Software Verification } ,
author = { Chloe Loughridge and Qinyi Sun and Seth Ahrenbach and Federico Cassano and Chuyue Sun and Ying Sheng and Anish Mudide and Md Rakib Hossain Misu and Nada Amin and Max Tegmark } ,
year = { 2024 } ,
journal = { arXiv preprint arXiv:2406.08467 }
}