DafnyBench
1.0.0
مجموعة البيانات والرمز لورقة Dafnebench: معيار للتحقق من البرامج الرسمية
مجموعة البيانات متاحة أيضا للتنزيل على؟ الوجه المعانقة.
تعد Dafnebench أكبر معيار من نوعها لتدريب وتقييم أنظمة التعلم الآلي للتحقق الرسمي من البرامج ، مع أكثر من 750 برنامج DAFNY.
DafnyBench ، والذي يحتوي على مجموعة ground_truth ومجموعة hints_removed (مع تلميحات البرمجيات ، أي innoataions ، تمت إزالتها).hints_removed والتحقق مما إذا كان يمكن التحقق من البرنامج المعاد بناؤه بواسطة DAFNY. يرجى الرجوع إلى دليل eval . 
cd في هذا المستودع python -m venv stats
source stats/bin/activate
pip install -r requirements.txt
cd eval
export DAFNYBENCH_ROOT=
/opt/homebrew/bin/Dafny ): export DAFNY_PATH=
export OPENAI_API_KEY=
python fill_hints.py --model "gpt-4o" --test_file "Clover_abs_no_hints.dfy" --feedback_turn 3 --dafny_path "$DAFNY_PATH"
أو تقييم على مجموعة البيانات بأكملها:
export model_to_eval='gpt-4o'
./run_eval.sh
DafnyBenchground_truth يتم التحقق منه بالكامل مع إصدار Dafny & A hints_removed الذي يحتوي على تلميحات (IE) التي تمت إزالتهاevalresultsresults_summary - إطارات البيانات التي تلخص نجاح LLMS في كل برنامج اختبارreconstructed_files - مخرجات LLM مع تلميحات مملوءة مرة أخرىanalysis - يحتوي على دفتر ملاحظات لتحليل النتائج @article { loughridge2024dafnybench ,
title = { DafnyBench: A Benchmark for Formal Software Verification } ,
author = { Chloe Loughridge and Qinyi Sun and Seth Ahrenbach and Federico Cassano and Chuyue Sun and Ying Sheng and Anish Mudide and Md Rakib Hossain Misu and Nada Amin and Max Tegmark } ,
year = { 2024 } ,
journal = { arXiv preprint arXiv:2406.08467 }
}