DafnyBench
1.0.0
Набор данных и код для нашей статьи Dafnybench: эталон для формальной проверки программного обеспечения
Набор данных также доступен для загрузки? Обнимающееся лицо.
Dafnybench является крупнейшим ориентиром в своем роде для обучения и оценки систем машинного обучения для формальной проверки программного обеспечения с более чем 750 Dafny программами.
DafnyBench , который содержит набор ground_truth и набор hints_removed (с подсказками компилятора, то есть annoataions, удален).hints_removed и проверить, может ли реконструированная программа быть подтверждена Dafny. Пожалуйста, обратитесь к каталогу eval . 
cd в этот репозиторий python -m venv stats
source stats/bin/activate
pip install -r requirements.txt
cd eval
export DAFNYBENCH_ROOT=
/opt/homebrew/bin/Dafny ): export DAFNY_PATH=
export OPENAI_API_KEY=
python fill_hints.py --model "gpt-4o" --test_file "Clover_abs_no_hints.dfy" --feedback_turn 3 --dafny_path "$DAFNY_PATH"
или оценить весь набор данных:
export model_to_eval='gpt-4o'
./run_eval.sh
DafnyBenchground_truth , которая полностью проверена с помощью версии Dafny & A hints_removed , которая имеет подсказки (т.е. аннотации)evalresultsresults_summary - DataFrames, которые суммируют успех LLMS в каждой программе тестированияreconstructed_files - Выходы LLM с подсказками, заполненными обратноanalysis - содержит ноутбук для анализа результатов @article { loughridge2024dafnybench ,
title = { DafnyBench: A Benchmark for Formal Software Verification } ,
author = { Chloe Loughridge and Qinyi Sun and Seth Ahrenbach and Federico Cassano and Chuyue Sun and Ying Sheng and Anish Mudide and Md Rakib Hossain Misu and Nada Amin and Max Tegmark } ,
year = { 2024 } ,
journal = { arXiv preprint arXiv:2406.08467 }
}