DafnyBench
1.0.0
私たちの論文のデータセットとコードdafnybench:正式なソフトウェア検証のためのベンチマーク
データセットはダウンロードできますか?顔を抱き締める。
Dafnybenchは、750を超えるDAFNYプログラムを備えた、正式なソフトウェア検証のための機械学習システムのトレーニングと評価のための最大のベンチマークです。
ground_truthセットとhints_removedセット(コンパイラヒント、つまりAnnoataions、削除)を含むDafnyBenchディレクトリにあります。hints_removedセットのテストファイルに不足しているヒントを記入し、再構成されたプログラムをDAFNYによって検証できるかどうかを確認するように、モデルにモデルに不足しているヒントを入力するように依頼することにより、dafnybenchのLLMSを評価します。 eval Directoryを参照してください。 
cd python -m venv stats
source stats/bin/activate
pip install -r requirements.txt
cd eval
export DAFNYBENCH_ROOT=
/opt/homebrew/bin/Dafny ): export DAFNY_PATH=
export OPENAI_API_KEY=
python fill_hints.py --model "gpt-4o" --test_file "Clover_abs_no_hints.dfy" --feedback_turn 3 --dafny_path "$DAFNY_PATH"
または、データセット全体で評価します。
export model_to_eval='gpt-4o'
./run_eval.sh
DafnyBenchhints_removedバージョンで完全に検証されたground_truthバージョンがあります(つまり、注釈)削除されましたevalresultsresults_summaryすべてのテストプログラムでLLMSの成功を要約するデータフレームreconstructed_files -LLM出力は、ヒントが満たされた状態で出力されますanalysis - 結果を分析するためのノートブックが含まれています @article { loughridge2024dafnybench ,
title = { DafnyBench: A Benchmark for Formal Software Verification } ,
author = { Chloe Loughridge and Qinyi Sun and Seth Ahrenbach and Federico Cassano and Chuyue Sun and Ying Sheng and Anish Mudide and Md Rakib Hossain Misu and Nada Amin and Max Tegmark } ,
year = { 2024 } ,
journal = { arXiv preprint arXiv:2406.08467 }
}