DafnyBench
1.0.0
我們的論文Dafnybench的數據集和代碼:正式軟件驗證的基準
數據集也可以下載嗎?擁抱臉。
Dafnybench是培訓和評估機器學習系統的最大基準,用於正式軟件驗證,擁有750多個DAFNY程序。
DafnyBench目錄中找到,該目錄包含ground_truth set& hints_removed set(帶有編譯器提示,即annoataions,eman effecter,刪除)。hints_removed set的測試文件中缺失的提示並檢查是否可以通過dafny驗證重建程序中的測試文件中的丟失提示,從而評估LLM。請參考eval目錄。 
cd進入此存儲庫 python -m venv stats
source stats/bin/activate
pip install -r requirements.txt
cd eval
export DAFNYBENCH_ROOT=
/opt/homebrew/bin/Dafny ): export DAFNY_PATH=
export OPENAI_API_KEY=
python fill_hints.py --model "gpt-4o" --test_file "Clover_abs_no_hints.dfy" --feedback_turn 3 --dafny_path "$DAFNY_PATH"
或在整個數據集中評估:
export model_to_eval='gpt-4o'
./run_eval.sh
DafnyBenchground_truth版本,該版本已通過dafny&a hints_removed版本進行了完全驗證,該版本已刪除提示(IE註釋)evalresultsresults_summary總結LLMS在每個測試程序上的成功的數據框架reconstructed_files -LLM輸出帶有提示回到analysis - 包含用於分析結果的筆記本 @article { loughridge2024dafnybench ,
title = { DafnyBench: A Benchmark for Formal Software Verification } ,
author = { Chloe Loughridge and Qinyi Sun and Seth Ahrenbach and Federico Cassano and Chuyue Sun and Ying Sheng and Anish Mudide and Md Rakib Hossain Misu and Nada Amin and Max Tegmark } ,
year = { 2024 } ,
journal = { arXiv preprint arXiv:2406.08467 }
}