DafnyBench
1.0.0
Dataset & Kode untuk makalah kami Dafnybench: Benchmark untuk Verifikasi Perangkat Lunak Formal
Dataset juga tersedia untuk diunduh? Wajah memeluk.
Dafnybench adalah tolok ukur terbesar dari jenisnya untuk pelatihan dan mengevaluasi sistem pembelajaran mesin untuk verifikasi perangkat lunak formal, dengan lebih dari 750 program DAFNY.
DafnyBench , yang berisi set ground_truth & set hints_removed (dengan petunjuk kompiler, yaitu annoataions, dihapus).hints_removed dan memeriksa apakah program yang direkonstruksi dapat diverifikasi oleh DAFNY. Silakan merujuk ke Direktori eval . 
cd ke dalam repositori ini python -m venv stats
source stats/bin/activate
pip install -r requirements.txt
cd eval
export DAFNYBENCH_ROOT=
/opt/homebrew/bin/Dafny ): export DAFNY_PATH=
export OPENAI_API_KEY=
python fill_hints.py --model "gpt-4o" --test_file "Clover_abs_no_hints.dfy" --feedback_turn 3 --dafny_path "$DAFNY_PATH"
atau evaluasi di seluruh dataset:
export model_to_eval='gpt-4o'
./run_eval.sh
DafnyBenchground_truth yang sepenuhnya diverifikasi dengan versi Dafny & a hints_removed yang memiliki petunjuk (yaitu anotasi) dihapusevalresultsresults_summary - DataFrames yang merangkum keberhasilan LLMS di setiap program pengujianreconstructed_files - output llm dengan petunjuk diisi kembalianalysis - berisi buku catatan untuk menganalisis hasilnya @article { loughridge2024dafnybench ,
title = { DafnyBench: A Benchmark for Formal Software Verification } ,
author = { Chloe Loughridge and Qinyi Sun and Seth Ahrenbach and Federico Cassano and Chuyue Sun and Ying Sheng and Anish Mudide and Md Rakib Hossain Misu and Nada Amin and Max Tegmark } ,
year = { 2024 } ,
journal = { arXiv preprint arXiv:2406.08467 }
}