DafnyBench
1.0.0
ชุดข้อมูลและรหัสสำหรับกระดาษ Dafnybench ของเรา: มาตรฐานสำหรับการตรวจสอบซอฟต์แวร์อย่างเป็นทางการ
ชุดข้อมูลยังมีให้ดาวน์โหลดหรือไม่? กอดใบหน้า
Dafnybench เป็นเกณฑ์มาตรฐานที่ใหญ่ที่สุดสำหรับการฝึกอบรมและประเมินระบบการเรียนรู้ของเครื่องสำหรับการตรวจสอบซอฟต์แวร์อย่างเป็นทางการโดยมีโปรแกรม DAFNY มากกว่า 750 โปรแกรม
DafnyBench ซึ่งมีชุด ground_truth & The hints_removed Set (พร้อมคำแนะนำคอมไพเลอร์เช่น Annoataions ลบออก)hints_removed และตรวจสอบว่าโปรแกรมที่สร้างขึ้นใหม่สามารถตรวจสอบได้โดย DAFNY โปรดดูไดเรกทอรี eval 
cd ลงในที่เก็บนี้ python -m venv stats
source stats/bin/activate
pip install -r requirements.txt
cd eval
export DAFNYBENCH_ROOT=
/opt/homebrew/bin/Dafny ): export DAFNY_PATH=
export OPENAI_API_KEY=
python fill_hints.py --model "gpt-4o" --test_file "Clover_abs_no_hints.dfy" --feedback_turn 3 --dafny_path "$DAFNY_PATH"
หรือประเมินในชุดข้อมูลทั้งหมด:
export model_to_eval='gpt-4o'
./run_eval.sh
DafnyBenchground_truth ที่ได้รับการตรวจสอบอย่างเต็มที่ด้วย Dafny & A hints_removed เวอร์ชันที่มีคำแนะนำ (เช่นคำอธิบายประกอบ) ลบevalresultsresults_summary - DataFrames ที่สรุปความสำเร็จของ LLMS ในทุกโปรแกรมทดสอบreconstructed_files - เอาต์พุต LLM พร้อมคำใบ้ที่เต็มไปด้วยanalysis - มีสมุดบันทึกสำหรับการวิเคราะห์ผลลัพธ์ @article { loughridge2024dafnybench ,
title = { DafnyBench: A Benchmark for Formal Software Verification } ,
author = { Chloe Loughridge and Qinyi Sun and Seth Ahrenbach and Federico Cassano and Chuyue Sun and Ying Sheng and Anish Mudide and Md Rakib Hossain Misu and Nada Amin and Max Tegmark } ,
year = { 2024 } ,
journal = { arXiv preprint arXiv:2406.08467 }
}