DafnyBench
1.0.0
DataSet & Code para nosso papel Dafnybench: uma referência para verificação formal de software
O conjunto de dados também está disponível para download? Abraçando o rosto.
A Dafnybench é a maior referência do gênero para treinamento e avaliação de sistemas de aprendizado de máquina para verificação formal de software, com mais de 750 programas dafny.
DafnyBench , que contém o conjunto ground_truth & the hints_removed Set (com dicas do compilador, ou seja, Anotaions, removido).hints_removed e verificando se o programa reconstruído puder ser verificado por Dafny. Consulte o diretório eval . 
cd neste repositório python -m venv stats
source stats/bin/activate
pip install -r requirements.txt
cd eval
export DAFNYBENCH_ROOT=
/opt/homebrew/bin/Dafny ): export DAFNY_PATH=
export OPENAI_API_KEY=
python fill_hints.py --model "gpt-4o" --test_file "Clover_abs_no_hints.dfy" --feedback_turn 3 --dafny_path "$DAFNY_PATH"
ou avaliar em todo o conjunto de dados:
export model_to_eval='gpt-4o'
./run_eval.sh
DafnyBenchground_truth que é totalmente verificada com a versão Dafny & a hints_removed que tem dicas (por exemplo, anotações) removidasevalresultsresults_summary - DataFrames que resumem o sucesso da LLMS em todos os programas de testereconstructed_files - saídas LLM com dicas preenchidas de voltaanalysis - Contém um notebook para analisar os resultados @article { loughridge2024dafnybench ,
title = { DafnyBench: A Benchmark for Formal Software Verification } ,
author = { Chloe Loughridge and Qinyi Sun and Seth Ahrenbach and Federico Cassano and Chuyue Sun and Ying Sheng and Anish Mudide and Md Rakib Hossain Misu and Nada Amin and Max Tegmark } ,
year = { 2024 } ,
journal = { arXiv preprint arXiv:2406.08467 }
}