Descargar DafnyBench - Descargar el código fuente de DafnyBench

DafnyBench

Código Fuente de IA

1.0.0

Descargar

Dafnybench: un punto de referencia para la verificación formal de software

Conjunto de datos y código para nuestro documento Dafnybench: un punto de referencia para la verificación formal de software

¿El conjunto de datos también está disponible para descargar? Cara abrazada.

Descripción general

DafnyBench es el punto de referencia más grande de su tipo para capacitar y evaluar sistemas de aprendizaje automático para la verificación formal de software, con más de 750 programas DAFNY.

Uso

DataSet : el conjunto de datos para DafnyBench (con 782 programas) se puede encontrar en el directorio DafnyBench , que contiene el conjunto ground_truth y el conjunto de hints_removed (con sugerencias del compilador, es decir, annataions, eliminado).
Evaluación : Evalúe las LLM en DafnyBench pidiéndole a los modelos que llenen sugerencias faltantes en un archivo de prueba del conjunto de hints_removed y verificación si DAFNY podría verificar el programa reconstruido. Consulte el directorio eval .

Configurar para la evaluación?

Instale Dafny en su máquina siguiendo este tutorial
Clon & cd en este repositorio
Configurar el entorno ejecutando las siguientes líneas:

 python -m venv stats
source stats/bin/activate
pip install -r requirements.txt
cd eval

Configurar la variable de entorno para el directorio raíz:

 export DAFNYBENCH_ROOT=

Configurar la variable de entorno para el ejecutable de ruta a DAFNY en su máquina (por ejemplo, /opt/homebrew/bin/Dafny ):

 export DAFNY_PATH=

Si está evaluando un LLM a través del acceso de API, configure la tecla API. Por ejemplo:

 export OPENAI_API_KEY=

Puede optar por evaluar un LLM en un solo programa de prueba, como:

 python fill_hints.py --model "gpt-4o" --test_file "Clover_abs_no_hints.dfy" --feedback_turn 3 --dafny_path "$DAFNY_PATH"

o evaluar en todo el conjunto de datos:

 export model_to_eval='gpt-4o'
./run_eval.sh

¿Contenido?

DafnyBench
- Una colección de 782 programas DAFNY. Cada programa tiene una versión ground_truth que se verifica completamente con DAFNY & A hints_removed Versión que tiene sugerencias (es decir, anotaciones) eliminadas
eval
- Contiene scripts para evaluar LLM en DafnyBench
results
- results_summary : marcos de datos que resumen el éxito de LLMS en cada programa de prueba
- reconstructed_files - salidas LLM con pistas llenas de nuevo en
- analysis : contiene un cuaderno para analizar los resultados

Cita?

 @article { loughridge2024dafnybench ,
         title = { DafnyBench: A Benchmark for Formal Software Verification } , 
         author = { Chloe Loughridge and Qinyi Sun and Seth Ahrenbach and Federico Cassano and Chuyue Sun and Ying Sheng and Anish Mudide and Md Rakib Hossain Misu and Nada Amin and Max Tegmark } ,
         year = { 2024 } ,
         journal = { arXiv preprint arXiv:2406.08467 }
}

Expandir

Información adicional

Versión 1.0.0
Tipo Código Fuente de IA
Fecha de actualización 2025-06-13
tamaño 3.64MB
Proviene de Github

Aplicaciones relacionadas

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
promptl

2025-02-17
pywin_contextmenu

2025-08-31
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
ML stack

Código Fuente de IA

1.0.0
awesome free chatgpt

Código Fuente de IA

1.0.0
promptl

Código Fuente de IA

1.0.0
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Otro código fuente

1.0.0

Información relacionada Todo