Descargar bigcodebench - Descargar el código fuente de bigcodebench

bigcodebench

Otro código fuente

v0.2.1.post2

Descargar

Bigcodebench

? Impacto • ? Noticias • Inicio rápido • Evaluación remota • Código generado por LLM •? Uso avanzado •? Envío de resultados • Cita

? Impacto

BigCodeBench ha sido utilizado por muchos equipos de LLM, incluidos:

Zhipu ai
Alibaba Qwen
Veterano
Amazon AWS AI
Investigación de AI de copo de nieve
Investigación de ServiceNow
Meta ai
Cohere ai
Sakana ai

? Noticias

[2024-10-06] ¡Estamos liberando bigcodebench==v0.2.0 !
[2024-10-05] Creamos una API de ejecución de código público en el espacio de la cara abrazada.
[2024-10-01] Hemos evaluado 139 modelos en BigCodeBench-Hard hasta ahora. ¡Echa un vistazo a la tabla de clasificación!
[2024-08-19] Para que la evaluación sea completamente reproducible, agregamos una sesión de ejecución de código en tiempo real a la tabla de clasificación. Se puede ver aquí.
[2024-08-02] Lanzamos bigcodebench==v0.1.9 .

Más noticias :: Haga clic para expandir ::

[2024-07-18] Anunciamos un subconjunto de BigCodeBench, BigCodeBench-Hard, que incluye 148 tareas que están más alineadas con las tareas de programación del mundo real. Los detalles están disponibles en esta publicación de blog. El conjunto de datos está disponible aquí. La nueva versión es bigcodebench==v0.1.8 .
[2024-06-28] Lanzamos bigcodebench==v0.1.7 .
[2024-06-27] Lanzamos bigcodebench==v0.1.6 .
[2024-06-19] ¡Comenzamos la tabla de clasificación de BigCodeBench para abrazar! La tabla de clasificación está disponible aquí.
[2024-06-18] Lanzamos BigCodeBench, un nuevo punto de referencia para la generación de código con 1140 tareas de programación orientadas a la ingeniería de software. La preimpresión está disponible aquí. El paquete Pypi está disponible aquí con la versión 0.1.5 .

? Acerca de

Bigcodebench

BigCodeBench es un punto de referencia fácil de usar para resolver tareas prácticas y desafiantes a través del código. Su objetivo es evaluar las verdaderas capacidades de programación de los grandes modelos de lenguaje (LLM) en un entorno más realista. El punto de referencia está diseñado para tareas de generación de código de nivel de función humanal, pero con instrucciones mucho más complejas y diversas llamadas de funciones.

Hay dos divisiones en BigCodeBench:

Complete : Thes Split está diseñado para su finalización de código basado en las documentos completos.
Instruct : La división funciona solo para los modelos de instrucciones y de chat, donde se les pide a los modelos que generen un fragmento de código en función de las instrucciones del lenguaje natural. Las instrucciones solo contienen información necesaria y requieren un razonamiento más complejo.

¿Por qué BigCodeBench?

BigCodeBench se centra en la automatización de tareas a través de la generación de códigos con diversas llamadas de funciones e instrucciones complejas , con:

Evaluación y clasificación precisa : consulte nuestra clasificación de clasificación para las últimas clasificaciones de LLM antes y después de una evaluación rigurosa.
Muestras previas a la generación : BigCodeBench acelera la investigación de inteligencia de código mediante muestras generadas por LLM de origen abierto para varios modelos, ¡no es necesario volver a ejecutar los costosos puntos de referencia!

Comienzo rápido

Para comenzar, primero configure el entorno:

 # By default, you will use the remote evaluation API to execute the output samples.
pip install bigcodebench --upgrade

# You are suggested to use `flash-attn` for generating code samples.
pip install packaging ninja
pip install flash-attn --no-build-isolation
# Note: if you have installation problem, consider using pre-built
# wheels from https://github.com/Dao-AILab/flash-attention/releases

⏬ Instale la versión nocturna :: Haga clic para expandir ::

 # Install to use bigcodebench.generate
pip install " git+https://github.com/bigcode-project/bigcodebench.git " --upgrade

Evaluación remota

Utilizamos la decodificación codiciosa como ejemplo para mostrar cómo evaluar las muestras de código generadas a través de API remota.

Advertencia

Para aliviar la generación, utilizamos la inferencia por lotes por defecto. Sin embargo, los resultados de la inferencia por lotes podrían variar de los tamaños de lotes a los tamaños de lotes y versiones a versiones , al menos para el backend de VLLM. Si desea obtener resultados más deterministas para la decodificación codiciosa, configure --bs a 1 .

Nota

Ejecutarse de forma remota en BigCodeBench-Full Típicamente lleva 6-7 minutos, y en BigCodeBench-Hard generalmente lleva 4-5 minutos.

bigcodebench.evaluate 
  --model meta-llama/Meta-Llama-3.1-8B-Instruct 
  --split [complete | instruct] 
  --subset [full | hard] 
  --backend [vllm | openai | anthropic | google | mistral | hf]

Todos los archivos resultados se almacenarán en una carpeta llamada bcb_results .
Las muestras de código generadas se almacenarán en un archivo llamado [model_name]--bigcodebench-[instruct|complete]--[backend]-[temp]-[n_samples]-sanitized_calibrated.jsonl .
Los resultados de la evaluación se almacenarán en un archivo llamado [model_name]--bigcodebench-[instruct|complete]--[backend]-[temp]-[n_samples]-sanitized_calibrated_eval_results.json .
Los resultados de Pass@K se almacenarán en un archivo llamado [model_name]--bigcodebench-[instruct|complete]--[backend]-[temp]-[n_samples]-sanitized_calibrated_pass_at_k.json .

Nota

BigCodeBench utiliza diferentes indicaciones para modelos base y de chat. Por defecto, es detectado por tokenizer.chat_template cuando se usa hf / vllm como Backend. Para otros backends, solo se permite el modo de chat.

Por lo tanto, si sus modelos base vienen con un tokenizer.chat_template , agregue --direct_completion para evitar ser evaluado en modo de chat.

Acceda a las API Operai desde la consola Operai

 export OPENAI_API_KEY= < your_openai_api_key >

Acceder a las API antrópicas desde la consola antrópica

 export ANTHROPIC_API_KEY= < your_anthropic_api_key >

Acceda a las API de Mistral desde la consola Mistral

 export MISTRAL_API_KEY= < your_mistral_api_key >

Access API de Géminis desde Google AI Studio

 export GOOGLE_API_KEY= < your_google_api_key >

Código generado por LLM

Compartimos muestras de código previamente generadas de LLM que hemos evaluado:

Vea el archivo adjunto de nuestro V0.2.0.post3. Incluimos sanitized_samples_calibrated.zip para su conveniencia.

? Uso avanzado

Consulte el uso avanzado para obtener más detalles.

? Envío de resultados

Envíe un correo electrónico a las muestras de código generadas y los resultados de la ejecución a [email protected] si desea contribuir con su modelo a la clasificación. Tenga en cuenta que los nombres de archivo deben estar en el formato de [model_name]--[revision]--[bigcodebench|bigcodebench-hard]-[instruct|complete]--[backend]-[temp]-[n_samples]-sanitized_calibrated.jsonl e e e e e e egional [model_name]--[revision]--[bigcodebench|bigcodebench-hard]-[instruct|complete]--[backend]-[temp]-[n_samples]-sanitized_calibrated_eval_results.json . Puede presentar un problema para recordarnos si no respondemos a su correo electrónico dentro de los 3 días.

Citación

 @article { zhuo2024bigcodebench ,
  title = { BigCodeBench: Benchmarking Code Generation with Diverse Function Calls and Complex Instructions } ,
  author = { Zhuo, Terry Yue and Vu, Minh Chien and Chim, Jenny and Hu, Han and Yu, Wenhao and Widyasari, Ratnadira and Yusuf, Imam Nur Bani and Zhan, Haolan and He, Junda and Paul, Indraneil and others } ,
  journal = { arXiv preprint arXiv:2406.15877 } ,
  year = { 2024 }
}

Reconocimiento

Evaluación

Expandir

Información adicional

Versión v0.2.1.post2
Tipo Otro código fuente
Fecha de actualización 2025-03-04
tamaño 86.95KB
Proviene de Github

Aplicaciones relacionadas

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo