bigcodebench Download - bigcodebench Source Code Download

bigcodebench

Autre code source

v0.2.1.post2

Télécharger

Bigcodebench

? Impact • ? NOUVELLES • Démarrage rapide • Évaluation à distance • Code généré par LLM •? Utilisation avancée •? Soumission des résultats • Citation

? Impact

BigCodeBench a été utilisé par de nombreuses équipes LLM, notamment:

Zhipu ai
Alibaba Qwen
En profondeur
AMATON AWS AI
Recherche de Snowflake AI
Recherche de ServiceNow
Meta Ai
Cohere ai
Sakana Ai

? Nouvelles

[2024-10-06] Nous publions bigcodebench==v0.2.0 !
[2024-10-05] Nous créons une API d'exécution de code public sur l'espace facial étreint.
[2024-10-01] Nous avons jusqu'à présent évalué 139 modèles sur BigCodeBench-Hard. Jetez un œil au classement!
[2024-08-19] Pour rendre l'évaluation entièrement reproductible, nous ajoutons une session d'exécution de code en temps réel au classement. Il peut être consulté ici.
[2024-08-02] Nous libérons bigcodebench==v0.1.9 .

Plus de nouvelles :: cliquez pour agrandir ::

[2024-07-18] Nous annonçons un sous-ensemble de bigcodebench, bigcodebench-hard, qui comprend 148 tâches plus alignées sur les tâches de programmation du monde réel. Les détails sont disponibles dans cet article de blog. L'ensemble de données est disponible ici. La nouvelle version est bigcodebench==v0.1.8 .
[2024-06-28] Nous libérons bigcodebench==v0.1.7 .
[2024-06-27] Nous libérons bigcodebench==v0.1.6 .
[2024-06-19] Nous commençons le classement BigCodebench Face étreint! Le classement est disponible ici.
[2024-06-18] Nous publions BigCodeBench, une nouvelle référence pour la génération de code avec 1140 tâches de programmation orientées vers l'ingénierie logicielle. Preprint est disponible ici. Le package PYPI est disponible ici avec la version 0.1.5 .

? À propos

Bigcodebench

BigCodeBench est une référence facile à utiliser pour résoudre des tâches pratiques et difficiles via le code. Il vise à évaluer les véritables capacités de programmation des modèles de grands langues (LLM) dans un cadre plus réaliste. La référence est conçue pour les tâches de génération de code au niveau de la fonction de type humaine, mais avec des instructions beaucoup plus complexes et des appels de fonction divers.

Il y a deux divisions dans BigCodeBench:

Complete : THES Split est conçu pour l'achèvement du code en fonction des docstrings complets.
Instruct : La scission fonctionne uniquement pour les modèles d'instructions et de chat, où les modèles sont invités à générer un extrait de code basé sur les instructions en langue naturelle. Les instructions ne contiennent que des informations nécessaires et nécessitent un raisonnement plus complexe.

Pourquoi bigcodebench?

BigCodeBench se concentre sur l'automatisation des tâches via la génération de code avec divers appels de fonction et des instructions complexes , avec:

Évaluation et classement précis : voir notre classement pour les derniers classements LLM avant et après une évaluation rigoureuse.
Échantillons pré-générés : BigCodeBench accélère la recherche sur le code par le code par des échantillons générés par LLM open-source pour divers modèles - pas besoin de réacheminer les références coûteuses!

Démarrage rapide

Pour commencer, veuillez d'abord configurer l'environnement:

 # By default, you will use the remote evaluation API to execute the output samples.
pip install bigcodebench --upgrade

# You are suggested to use `flash-attn` for generating code samples.
pip install packaging ninja
pip install flash-attn --no-build-isolation
# Note: if you have installation problem, consider using pre-built
# wheels from https://github.com/Dao-AILab/flash-attention/releases

⏬ Installez la version nocturne :: cliquez pour agrandir ::

 # Install to use bigcodebench.generate
pip install " git+https://github.com/bigcode-project/bigcodebench.git " --upgrade

Évaluation à distance

Nous utilisons le décodage gourmand comme exemple pour montrer comment évaluer les échantillons de code générés via une API distante.

Avertissement

Pour soulager la génération, nous utilisons l'inférence par défaut par défaut. Cependant, les résultats de l'inférence par lots pourraient varier de la taille des lots aux tailles et versions des lots aux versions , du moins pour le backend VLLM. Si vous souhaitez obtenir des résultats plus déterministes pour le décodage gourmand, veuillez définir --bs sur 1 .

Note

L'exécution à distance sur BigCodeBench-Full prend généralement 6 à 7 minutes, et sur BigCodeBench-Hard prend généralement 4 à 5 minutes.

bigcodebench.evaluate 
  --model meta-llama/Meta-Llama-3.1-8B-Instruct 
  --split [complete | instruct] 
  --subset [full | hard] 
  --backend [vllm | openai | anthropic | google | mistral | hf]

Tous les fichiers résultants seront stockés dans un dossier nommé bcb_results .
Les échantillons de code générés seront stockés dans un fichier nommé [model_name]--bigcodebench-[instruct|complete]--[backend]-[temp]-[n_samples]-sanitized_calibrated.jsonl .
Les résultats de l'évaluation seront stockés dans un fichier nommé [model_name]--bigcodebench-[instruct|complete]--[backend]-[temp]-[n_samples]-sanitized_calibrated_eval_results.json .
Les résultats pass @ k seront stockés dans un fichier nommé [model_name]--bigcodebench-[instruct|complete]--[backend]-[temp]-[n_samples]-sanitized_calibrated_pass_at_k.json .

Note

BigCodeBench utilise différentes invites pour les modèles de base et de chat. Par défaut, il est détecté par tokenizer.chat_template lors de l'utilisation hf / vllm comme backend. Pour les autres backends, seul le mode de chat est autorisé.

Par conséquent, si vos modèles de base sont livrés avec un tokenizer.chat_template , veuillez ajouter --direct_completion pour éviter d'être évalué en mode chat.

Accédez aux API Openai depuis la console Openai

 export OPENAI_API_KEY= < your_openai_api_key >

Accéder aux API anthropes à partir de la console anthropique

 export ANTHROPIC_API_KEY= < your_anthropic_api_key >

Accès aux API Mistral de la console Mistral

 export MISTRAL_API_KEY= < your_mistral_api_key >

Access Gemini API depuis Google AI Studio

 export GOOGLE_API_KEY= < your_google_api_key >

Code généré par LLM

Nous partageons des échantillons de code pré-générés de LLMS que nous avons évalués:

Voir l'attachement de notre V0.2.0.Post3. Nous incluons sanitized_samples_calibrated.zip pour votre commodité.

? Utilisation avancée

Veuillez vous référer à l'utilisation avancée pour plus de détails.

? Soumission des résultats

Veuillez envoyer un e-mail à la fois les échantillons de code générés et les résultats de l'exécution à [email protected] si vous souhaitez contribuer votre modèle au classement. Notez que les noms de fichiers doivent être dans le format de [model_name]--[revision]--[bigcodebench|bigcodebench-hard]-[instruct|complete]--[backend]-[temp]-[n_samples]-sanitized_calibrated.jsonl et [model_name]--[revision]--[bigcodebench|bigcodebench-hard]-[instruct|complete]--[backend]-[temp]-[n_samples]-sanitized_calibrated_eval_results.json . Vous pouvez déposer un problème pour nous rappeler si nous ne répondons pas à votre e-mail dans les 3 jours.

Citation

 @article { zhuo2024bigcodebench ,
  title = { BigCodeBench: Benchmarking Code Generation with Diverse Function Calls and Complex Instructions } ,
  author = { Zhuo, Terry Yue and Vu, Minh Chien and Chim, Jenny and Hu, Han and Yu, Wenhao and Widyasari, Ratnadira and Yusuf, Imam Nur Bani and Zhan, Haolan and He, Junda and Paul, Indraneil and others } ,
  journal = { arXiv preprint arXiv:2406.15877 } ,
  year = { 2024 }
}

Reconnaissance

Évaluation

Développer

Informations supplémentaires

Version v0.2.1.post2
Type Autre code source
Date de mise à jour 2025-03-04
taille 86.95KB
Provenant de Github

Applications connexes

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout