Download do bigcodebench - bigcodebench Código -fonte Download

bigcodebench

Outro código-fonte

v0.2.1.post2

Baixar

Bigcodebench

? Impacto •? Notícias • Início rápido • Avaliação remota • Código gerado por LLM •? Uso avançado •? Submissão de resultados • Citação

? Impacto

O BigCodebench tem sido usado por muitas equipes LLM, incluindo:

Zhipu AI
Alibaba Qwen
Deepseek
Amazon AWS AI
Snowflake AI Research
Pesquisa de ServiceNow
Meta ai
Coere ai
Sakana ai

? Notícias

[2024-10-06] Estamos lançando bigcodebench==v0.2.0 !
[2024-10-05] Criamos uma API de execução pública de código no espaço de rosto abraçado.
[2024-10-01] Avaliamos 139 modelos no BigCodeBench Hard até agora. Dê uma olhada na tabela de classificação!
[2024-08-19] Para tornar a avaliação totalmente reproduzível, adicionamos uma sessão de execução de código em tempo real à tabela de classificação. Pode ser visto aqui.
[2024-08-02] Lançamos bigcodebench==v0.1.9 .

Mais notícias :: Clique para expandir ::

[2024-07-18] Anunciamos um subconjunto de bigcodebench, bigcodebench hard, que inclui 148 tarefas que estão mais alinhadas com as tarefas de programação do mundo real. Os detalhes estão disponíveis nesta postagem do blog. O conjunto de dados está disponível aqui. A nova versão é bigcodebench==v0.1.8 .
[2024-06-28] Lançamos bigcodebench==v0.1.7 .
[2024-06-27] Lançamos bigcodebench==v0.1.6 .
[2024-06-19] Começamos a tabela de classificação Bigcodebench de Hugging Face! A tabela de classificação está disponível aqui.
[2024-06-18] Lançamos o BigCodeBench, uma nova referência para geração de código com 1140 tarefas de programação orientadas a engenharia de software. A pré -impressão está disponível aqui. O pacote Pypi está disponível aqui com a versão 0.1.5 .

? Sobre

Bigcodebench

O BigCodeBench é um benchmark fácil de usar para resolver tarefas práticas e desafiadoras via código. O objetivo é avaliar os verdadeiros recursos de programação de grandes modelos de linguagem (LLMS) em um ambiente mais realista. O benchmark foi projetado para tarefas de geração de código de nível de função do tipo Humaneval, mas com instruções muito mais complexas e chamadas de funções diversas.

Existem duas divisões no BigCodeBench:

Complete : This Split foi projetado para conclusão de código com base nos documentos abrangentes.
Instruct : A divisão funciona apenas para os modelos de instrução e bate-papo, onde os modelos são solicitados a gerar um trecho de código com base nas instruções de linguagem natural. As instruções contêm apenas as informações necessárias e exigem raciocínio mais complexo.

Por que BigCodeBench?

O BigCodebench se concentra na automação de tarefas via geração de código com diversas chamadas de funções e instruções complexas , com:

Avaliação e classificação precisas : consulte nossa tabela de classificação para obter as últimas classificações do LLM antes e após uma avaliação rigorosa.
Amostras pré-geradas : o BigCodeBench acelera a pesquisa de inteligência de código, com amostras geradas por S-Sourcing LLM para vários modelos-não há necessidade de executar novamente os benchmarks caros!

Início rápido

Para começar, primeiro configure o ambiente:

 # By default, you will use the remote evaluation API to execute the output samples.
pip install bigcodebench --upgrade

# You are suggested to use `flash-attn` for generating code samples.
pip install packaging ninja
pip install flash-attn --no-build-isolation
# Note: if you have installation problem, consider using pre-built
# wheels from https://github.com/Dao-AILab/flash-attention/releases

⏬ Instale a versão noturna :: Clique para expandir ::

 # Install to use bigcodebench.generate
pip install " git+https://github.com/bigcode-project/bigcodebench.git " --upgrade

Avaliação remota

Usamos a decodificação gananciosa como exemplo para mostrar como avaliar as amostras de código geradas por meio da API remota.

Aviso

Para facilitar a geração, usamos a inferência em lote por padrão. No entanto, os resultados da inferência em lote podem variar de tamanhos de lote para tamanhos e versões em lote e versões , pelo menos para o back -end VLLM. Se você deseja obter resultados mais determinísticos para decodificação gananciosa, defina --bs como 1 .

Observação

A execução remotamente no BigCodeBench-Full normalmente leva de 6 a 7 minutos, e no BigCodeBench-Hard normalmente leva de 4-5 minutos.

bigcodebench.evaluate 
  --model meta-llama/Meta-Llama-3.1-8B-Instruct 
  --split [complete | instruct] 
  --subset [full | hard] 
  --backend [vllm | openai | anthropic | google | mistral | hf]

Todos os arquivos resultantes serão armazenados em uma pasta chamada bcb_results .
As amostras de código geradas serão armazenadas em um arquivo chamado [model_name]--bigcodebench-[instruct|complete]--[backend]-[temp]-[n_samples]-sanitized_calibrated.jsonl .
Os resultados da avaliação serão armazenados em um arquivo chamado [model_name]--bigcodebench-[instruct|complete]--[backend]-[temp]-[n_samples]-sanitized_calibrated_eval_results.json .
Os resultados do PASS@K serão armazenados em um arquivo chamado [model_name]--bigcodebench-[instruct|complete]--[backend]-[temp]-[n_samples]-sanitized_calibrated_pass_at_k.json .

Observação

O BigCodebench usa instruções diferentes para modelos de base e bate -papo. Por padrão, é detectado pelo tokenizer.chat_template ao usar hf / vllm como back -end. Para outros back -end, apenas o modo de bate -papo é permitido.

Portanto, se seus modelos básicos vieram com um tokenizer.chat_template , adicione --direct_completion para evitar ser avaliado em um modo de bate -papo.

Acesse APIs OpenAI do OpenAi Console

 export OPENAI_API_KEY= < your_openai_api_key >

Acesse APIs antrópicas do console antrópico

 export ANTHROPIC_API_KEY= < your_anthropic_api_key >

Acesse APIs Mistral do Console Mistral

 export MISTRAL_API_KEY= < your_mistral_api_key >

Access Gemini APIs do Google AI Studio

 export GOOGLE_API_KEY= < your_google_api_key >

Código gerado por LLM

Compartilhamos amostras de código pré-geradas do LLMS que avaliamos:

Veja o anexo do nosso v0.2.0.post3. Incluímos sanitized_samples_calibrated.zip para sua conveniência.

? Uso avançado

Consulte o uso avançado para obter mais detalhes.

? Submissão de resultados

Envie um email para as amostras de código geradas e os resultados da execução para [email protected] se você quiser contribuir com seu modelo para a tabela de classificação. Observe que os nomes dos arquivos devem estar no formato de [model_name]--[revision]--[bigcodebench|bigcodebench-hard]-[instruct|complete]--[backend]-[temp]-[n_samples]-sanitized_calibrated.jsonl e [model_name]--[revision]--[bigcodebench|bigcodebench-hard]-[instruct|complete]--[backend]-[temp]-[n_samples]-sanitized_calibrated_eval_results.json . Você pode registrar um problema para nos lembrar se não respondermos ao seu email dentro de 3 dias.

Citação

 @article { zhuo2024bigcodebench ,
  title = { BigCodeBench: Benchmarking Code Generation with Diverse Function Calls and Complex Instructions } ,
  author = { Zhuo, Terry Yue and Vu, Minh Chien and Chim, Jenny and Hu, Han and Yu, Wenhao and Widyasari, Ratnadira and Yusuf, Imam Nur Bani and Zhan, Haolan and He, Junda and Paul, Indraneil and others } ,
  journal = { arXiv preprint arXiv:2406.15877 } ,
  year = { 2024 }
}

Reconhecimento

Avaliação

Expandir

Informações adicionais

Versão v0.2.1.post2
Tipo Outro código-fonte
Data da Última Atualização 2025-03-04
tamanho 86.95KB
Vindo de Github

Aplicativos Relacionados

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos