llm bulls and cows benchmark Download - llm bulls and cows benchmark Código Fonte Download

llm bulls and cows benchmark

Outro código-fonte

1.0.0

Baixar

LLM Bulls and Cows Benchmark

Um mini-quadro trabalha para avaliar o desempenho do LLM no jogo de adivinhação do número de touros e vacas, apoiando vários fornecedores através da Litellm.

Observação

TLDR: Bulls e vacas é um jogo de quebra de código para dois jogadores. Um jogador escreve um número secreto de 4 dígitos. Os dígitos devem ser todos diferentes (por exemplo, 1234 ). Então outro jogador (um LLM neste caso) tenta adivinhar o número secreto (por exemplo, 1246 ). Para cada palpite, a informação do número de correspondências é retornada. Se os dígitos correspondentes estiverem em suas posições certas, elas são "touros" (dois touros neste exemplo: 1 e 2 ), se em posições diferentes, são "vacas" (uma vaca, 4 ). A solução correta requer raciocínio para pensar no próximo bom palpite-e na memória do contexto para aprender com as respostas anteriores. Está provado que qualquer número secreto de 4 dígitos pode ser resolvido em sete voltas.

Principais recursos

✅ Múltiplo de suporte LLM : compatível com vários fornecedores através da Litellm; virtualmente, quase qualquer ponto de extremidade poderia ser usado
✅ Métricas abrangentes : rastreia taxas de sucesso, falhas de formato e eficiência do jogo (medido como várias voltas em jogos que terminaram com sucesso)
✅ Visualização interativa : gera gráficos para análise de desempenho em execuções, permitindo comparações entre modelos e provedores de modelos
✅ Parâmetros configuráveis : personalizar regras de jogo (3 ou 4 dígitos repetíveis/exclusivos)
✅ Barras de progresso ricas : não fique entediado durante a realização da referência: todos os resultados intermediários para todos os jogos simultâneos serão exibidos, com atualizações métricas ao vivo!

Progress Bar Demo

Resultados de referência de touros e vacas (4 dígitos sem repetição)

Reults Table

... ou como uma tabela de marcação

Modelo	Jogos	Taxa de sucesso	AVG Turns (apenas sucesso)	Falhas de formato (turnos)
OpenAI/O1-MINI-2024-09-12	25	60,0% [40,7%; 76,6%]	9,1 ± 2,7	23,1%
OpenRouter/Antrópico/Claude-3.5 SONET	50	36,0% [24,1%; 49,9%]	9,8 ± 4,0	0,0%
OpenAI/GPT-4O-2024-08-06	50	30,0% [19,1%; 43,8%]	9,5 ± 3,6	0,0%
OpenAI/GPT-4O-MINI-2024-07-18	50	26,0% [15,9%; 39,6%]	10,0 ± 3,1	0,1%
OpenRouter/Deepseek/Deepseek-Chat	50	18,0% [9,8%; 30,8%]	11,6 ± 3,6	3,3%
OpenRouter/Meta-llama/llama-3.1-405b-Instruct	50	8,0% [3,2%; 18,8%]	9,5 ± 3,3	3,0%
OpenRouter/Google/Gemini-Pro-1.5	50	8,0% [3,2%; 18,8%]	8,0 ± 4,1	0,1%
OpenRouter/Google/Gemini-Flash-1.5	50	2,0% [0,4%; 10,5%]	8,0 ± 0,0	0,9%
Antrópico/Claude-3-5-Haiku-20241022	50	0,0% [0,0%; 7,1%]	0,0 ± 0,0	0,9%

Importante

Para a maioria das corridas, 50 jogos foram disputados (excl. O1-mini); portanto, os intervalos de confiança são amplos. Se você deseja gastar US $ 100-200 em créditos da API em testes para obter resultados mais precisos e tornar o CIS mais estreito, sinta-se à vontade para entrar em contato comigo ou abrir um PR com seus resultados.

Alguns detalhes importantes sobre o teste

Todos os avisos e modelos são convenientemente coletados em um arquivo.
O prompt especifica que o modelo pode primeiro raciocinar e depois fornecer um palpite, que deve estar em uma linha separada e seguir o formato GUESS: 1234 (definido no arquivo de prompts)
Saídas estruturadas/modo JSON são intencionalmente evitadas por dois motivos:
1. Alguns estudos (por exemplo, Tam et al., 2024) indicam uma degradação na qualidade do LLM nesse modo.
2. Nem todas as APIs/estruturas suportam igualmente bem.
Mesmo modelos pequenos e baratos lidam bem com a formatação de resposta (por exemplo, flash gêmeos <1% de falhas de formato, embora os modelos do Google tendam a adicionar uma nova linha após um palpite - .strip() foi adicionado para abordar isso).
Talvez surpreendentemente, o melhor modelo, o1-mini , muitas vezes esquece as regras de formatação e tenta acrescentar ênfase ousada à resposta. Esse comportamento foi considerado inaceitável e contado como um erro e uma curva desperdiçada, pois a instrução especifica explicitamente a formatação necessária.
- Na maioria dos jogos, o modelo conseguiu reiterar sobre o feedback de formatação e apresentar uma resposta ou um novo palpite.
Os avisos não foram otimizados especificamente para nenhum LLM em particular, e eu não acredito que o processo de criação deles favorece qualquer modelo específico. Para transparência, aqui está o processo de criação imediata:
- Inicialmente, o Sonnet 3.5 (novo) os elaborou como parte do desenvolvimento do código de referência.
- Os rascunhos foram revisados pelo mesmo LLM com base no meu feedback.
- Ajustei manualmente um pequeno subconjunto de avisos (incluindo a formatação explicitamente proibida de remarca nas respostas ao comportamento de o1-mini ).
- Nenhuma otimização imediata foi realizada para melhorar a qualidade da solução de tarefas (principalmente devido aos amplos intervalos de confiança; centenas de jogos são necessários para resultados confiáveis).
O resultado principal do benchmark considera a versão de 4 dígitos com os números 0-9 sem repetições, conforme as regras originais de touros e vacas descritas na Wikipedia.
- Devido a restrições orçamentárias, foi introduzido um limite para o número de suposições:
  - 15 voltas para a versão de 4 dígitos (mais que o dobro do ideal; está provado que qualquer número secreto pode ser resolvido em sete voltas).
  - 12 voltas para a versão de 3 dígitos.
- No entanto, isso pode ser alterado no arquivo de configuração.
Alguns modelos testados via OpenRouter podem ter diferentes níveis de quantização (FP8/BF16/FP16); portanto, os resultados dos jogos individuais podem ser levemente distorcidos. No entanto, não se espera que isso afete significativamente a qualidade geral e as classificações de modelos.
Para estimativa do intervalo de confiança, o intervalo de pontuação de Wilson é usado. É assimétrico em relação à taxa de sucesso obtida; e:
- Não sofre de supershoot e problemas de intervalo de largura zero que afetam o intervalo normal.
- Pode ser empregado com segurança com pequenas amostras e observações distorcidas.

Custos aproximados da execução da referência com diferentes LLMs

3 dígitos (versão de depuração: menos turnos, raciocínio mais curto):

openai/gpt-4o-mini-2024-07-18 : 283K em cache + 221k Uncached + 68k Output = $ 0,1 ( recomendado para depuração )

openai/gpt-4o-2024-08-06 : 174K em cache + 241k Uncached + 56k Output = $ 1,38

openai/gpt-4-turbo-2024-04-09 : desconhecido = $ 6,65

openai/o1-mini-2024-09-12 : 0K em cache + 335k Uncached + 1345k Output = $ 17,15

anthropic/claude-3-haiku-20240307 : 492K Entrada + 46k Output = $ 0,18

4 dígitos (versão principal):

openai/gpt-4o-mini-2024-07-18 : 451K em cache + 429k Uncached + 100k Output = $ 0,15

openai/gpt-4o-2024-08-06 : 553K em cache + 287k Uncached + 87k = $ 2,29

(25 jogos) openai/o1-mini-2024-09-12 : 0K em cache + 584k Uncached + 1815k Output = $ 23,54

anthropic/claude-3-5-haiku-20241022 : 969K Entrada + 90K Output = $ 1,42

openrouter/anthropic/claude-3.5-sonnet (NOVO): desconhecido = $ 5.2

Fundo:

Essa estrutura surgiu graças a um comentário curioso de um assinante do meu canal Telegram. Eles alegaram ter testado vários LLMs em um jogo de touros e vacas, concluindo que ninguém poderia resolvê -lo e, portanto, os LLMs não podem raciocinar. Intrigado, pedi exemplos desses chamados "falhas", apenas para saber que os bate-papos foram excluídos. Conveniente. Mais tarde, eles mencionaram a tentativa de O1-Preview, que aparentemente o resolveu-em cerca de 20 movimentos, longe dos 7 movimentos considerados ideais.

Enquanto isso, eu estava procurando uma desculpa para experimentar o OpenHands e que maneira melhor do que desafiar a Copilot a aumentar uma referência LLM do zero? Após três noites de esforço tímido (eu estava tocando Stalker 2 simultaneamente), esse benchmark nasceu-um produto de partes iguais de apatia e o desejo de provar um ponto que ninguém pediu. Aproveitar!

Início rápido

Instale dependências e configure ganchos pré-comprometidos:

pip install -r requirements.txt
pre-commit install

(Opcional) Para entender a lógica, leia todos os avisos aqui.
Configure as teclas da API do seu provedor LLM como variáveis de ambiente (ou diretor no seu terminal ou usando o arquivo .env). Eu recomendo o uso de teclas OpenAI ou Antrópico e OpenRouter para qualquer outra coisa.
Ajuste config/default_config.yaml com as configurações desejadas do modelo e do jogo. Use run_id para armazenar diferentes execuções em pastas separadas - caso contrário, as pastas de resultados serão nomeadas com registro de data e hora. Os campos principais são: model , target_length (quantos dígitos no número secreto), num_concurrent_games (para contornar os limites da API risível do TPS. Por exemplo, para o Nível Antrópico 2, não recomendo definir este valor acima de 2 , enquanto o OpenAI pode suportar facilmente 8 - 10 jogos concorrentes).
Execute a referência e visualize os resultados de todas as execuções:

python run_benchmark.py
python scripts/visualize_results.py

Os resultados estarão disponíveis no HTML (com gráficos adicionais) e Markdown.

Métricas e Análise

O benchmark avalia o LLMS em três aspectos principais:

Taxa de sucesso : capacidade de encontrar o número correto através de várias interações com o jogo
Conformidade de formato : Com que frequência um modelo não segue uma instrução simples sobre a formatação de respostas
Eficiência : número médio de voltas necessárias para ganhar um jogo

Os resultados são salvos com históricos completos de jogos (incluindo registros de conversação, por exemplo, aqui) e configurações para análises detalhadas.

Desenvolvimento

O projeto usa preto (comprimento da linha: 100) e isort para formatação de código. Os ganchos de pré-compromisso garantem a qualidade do código, verificando: