lm evaluation Download - lm evaluation do download do código -fonte

lm evaluation

Código-Fonte de IA

1.0.0

Baixar

Suíte de teste de avaliação LM

Esse repositório contém código para executar as avaliações e reproduzir os resultados do documento técnico Jurassic-1 (consulte o blog), com suporte atual para executar as tarefas através da API do estúdio AI21 e da API do GPT3 do OpenAI.

Citação

Por favor, use a seguinte entrada do Bibtex:

 @techreport{J1WhitePaper,
  author = {Lieber, Opher and Sharir, Or and Lenz, Barak and Shoham, Yoav},
  title = {Jurassic-1: Technical Details And Evaluation},
  institution = {AI21 Labs},
  year = 2021,
  month = aug,
}

Instalação

 git clone https://github.com/AI21Labs/lm-evaluation.git
cd lm-evaluation
pip install -e .

Uso

O ponto de entrada para executar as avaliações é LM_Evaluation/run_eval.py, que recebe uma lista de tarefas e modelos a serem executados.

O argumento dos modelos deve estar no formulário "Provedor/Model_name", onde o provedor pode ser "AI21" ou "OpenAI" e o nome do modelo é um dos modelos suportados pelos provedores.

Ao executar em um dos modelos da API, defina as chaves da sua API usando as variáveis de ambiente AI21_STUDIO_API_KEY e OPENAI_API_KEY. Certifique -se de considerar os custos e os limites da cota dos modelos que você está executando com antecedência.

Exemplos:

# Evaluate hellaswag and winogrande on j1-large
python -m lm_evaluation.run_eval --tasks hellaswag winogrande --models ai21/j1-large

# Evaluate all multiple-choice tasks on j1-jumbo
python -m lm_evaluation.run_eval --tasks all_mc --models ai21/j1-jumbo

# Evaluate all docprob tasks on curie and j1-large
python -m lm_evaluation.run_eval --tasks all_docprobs --models ai21/j1-large openai/curie

Conjuntos de dados

Atualmente, o repositório suporta os conjuntos de dados de probabilidade de múltipla escolha e documento zero-tiro relatados no documento técnico Jurassic-1.

Múltipla escolha

Os conjuntos de dados de múltipla escolha são formatados conforme descrito no papel GPT3, e as métricas de avaliação relatadas padrão são as descritas lá.

Todos os nossos conjuntos de dados formatados, exceto no StoryCloze, estão disponíveis publicamente e referenciados em lm_evaluation/tasks_config.py. O StoryCloze precisa ser baixado e formatado manualmente, e o local deve ser configurado através da variável de ambiente 'storycloze_test_path'.

Documentar probabilidades

As tarefas de probabilidade de documentos incluem documentos de 19 fontes de dados, incluindo C4 e conjuntos de dados de 'The Pile'.

Cada documento é pré-dividido nos limites da frase para subdocumentos de até 1024 tokens GPT cada, para garantir que todos os modelos vejam as mesmas entradas/contextos, independentemente da simulação e para apoiar a avaliação de modelos limitados a comprimentos de sequência de 1024.

Cada uma das 19 tarefas possui ~ 4 MB dos dados totais de texto.

Configuração adicional

Pasta de resultados

Por padrão, todos os resultados serão salvos na pasta 'Resultados' e executar as mesmas tarefas carregarão os resultados existentes. A pasta de resultados pode ser alterada usando a variável de ambiente lm_evaluation_results_dir.

Expandir

Informações adicionais

Versão 1.0.0
Tipo Código-Fonte de IA
Data da Última Atualização 2025-09-07
tamanho 13.83KB
Vindo de Github

Aplicativos Relacionados

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
LM produção de página de confissão on-line PHP código-fonte versão embelezada versão oficial

2022-11-01

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
ML stack

Código-Fonte de IA

1.0.0
awesome free chatgpt

Código-Fonte de IA

1.0.0
pywin_contextmenu

Código-Fonte de IA

Version update
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos