Descarga lm evaluation - Descargar el código fuente lm evaluation

lm evaluation

Código Fuente de IA

1.0.0

Descargar

Suite de prueba de evaluación de LM

Este repositorio contiene código para ejecutar las evaluaciones y reproducir los resultados del documento técnico Jurassic-1 (ver publicación de blog), con soporte actual para ejecutar las tareas a través de la API de estudio AI21 y la API GPT3 de OpenAI.

Citación

Utilice la siguiente entrada de Bibtex:

 @techreport{J1WhitePaper,
  author = {Lieber, Opher and Sharir, Or and Lenz, Barak and Shoham, Yoav},
  title = {Jurassic-1: Technical Details And Evaluation},
  institution = {AI21 Labs},
  year = 2021,
  month = aug,
}

Instalación

 git clone https://github.com/AI21Labs/lm-evaluation.git
cd lm-evaluation
pip install -e .

Uso

El punto de entrada para ejecutar las evaluaciones es lm_evaluation/run_eval.py, que recibe una lista de tareas y modelos para ejecutar.

El argumento de los modelos debe estar en el formulario "proveedor/model_name" donde el proveedor puede ser "AI21" o "OpenAI" y el nombre del modelo es uno de los modelos compatibles con los proveedores.

Cuando se ejecute a través de uno de los modelos API, establezca las teclas API utilizando las variables de entorno AI21_studio_api_Key y OpenAI_API_KEY. Asegúrese de considerar los costos y los límites de las cuotas de los modelos que está ejecutando de antemano.

Ejemplos:

# Evaluate hellaswag and winogrande on j1-large
python -m lm_evaluation.run_eval --tasks hellaswag winogrande --models ai21/j1-large

# Evaluate all multiple-choice tasks on j1-jumbo
python -m lm_evaluation.run_eval --tasks all_mc --models ai21/j1-jumbo

# Evaluate all docprob tasks on curie and j1-large
python -m lm_evaluation.run_eval --tasks all_docprobs --models ai21/j1-large openai/curie

Conjuntos de datos

El repositorio actualmente admite los conjuntos de datos de probabilidad de documentos de opción múltiple y de documentos informados en el documento técnico Jurassic-1.

Opción múltiple

Los conjuntos de datos de opción múltiple se formatean como se describe en el documento GPT3, y las métricas de evaluación informadas predeterminadas son las descritas allí.

Todos nuestros conjuntos de datos formateados, excepto StoryCloze, están disponibles públicamente y se hace referencia en lm_evaluation/tareas_config.py. StoryCloze debe descargarse y formatearse manualmente, y la ubicación debe configurarse a través de la variable de entorno 'Storycloze_test_path'.

Probabilidades de documentos

Las tareas de probabilidad de documentos incluyen documentos de 19 fuentes de datos, incluidos C4 y conjuntos de datos de 'la pila'.

Cada documento está previamente dividido en los límites de las oraciones a subdocumentos de hasta 1024 tokens GPT cada uno, para garantizar que todos los modelos ven las mismas entradas/contextos independientemente de la tokenización y para apoyar la evaluación de modelos que se limitan a longitudes de secuencia de 1024.

Cada una de las 19 tareas tiene ~ 4 MB de datos de texto totales.

Configuración adicional

Carpeta de resultados

De manera predeterminada, todos los resultados se guardarán en la carpeta 'resultados', y volver a sin embargo las mismas tareas cargarán los resultados existentes. La carpeta de resultados se puede cambiar utilizando la variable de entorno lm_evaluation_results_dir.

Expandir

Información adicional

Versión 1.0.0
Tipo Código Fuente de IA
Fecha de actualización 2025-09-07
tamaño 13.83KB
Proviene de Github

Aplicaciones relacionadas

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
LM confesión en línea producción de página web Código fuente PHP versión embellecida versión oficial

2022-11-01

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
ML stack

Código Fuente de IA

1.0.0
awesome free chatgpt

Código Fuente de IA

1.0.0
pywin_contextmenu

Código Fuente de IA

Version update
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo