Descarga lm contamination - Descargar el código fuente lm contamination

lm contamination

Código Fuente de IA

1.0.0

Descargar

Índice de contaminación de LM

Los modelos de idiomas grandes han visto billones de tokens, ¿quién sabe qué hay dentro? Los trabajos recientes han evaluado esos modelos en muchas tareas diferentes, pero ¿se aseguraron de que el modelo no hubiera visto la capacitación o incluso los conjuntos de datos de evaluación? En la publicación del blog, mostramos que ChatGPT ya memorizan algunos conjuntos de datos de referencia populares y que uno puede pedir a ChatGPT a regenerarlos.

En este repositorio, nuestro objetivo es recopilar (tanto como sea posible) evidencia de contaminación para proporcionar a la comunidad de investigación un recurso confiable para verificar rápidamente si el modelo ya ha visto su conjunto de datos de evaluación. Sin embargo, somos conscientes de la incompletitud del índice y, por lo tanto, pedimos a los investigadores que en cualquier caso realicen un pequeño experimento de contaminación de antemano.

Puede visitar el índice de contaminación de la herramienta de búsqueda LM

Que contribuye

La cantidad de conjuntos de datos y modelos es desalentador. Por lo tanto, estamos imaginando un esfuerzo comunitario. Si le apasiona la investigación de PNL y desea contribuir con la contaminación en la evaluación de LLM, siga las pautas de contribución

Citación

Si desea consultar este trabajo, apreciaríamos si cita los siguientes:

Oscar Sainz, Jon Ander Campos, Iker Garc ́ıa-Ferrero, Julen Etxaniz y Eneko Agirre. ¿Chatgpt hizo trampa en su prueba?, Jun 2023. URL https://hitz-zentroa.github.io/lm-contamination/blog/.

 @misc { sainz2023chatgpt ,
    title = { Did ChatGPT cheat on your test? } ,
    url = { https://hitz-zentroa.github.io/lm-contamination/blog/ } , 
    author = { Sainz, Oscar and Campos, Jon Ander and García-Ferrero, Iker and Etxaniz, Julen and Agirre, Eneko } , 
    year = { 2023 } , 
    month = { Jun }
}

Oscar Sainz, Jon Campos, Iker García-Ferrero, Julen Etxaniz, Oier López de Lacalle y Eneko Agirre. 2023. Evaluación de PNL en problemas: en la necesidad de medir la contaminación de datos de LLM para cada punto de referencia. En los resultados de la Asociación de Lingüística Computacional: EMNLP 2023, páginas 10776–10787, Singapur. Asociación de Lingüística Computacional.

 @inproceedings { sainz-etal-2023-nlp ,
    title = " {NLP} Evaluation in trouble: On the Need to Measure {LLM} Data Contamination for each Benchmark " ,
    author = " Sainz, Oscar  and
      Campos, Jon  and
      Garc{'i}a-Ferrero, Iker  and
      Etxaniz, Julen  and
      de Lacalle, Oier Lopez  and
      Agirre, Eneko " ,
    editor = " Bouamor, Houda  and
      Pino, Juan  and
      Bali, Kalika " ,
    booktitle = " Findings of the Association for Computational Linguistics: EMNLP 2023 " ,
    month = dec,
    year = " 2023 " ,
    address = " Singapore " ,
    publisher = " Association for Computational Linguistics " ,
    url = " https://aclanthology.org/2023.findings-emnlp.722 " ,
    doi = " 10.18653/v1/2023.findings-emnlp.722 " ,
    pages = " 10776--10787 " ,
    abstract = "In this position paper we argue that the classical evaluation on Natural Language Processing (NLP) tasks using annotated benchmarks is in trouble. The worst kind of data contamination happens when a Large Language Model (LLM) is trained on the test split of a benchmark, and then evaluated in the same benchmark. The extent of the problem is unknown, as it is not straightforward to measure. Contamination causes an overestimation of the performance of a contaminated model in a target benchmark and associated task with respect to their non-contaminated counterparts. The consequences can be very harmful, with wrong scientific conclusions being published while other correct ones are discarded. This position paper defines different levels of data contamination and argues for a community effort, including the development of automatic and semi-automatic measures to detect when data from a benchmark was exposed to a model, and suggestions for flagging papers with conclusions that are compromised by data contamination.",
}

Expandir

Información adicional

Versión 1.0.0
Tipo Código Fuente de IA
Fecha de actualización 2025-09-11
tamaño 142.73KB
Proviene de Github

Aplicaciones relacionadas

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
LM confesión en línea producción de página web Código fuente PHP versión embellecida versión oficial

2022-11-01

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
ML stack

Código Fuente de IA

1.0.0
awesome free chatgpt

Código Fuente de IA

1.0.0
pywin_contextmenu

Código Fuente de IA

Version update
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo