
Los modelos de idiomas grandes han visto billones de tokens, ¿quién sabe qué hay dentro? Los trabajos recientes han evaluado esos modelos en muchas tareas diferentes, pero ¿se aseguraron de que el modelo no hubiera visto la capacitación o incluso los conjuntos de datos de evaluación? En la publicación del blog, mostramos que ChatGPT ya memorizan algunos conjuntos de datos de referencia populares y que uno puede pedir a ChatGPT a regenerarlos.
En este repositorio, nuestro objetivo es recopilar (tanto como sea posible) evidencia de contaminación para proporcionar a la comunidad de investigación un recurso confiable para verificar rápidamente si el modelo ya ha visto su conjunto de datos de evaluación. Sin embargo, somos conscientes de la incompletitud del índice y, por lo tanto, pedimos a los investigadores que en cualquier caso realicen un pequeño experimento de contaminación de antemano.
Puede visitar el índice de contaminación de la herramienta de búsqueda LM
La cantidad de conjuntos de datos y modelos es desalentador. Por lo tanto, estamos imaginando un esfuerzo comunitario. Si le apasiona la investigación de PNL y desea contribuir con la contaminación en la evaluación de LLM, siga las pautas de contribución
Si desea consultar este trabajo, apreciaríamos si cita los siguientes:
Oscar Sainz, Jon Ander Campos, Iker Garc ́ıa-Ferrero, Julen Etxaniz y Eneko Agirre. ¿Chatgpt hizo trampa en su prueba?, Jun 2023. URL https://hitz-zentroa.github.io/lm-contamination/blog/.
@misc { sainz2023chatgpt ,
title = { Did ChatGPT cheat on your test? } ,
url = { https://hitz-zentroa.github.io/lm-contamination/blog/ } ,
author = { Sainz, Oscar and Campos, Jon Ander and García-Ferrero, Iker and Etxaniz, Julen and Agirre, Eneko } ,
year = { 2023 } ,
month = { Jun }
} Oscar Sainz, Jon Campos, Iker García-Ferrero, Julen Etxaniz, Oier López de Lacalle y Eneko Agirre. 2023. Evaluación de PNL en problemas: en la necesidad de medir la contaminación de datos de LLM para cada punto de referencia. En los resultados de la Asociación de Lingüística Computacional: EMNLP 2023, páginas 10776–10787, Singapur. Asociación de Lingüística Computacional.
@inproceedings { sainz-etal-2023-nlp ,
title = " {NLP} Evaluation in trouble: On the Need to Measure {LLM} Data Contamination for each Benchmark " ,
author = " Sainz, Oscar and
Campos, Jon and
Garc{'i}a-Ferrero, Iker and
Etxaniz, Julen and
de Lacalle, Oier Lopez and
Agirre, Eneko " ,
editor = " Bouamor, Houda and
Pino, Juan and
Bali, Kalika " ,
booktitle = " Findings of the Association for Computational Linguistics: EMNLP 2023 " ,
month = dec,
year = " 2023 " ,
address = " Singapore " ,
publisher = " Association for Computational Linguistics " ,
url = " https://aclanthology.org/2023.findings-emnlp.722 " ,
doi = " 10.18653/v1/2023.findings-emnlp.722 " ,
pages = " 10776--10787 " ,
abstract = "In this position paper we argue that the classical evaluation on Natural Language Processing (NLP) tasks using annotated benchmarks is in trouble. The worst kind of data contamination happens when a Large Language Model (LLM) is trained on the test split of a benchmark, and then evaluated in the same benchmark. The extent of the problem is unknown, as it is not straightforward to measure. Contamination causes an overestimation of the performance of a contaminated model in a target benchmark and associated task with respect to their non-contaminated counterparts. The consequences can be very harmful, with wrong scientific conclusions being published while other correct ones are discarded. This position paper defines different levels of data contamination and argues for a community effort, including the development of automatic and semi-automatic measures to detect when data from a benchmark was exposed to a model, and suggestions for flagging papers with conclusions that are compromised by data contamination.",
}