
Des modèles de grands langues ont vu des milliards de jetons - qui sait ce qu'il y a à l'intérieur? Les travaux récents ont évalué ces modèles sur de nombreuses tâches différentes, mais s'assuraient-ils que le modèle n'avait pas déjà vu la formation ni même les ensembles de données d'évaluation? Dans le billet de blog, nous montrons que certains ensembles de données de référence populaires sont déjà mémorisés par Chatgpt et que l'on peut inciter Chatgpt à les régénérer.
Dans ce dépôt, nous visons à collecter (autant que possible) des preuves de contamination pour fournir à la communauté de recherche une ressource fiable pour vérifier rapidement si le modèle a déjà vu son ensemble de données d'évaluation. Cependant, nous sommes conscients de l'incomplétude de l'indice et nous demandons donc aux chercheurs de réaliser une petite expérience de contamination au préalable.
Vous pouvez visiter l'index de contamination de l'outil de recherche LM
La quantité d'ensembles de données et de modèles est intimidante. Nous envisageons ainsi un effort communautaire. Si vous êtes passionné par la recherche sur la PNL et que vous souhaitez contribuer à la contamination dans l'évaluation LLM, veuillez suivre les directives de contribution
Si vous voulez vous référer à ce travail, nous apprécierions si vous citez les suivants:
Oscar Sainz, Jon Ander Campos, Iker Garc ́ıa-Ferrero, Julen Etxaniz et Eneko Agirre. Chatgpt a-t-il triché sur votre test?, Juin 2023. URL https://hitz-zentroa.github.io/lm-contination/blog/.
@misc { sainz2023chatgpt ,
title = { Did ChatGPT cheat on your test? } ,
url = { https://hitz-zentroa.github.io/lm-contamination/blog/ } ,
author = { Sainz, Oscar and Campos, Jon Ander and García-Ferrero, Iker and Etxaniz, Julen and Agirre, Eneko } ,
year = { 2023 } ,
month = { Jun }
} Oscar Sainz, Jon Campos, Iker García-Ferrero, Julen Etxaniz, Oier Lopez de Lacalle et Eneko Agirre. 2023. Évaluation NLP en difficulté: sur la nécessité de mesurer la contamination des données LLM pour chaque référence. Dans les résultats de l'Association for Computational Linguistics: EMNLP 2023, pages 10776–10787, Singapour. Association pour la linguistique informatique.
@inproceedings { sainz-etal-2023-nlp ,
title = " {NLP} Evaluation in trouble: On the Need to Measure {LLM} Data Contamination for each Benchmark " ,
author = " Sainz, Oscar and
Campos, Jon and
Garc{'i}a-Ferrero, Iker and
Etxaniz, Julen and
de Lacalle, Oier Lopez and
Agirre, Eneko " ,
editor = " Bouamor, Houda and
Pino, Juan and
Bali, Kalika " ,
booktitle = " Findings of the Association for Computational Linguistics: EMNLP 2023 " ,
month = dec,
year = " 2023 " ,
address = " Singapore " ,
publisher = " Association for Computational Linguistics " ,
url = " https://aclanthology.org/2023.findings-emnlp.722 " ,
doi = " 10.18653/v1/2023.findings-emnlp.722 " ,
pages = " 10776--10787 " ,
abstract = "In this position paper we argue that the classical evaluation on Natural Language Processing (NLP) tasks using annotated benchmarks is in trouble. The worst kind of data contamination happens when a Large Language Model (LLM) is trained on the test split of a benchmark, and then evaluated in the same benchmark. The extent of the problem is unknown, as it is not straightforward to measure. Contamination causes an overestimation of the performance of a contaminated model in a target benchmark and associated task with respect to their non-contaminated counterparts. The consequences can be very harmful, with wrong scientific conclusions being published while other correct ones are discarded. This position paper defines different levels of data contamination and argues for a community effort, including the development of automatic and semi-automatic measures to detect when data from a benchmark was exposed to a model, and suggestions for flagging papers with conclusions that are compromised by data contamination.",
}