
Große Sprachmodelle haben Billionen von Token gesehen - wer weiß, was drin ist? Jüngste Arbeiten haben diese Modelle bei vielen verschiedenen Aufgaben bewertet, aber haben sie sichergestellt, dass das Modell das Training oder sogar die Bewertungsdatensätze nicht bereits gesehen hat? Im Blog -Beitrag zeigen wir, dass einige beliebte Benchmark -Datensätze bereits von ChatGPT auswendig gelernt werden und dass man Chatgpt dazu veranlassen kann, sie zu regenerieren.
In diesem Repo wollen wir (so viel wie möglich) Kontaminationsbeweise sammeln, um der Forschungsgemeinschaft eine zuverlässige Ressource zu liefern, um schnell zu überprüfen, ob das Modell bereits ihren Bewertungsdatensatz gesehen hat. Wir sind uns jedoch der Unvollständigkeit des Index bewusst und bitten daher die Forscher, vorher ein kleines Experiment der Kontamination durchzuführen.
Sie können den Suchwerkzeug LM -Kontaminationsindex besuchen
Die Anzahl der Datensätze und Modelle ist entmutigend. Wir stellen uns also eine Gemeinschaftsanstrengung vor. Wenn Sie sich für die NLP -Forschung leidenschaftlich interessieren und gegen eine Kontamination bei der LLM -Bewertung beitragen möchten, befolgen Sie bitte die Beitragsrichtlinien
Wenn Sie sich auf diese Arbeit beziehen möchten, würden wir uns freuen, wenn Sie die folgenden Angaben zitieren:
Oscar Sainz, Jon Ander Campos, Iker Garc ́ıa-ferrero, Julen Etxaniz und Eneko Agirre. Hat Chatgpt in Ihrem Test betrügt?, Jun 2023. url https://hitz-zentroa.github.io/lm-contamination/blog/.
@misc { sainz2023chatgpt ,
title = { Did ChatGPT cheat on your test? } ,
url = { https://hitz-zentroa.github.io/lm-contamination/blog/ } ,
author = { Sainz, Oscar and Campos, Jon Ander and García-Ferrero, Iker and Etxaniz, Julen and Agirre, Eneko } ,
year = { 2023 } ,
month = { Jun }
} Oscar Sainz, Jon Campos, Iker García-Ferrero, Julen Etxaniz, Oier Lopez de Lacalle und Eneko Agirre. 2023. In den Ergebnissen des Verbandes für Computer -Linguistik: EMNLP 2023, Seiten 10776–10787, Singapur. Assoziation für Computer -Linguistik.
@inproceedings { sainz-etal-2023-nlp ,
title = " {NLP} Evaluation in trouble: On the Need to Measure {LLM} Data Contamination for each Benchmark " ,
author = " Sainz, Oscar and
Campos, Jon and
Garc{'i}a-Ferrero, Iker and
Etxaniz, Julen and
de Lacalle, Oier Lopez and
Agirre, Eneko " ,
editor = " Bouamor, Houda and
Pino, Juan and
Bali, Kalika " ,
booktitle = " Findings of the Association for Computational Linguistics: EMNLP 2023 " ,
month = dec,
year = " 2023 " ,
address = " Singapore " ,
publisher = " Association for Computational Linguistics " ,
url = " https://aclanthology.org/2023.findings-emnlp.722 " ,
doi = " 10.18653/v1/2023.findings-emnlp.722 " ,
pages = " 10776--10787 " ,
abstract = "In this position paper we argue that the classical evaluation on Natural Language Processing (NLP) tasks using annotated benchmarks is in trouble. The worst kind of data contamination happens when a Large Language Model (LLM) is trained on the test split of a benchmark, and then evaluated in the same benchmark. The extent of the problem is unknown, as it is not straightforward to measure. Contamination causes an overestimation of the performance of a contaminated model in a target benchmark and associated task with respect to their non-contaminated counterparts. The consequences can be very harmful, with wrong scientific conclusions being published while other correct ones are discarded. This position paper defines different levels of data contamination and argues for a community effort, including the development of automatic and semi-automatic measures to detect when data from a benchmark was exposed to a model, and suggestions for flagging papers with conclusions that are compromised by data contamination.",
}