
Большие языковые модели видели триллионы жетонов - кто знает, что внутри? Недавние работы оценили эти модели по разным задачам, но убедились ли они, что модель еще не видела обучение или даже наборы данных оценки? В сообщении в блоге мы показываем, что CHATGPT уже запоминает некоторые популярные наборы данных.
В этом репо мы стремимся собрать (как можно больше) доказательства загрязнения, чтобы предоставить исследовательскому сообществу надежный ресурс, чтобы быстро проверить, видела ли модель их набор данных оценки. Тем не менее, мы знаем о неполноте индекса, и поэтому мы просим исследователей в любом случае, предварительно провести небольшой эксперимент загрязнения.
Вы можете посетить инструмент поиска LM Индекс загрязнения
Количество наборов данных и моделей является пугающим. Таким образом, мы представляем усилия сообщества. Если вы увлечены исследованиями НЛП и хотите внести свой вклад в отношении загрязнения в оценке LLM, пожалуйста, следуйте руководящим принципам вклада
Если вы хотите сослаться на эту работу, мы будем признателен, если вы наразите последователи:
Оскар Сайнс, Джон Андер Кампос, Икер Гарк ́ıa-Ferrero, Джулен Этсанис и Энеко Агирре. CHATGPT обманул ваш тест?, Jun 2023. URL https://hitz-zentroa.github.io/lm-contamination/blog/.
@misc { sainz2023chatgpt ,
title = { Did ChatGPT cheat on your test? } ,
url = { https://hitz-zentroa.github.io/lm-contamination/blog/ } ,
author = { Sainz, Oscar and Campos, Jon Ander and García-Ferrero, Iker and Etxaniz, Julen and Agirre, Eneko } ,
year = { 2023 } ,
month = { Jun }
} Оскар Сайнс, Джон Кампос, Икер Гарсия-Ферреро, Джулен Этсанис, Ойер Лопес де Лакалле и Энеко Агирре. 2023. Оценка NLP в проблеме: о необходимости измерения загрязнения данных LLM для каждого эталона. В результатах Ассоциации вычислительной лингвистики: EMNLP 2023, стр. 10776–10787, Сингапур. Ассоциация вычислительной лингвистики.
@inproceedings { sainz-etal-2023-nlp ,
title = " {NLP} Evaluation in trouble: On the Need to Measure {LLM} Data Contamination for each Benchmark " ,
author = " Sainz, Oscar and
Campos, Jon and
Garc{'i}a-Ferrero, Iker and
Etxaniz, Julen and
de Lacalle, Oier Lopez and
Agirre, Eneko " ,
editor = " Bouamor, Houda and
Pino, Juan and
Bali, Kalika " ,
booktitle = " Findings of the Association for Computational Linguistics: EMNLP 2023 " ,
month = dec,
year = " 2023 " ,
address = " Singapore " ,
publisher = " Association for Computational Linguistics " ,
url = " https://aclanthology.org/2023.findings-emnlp.722 " ,
doi = " 10.18653/v1/2023.findings-emnlp.722 " ,
pages = " 10776--10787 " ,
abstract = "In this position paper we argue that the classical evaluation on Natural Language Processing (NLP) tasks using annotated benchmarks is in trouble. The worst kind of data contamination happens when a Large Language Model (LLM) is trained on the test split of a benchmark, and then evaluated in the same benchmark. The extent of the problem is unknown, as it is not straightforward to measure. Contamination causes an overestimation of the performance of a contaminated model in a target benchmark and associated task with respect to their non-contaminated counterparts. The consequences can be very harmful, with wrong scientific conclusions being published while other correct ones are discarded. This position paper defines different levels of data contamination and argues for a community effort, including the development of automatic and semi-automatic measures to detect when data from a benchmark was exposed to a model, and suggestions for flagging papers with conclusions that are compromised by data contamination.",
}